欠拟合(Underfitting),过拟合,你猜不出他是谁!

欠拟合,过拟合

欠拟合意味着特征数量太少而无法很好地描述数据。

过拟合是指选择的特征太多,也不能很好地描述数据。

我们以猜星为例:

他有2个耳朵。这太不合适了,你猜不到他是谁!他看起来像一只斗牛梗。这只是一个合适的,你可能已经猜到他是谁了。长得像王宝强。这是过拟合。特征太具体太笼统,你还是猜不出来他是谁。

回到数学,让我们举个数学例子机器学习防止过拟合,假设我们要拟合 -x² 并使用左侧 60% 的数据进行训练。

以下是欠拟合的示例机器学习防止过拟合,使用 1 次(线性)多项式来拟合训练数据。

下面是一个刚刚拟合的例子,使用二次多项式来拟合训练数据。

下面是一个过拟合的例子,使用11次多项式来拟合数据。

图片[1]-欠拟合(Underfitting),过拟合,你猜不出他是谁!-老王博客

那么,我们如何防止过拟合呢?

简而言之,我们希望模型在所有数据上都表现良好。

在机器学习中,我们常用的方法是在成本函数中添加正则项或惩罚因子。L2 范数是常用的(范式将在后面讨论)。简单的理解是参数的平方和。参数越多,惩罚越严重。,这相当于添加了一个先验项。

优化 = 成本函数(误差项)+ 正则化项(惩罚因子)

彩蛋:和贝叶斯原理一样吗!!!

下图是加了平方和的惩罚项对应的最简单的表达式拟合误差。您可以看到最佳拟合是二次多项式。

当然,还有另一种更现实的方法。比较训练组和测试组的误差项的值,选择最小的一个。

本文中使用的技术

(如果有启发,请[观看]支持,谢谢!)

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论