欠拟合,过拟合
欠拟合意味着特征数量太少而无法很好地描述数据。
过拟合是指选择的特征太多,也不能很好地描述数据。
我们以猜星为例:
他有2个耳朵。这太不合适了,你猜不到他是谁!他看起来像一只斗牛梗。这只是一个合适的,你可能已经猜到他是谁了。长得像王宝强。这是过拟合。特征太具体太笼统,你还是猜不出来他是谁。
回到数学,让我们举个数学例子机器学习防止过拟合,假设我们要拟合 -x² 并使用左侧 60% 的数据进行训练。
以下是欠拟合的示例机器学习防止过拟合,使用 1 次(线性)多项式来拟合训练数据。
下面是一个刚刚拟合的例子,使用二次多项式来拟合训练数据。
下面是一个过拟合的例子,使用11次多项式来拟合数据。
那么,我们如何防止过拟合呢?
简而言之,我们希望模型在所有数据上都表现良好。
在机器学习中,我们常用的方法是在成本函数中添加正则项或惩罚因子。L2 范数是常用的(范式将在后面讨论)。简单的理解是参数的平方和。参数越多,惩罚越严重。,这相当于添加了一个先验项。
优化 = 成本函数(误差项)+ 正则化项(惩罚因子)
彩蛋:和贝叶斯原理一样吗!!!
下图是加了平方和的惩罚项对应的最简单的表达式拟合误差。您可以看到最佳拟合是二次多项式。
当然,还有另一种更现实的方法。比较训练组和测试组的误差项的值,选择最小的一个。
本文中使用的技术
(如果有启发,请[观看]支持,谢谢!)
© 版权声明
THE END
喜欢就支持一下吧
请登录后发表评论
注册
社交帐号登录