什么是过拟合
假设一个回归问题,输入空间X为一维,样本点数为5,目标函数为二次函数,但标签y包含噪声,采用四次多项式变换结合线性回归求解问题的权向量w,得到Ein=0的唯一解,如下图所示
从图中可以看出,虽然Ein小机器学习防止过拟合,但Eout大,所以四次多项式函数泛化能力差。
看VC维度与错误率的关系:
从紫色虚线向右,过拟合(Ein-,Eout+);向左,欠拟合 (Ein+, Eout-)
过拟合是一个Ein-Eout+的过程,不好的泛化在Ein小而Eout大的地步
以驾驶为例:
噪声和数据量对过拟合的影响
首先,我们有两组数据,分别由 10 次多项式和第 50 次多项式的目标函数生成。前者有噪音,后者没有噪音。数据点如图:
训练集 A,训练集 B
1、使用两个学习模型(二次假设空间
和十次多项式假设空间
) 学习训练集A\B得到的假设函数g和错误率如下:
@ >
为什么二次模型的度数和目标函数相差很大,但是10次多项式模型的学习能力更好?这与训练样本的数量有关,如下图所示:
从图中可以看出机器学习防止过拟合,在数据量较小的情况下,虽然2次假设的Ein比10次假设的函数的Ein大很多,但是差异2 阶假设中的 Ein 和 Eout 之间的值远小于 10 阶假设中的。因此,在样本点不多的情况下,低阶假设的学习泛化能力更强,即处于灰色区域(样本不多)。 ),高阶假设函数过拟合。
上面解释了在有噪声的情况下,低阶多项式假设比与目标函数同阶的多项式假设表现更好,那么如何解释50阶多项式函数在二次函数有什么现象呢?因为第 50 个目标函数等效于第 2 个假设或第 10 个假设有噪声的情况(两者都达不到第 50 个目标函数,因此等效于包含噪声)。
注意:关于噪声的进一步理论阐述,暂不赘述。 (噪声也是过拟合的一个重要原因)
如何处理过拟合
以开车为例:
前三项已经解释或通俗易懂,后两项在后面的文章中讨论。
题图:我爱这静谧的黄昏,我爱这长长的秋空,小头对小头,聊着花开落落,笑看云淡风轻。 2017-11-07 14:57:01
请登录后发表评论
注册
社交帐号登录