:过拟合假设一个输入空间X是一维的唯一解

什么是过拟合

假设一个回归问题,输入空间X为一维,样本点数为5,目标函数为二次函数,但标签y包含噪声,采用四次多项式变换结合线性回归求解问题的权向量w,得到Ein=0的唯一解,如下图所示

从图中可以看出,虽然Ein小机器学习防止过拟合,但Eout大,所以四次多项式函数泛化能力差。

看VC维度与错误率的关系:

从紫色虚线向右,过拟合(Ein-,Eout+);向左,欠拟合 (Ein+, Eout-)

过拟合是一个Ein-Eout+的过程,不好的泛化在Ein小而Eout大的地步

以驾驶为例:

噪声和数据量对过拟合的影响

首先,我们有两组数据,分别由 10 次多项式和第 50 次多项式的目标函数生成。前者有噪音,后者没有噪音。数据点如图:

训练集 A,训练集 B

1、使用两个学习模型(二次假设空间

和十次多项式假设空间

) 学习训练集A\B得到的假设函数g和错误率如下:

@ >

为什么二次模型的度数和目标函数相差很大,但是10次多项式模型的学习能力更好?这与训练样本的数量有关,如下图所示:

从图中可以看出机器学习防止过拟合,在数据量较小的情况下,虽然2次假设的Ein比10次假设的函数的Ein大很多,但是差异2 阶假设中的 Ein 和 Eout 之间的值远小于 10 阶假设中的。因此,在样本点不多的情况下,低阶假设的学习泛化能力更强,即处于灰色区域(样本不多)。 ),高阶假设函数过拟合。

上面解释了在有噪声的情况下,低阶多项式假设比与目标函数同阶的多项式假设表现更好,那么如何解释50阶多项式函数在二次函数有什么现象呢?因为第 50 个目标函数等效于第 2 个假设或第 10 个假设有噪声的情况(两者都达不到第 50 个目标函数,因此等效于包含噪声)。

注意:关于噪声的进一步理论阐述,暂不赘述。 (噪声也是过拟合的一个重要原因)

如何处理过拟合

以开车为例:

前三项已经解释或通俗易懂,后两项在后面的文章中讨论。

题图:我爱这静谧的黄昏,我爱这长长的秋空,小头对小头,聊着花开落落,笑看云淡风轻。 2017-11-07 14:57:01

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论