：过拟合假设一个输入空间X是一维的唯一解

老王博客

2年前发布
关注私信

030

什么是过拟合

假设一个回归问题，输入空间X为一维，样本点数为5，目标函数为二次函数，但标签y包含噪声，采用四次多项式变换结合线性回归求解问题的权向量w，得到Ein=0的唯一解，如下图所示

从图中可以看出，虽然Ein小机器学习防止过拟合，但Eout大，所以四次多项式函数泛化能力差。

看VC维度与错误率的关系：

从紫色虚线向右，过拟合（Ein-，Eout+）；向左，欠拟合 (Ein+, Eout-)

过拟合是一个Ein-Eout+的过程，不好的泛化在Ein小而Eout大的地步

以驾驶为例：

噪声和数据量对过拟合的影响

首先，我们有两组数据，分别由 10 次多项式和第 50 次多项式的目标函数生成。前者有噪音，后者没有噪音。数据点如图：

训练集 A，训练集 B

1、使用两个学习模型（二次假设空间

和十次多项式假设空间

) 学习训练集A\B得到的假设函数g和错误率如下：

@ >

为什么二次模型的度数和目标函数相差很大，但是10次多项式模型的学习能力更好？这与训练样本的数量有关，如下图所示：

从图中可以看出机器学习防止过拟合，在数据量较小的情况下，虽然2次假设的Ein比10次假设的函数的Ein大很多，但是差异2 阶假设中的 Ein 和 Eout 之间的值远小于 10 阶假设中的。因此，在样本点不多的情况下，低阶假设的学习泛化能力更强，即处于灰色区域（样本不多）。 )，高阶假设函数过拟合。

上面解释了在有噪声的情况下，低阶多项式假设比与目标函数同阶的多项式假设表现更好，那么如何解释50阶多项式函数在二次函数有什么现象呢？因为第 50 个目标函数等效于第 2 个假设或第 10 个假设有噪声的情况（两者都达不到第 50 个目标函数，因此等效于包含噪声）。

注意：关于噪声的进一步理论阐述，暂不赘述。（噪声也是过拟合的一个重要原因）

如何处理过拟合

以开车为例：

前三项已经解释或通俗易懂，后两项在后面的文章中讨论。

题图：我爱这静谧的黄昏，我爱这长长的秋空，小头对小头，聊着花开落落，笑看云淡风轻。 2017-11-07 14:57:01

© 版权声明

文章版权声明 1、本站永久网址：https://www.9im.cn
2、本主题所有言论和图片纯属会员个人意见，与本网站立场无关。
3、本网站所有源码和软件均为作者提供和网友推荐收集整理而来，对提供的源码不拥有任何权利，其版权归原著者拥有。仅供学习和研究使用,下载后请24小时内删除。不得使用于非法商业用途，不得经营非法游戏或违反国家法律。一切关于该资源商业行为与老王博客无关。
4、如果您喜欢该程序，请支持正版源码、软件，购买注册，得到更好的正版服务。如有侵犯你版权的，请邮件与我们联系处理，本站将立即改正。
5、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

喜欢就支持一下吧

评论抢沙发

请登录后发表评论