什么是过拟合?什么又是欠拟合(under-fitting)

在机器学习和深度学习建模中都可能遇到两种最常见的结果,一种称为过拟合,另一种称为欠拟合。

什么是过拟合?什么是欠拟合?网上很直接的图是这样理解的:

过拟合问题:

当模型过度学习训练数据中的细节和噪声,导致模型在新数据上表现不佳时,我们称之为过度拟合。通俗点是:在训练集中测试的模型准确率要高很多。对于测试集的准确率,一般的解决方法如下:

1.数据检测:首先对采集到的数据进行重新整理,样本数量是否过少,样本信息是否不够全面,某类特征的样本数量是否过多很多,比如训练样本中锯齿叶的数量。如果大部分都使用,学习算法容易过拟合。

2.添加数据集:在机器学习中一直有一句话“有时更多的数据胜过一个好的模型”。有一些方法可以增加数据,例如在数据中添加一些随机噪声,从源中收集更多数据,重采样等方法。

重采样也可用于评估模型性能。保留验证数据集的最流行的重采样技术是 k 折交叉验证。它是指在训练数据的子集上训练和测试模型 k 次,同时建立机器学习模型在未知数据上的性能评估。

验证集只是您保留到机器学习算法结束的训练数据的一个子集。在训练数据上选择和调整机器学习算法后,我们在验证集上评估模型,以深入了解模型在未知数据上的表现。

3.正则化方法:这是从技术角度通过控制训练模型的复杂度来保证模型不容易过拟合(一般来说模型越复杂越容易过拟合问题)。

欠拟合问题

通俗地说:在训练数据和未知数据上表现不佳

以上都是描述如何避免过拟合的方法。在实际模型训练中,有时会出现欠拟合。对于欠拟合,也有一些方法可以规避。

1.减少正则化:见上面正则化部分的介绍,正则化可以避免过拟合机器学习防止过拟合,所以当出现过拟合时,可以通过减少发生的正则化损失函数来防止过拟合。

2.增加数据量和特征维度:由于模型可用于学习的数据量可能不够大,导致模型训练不够,模型复杂度不够。另外,如果在统计数据信息中机器学习防止过拟合,每个维度的个数收集不够,或者大部分维度信息不具备区分样本的特征。面对这个问题的主要方法是收集更多的特征维度,或者增加抽样信息来扩展数据。

3.增加算法模型的复杂度:比如很多训练样本不是线性可分的。如果使用线性方法进行拟合,可能无法获得理想的拟合方法。这时,可以引入非线性方法,例如核函数。增加模型复杂度的其他方法或更复杂的深度学习方法

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论