岭回归的代价函数如下:从上式可以看出,正则化(regularization)就派上用场了

在机器学习模型的训练过程中,经常会出现过拟合和欠拟合的情况。那么这两个是什么?

用外行的话来说,过度拟合意味着我们的模型对数据的模拟非常好,以至于训练集中的数据几乎可以完美预测。有人说,我对完美的预测错了吗?是的,你错了。因为我们的目标不是看你对训练集中数据的预测有多好,而是看测试集上的表现。也就是说,将模型置于新环境中并测试预测。同时,我们的训练集中的数据是嘈杂的。如果你甚至完美地预测了噪声,那么模型在测试集中的表现肯定不是很好。从专业上讲,模型的泛化能力较差。

欠拟合,与过拟合完全相反,我们的模型在训练集上的表现非常糟糕,以至于它很少能正确预测。放到测试集中也不会有很好的效果。

这两种情况如何解决?对于欠拟合,我们可以增加模型的复杂度,增加数据量等等。至于过拟合,今天的主角——正则化(regularization)就派上用场了。

也就是说,对于我们之前的线性回归模型,添加一个正则化项使其不太容易过度拟合。根据正则化项的不同,一般分为Ridge Regression和Lasso Regression。我们先来看看广泛使用的岭回归。

岭回归的代价函数如下:

从上式可以看出机器学习防止过拟合,正则化项其实就是参数w的平方和乘以一个系数λ。对于加了正则化项的代价函数,如果我们想找到最小值得到w的解,我们仍然需要推导J(w)。

在加入正则化项之前,J(w)的导数可以简化为(参考前面线性回归模型推导):

并且正则化项的导数是λw/m,将这两者相加,我们得到

将其设置为 0,我们得到:

注意 w 的一个系数是一个矩阵,另一个是一个标量 λ。我们想提高w,我们应该怎么做?实际上,只需将 λ 乘以单位矩阵:

之前我们在线性回归中推导出这一步的时候,我们说w的矩阵系数可能是不可逆的。但现在我们添加项 λI 以确保 w 的矩阵系数必须是可逆的。因此,等式两边乘以矩阵系数的倒数,得到 w 为:

这就是我们直接通过推导得到参数w的值。当然我们也可以用梯度下降法来计算,只要在梯度下降公式后面加上‘λm’这个词,这里就不推演了。.

推导完毕,我们再回顾一下lower ridge回归的代价函数,重点关注它的正则化项,思考一下为什么加了之后可以避免过拟合?

注意我们的参数 λ。如果比较大,如果J(w)取小值,那么必须减小系数w,这样就降低了模型的复杂度,缓解了过拟合现象。但是,λ 不能太大。如果太大,系数会被严重“惩罚”,模型太简单,可能会欠拟合。同时,λ 不能太小。当λ接近0时,相当于我们的不加正则化项,过拟合也无法缓解。

最后,让我们简单了解一下 Lasso 回归。与岭回归相比,它的正则化项是参数w的绝对值之和,表示为:

如果我们使用梯度下降法,则 J(w) 的梯度为:

其中,sign(w)称为符号函数。其含义是:当w>0时机器学习防止过拟合,sign(w)=1;当W

最后,我们称 Lasso 回归 L1 正则化和 Ridge 回归 L2 正则化。因为它们的正则化项分别是 L1 范数和 L2 范数。Lp 范数定义如下:

今天就到这里了,我们会在下一篇文章中介绍分类模型,敬请期待。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论