机器之心之前之前梯度下降训练的带有特定指数损失的线性网络化

选自arXiv,作者:Tomaso Poggio等,机器之心编译,参与:卢,李亚舟,刘晓坤。

本文是 DeepMind 创始人 Demis Hassabis 和 Mobileye 创始人 Amnon Shashua 的导师、MIT 教授 Tomaso Poggio 的深度学习理论系列的第三部分,分析深度神经网络的泛化能力。该系列的前两部分涉及深度神经网络的表征和优化,机器之心之前已经提供了整个理论系列的简要总结。在深度网络的实际应用中,通常会加入显式(如权重衰减)或隐式(如提前停止)正则化来避免过拟合,但这并不是必须的,尤其是在分类任务中。在这篇文章中,Poggio 讨论了深度神经网络缺乏过拟合的问题,即 当参数的数量远远超过训练样本的数量时机器学习防止过拟合,该模型可以很好地泛化。特别强调了经验损失和分类误差的区别,证明了深度网络每一层的权重矩阵都能收敛到一个最小范数解,得出深度网络的泛化能力取决于关于许多因素的相互影响,包括损失函数定义、任务类型、数据集类型等。

1 简介

在过去的几年里,深度学习在许多机器学习应用中取得了巨大的成功。然而,我们在对深度学习的理论理解和改进发展原则的能力方面落后。一个令人满意的深度学习理论描述正在出现。这涵盖了以下问题:1)深度网络的代表性;2)经验风险的优化;3)泛化——当网络被过度参数化时,即使没有明确的正则化,为什么预期误差不会增加?

本文解决了第三个问题,即非过拟合问题,该问题已在最近的几篇论文中得到解决。论文 [1] 和 [7] 表明,线性网络的泛化特性可以扩展到 DNN 来解决这个问题,其中泛化是使用梯度下降训练的线性网络收敛到最大边距解决方案,具有特定的指数损失,提供隐式正则化。该论文还表明,相同的理论可以推广到不同的经验风险零最小化。

2 过拟合问题

经典学习理论将学习系统的泛化行为描述为训练样本数 n 的函数。从这个角度来看,DNN 的行为符合预期:更多的训练数据导致更小的测试错误,如图 1a 所示。这条学习曲线的其他方面可能看起来不那么直观,但也很容易解释。例如,即使在训练误差为零的情况下,测试误差也会随着 n 的增加而减小(如 [1] 中所指出的,因为报告的是分类误差,而不是在训练期间被最小化的风险,例如交叉熵)。似乎 DNN 具有泛化能力,技术上可以将其定义为:当 n → ∞ 时,训练误差收敛到所需误差。图 1 显示了模型在正常和随机标签的 n 增加时的泛化能力。这与以往研究的结果(如[8])是一致的,尤其是[9]的稳定性结果。请注意,这种泛化特性是不寻常的:许多算法(例如 K-Nearest Neighbors)没有这种保证。

图 1:使用不同数量的训练样本进行泛化。(a) CIFAR 数据集的泛化误差。(b) 随机标记的 CIFAR 数据集的泛化误差。深度神经网络通过最小化交叉熵损失进行训练,是一个 5 层卷积网络(即无池化),每个隐藏层有 16 个通道。ReLU 用作层间的非线性函数。最终架构有大约 10,000 个参数。图中的每个点都是使用 SGD 获得的,批量大小为 100,训练 70 个 epoch,没有数据增强和正则化。

这种概括的性质虽然很重要,但在这里仅在学术上很重要。当今深度网络典型的过度参数化的真正问题(即本文的重点)是在没有正则化的情况下明显缺乏过度拟合。来自随机注释数据的训练误差为零的相同网络(图 1b)显然表现出大容量,但随着每层中神经元数量的增加而没有表现出预期的误差,而不改变多层架构增加(图 2a) . 具体来说,当参数数量增加并超过训练集大小时,测试集上的非正则化分类错误的结果不会变得更糟。

图 2:CIFAR-10 中的预期误差,水平轴上的神经元数量。该 DNN 与图 1 中的 DNN 相同。(a)预期误差与参数数量增加之间的相关性。(b) 交叉熵风险与参数数量增加之间的相关性。预期风险中存在一些“过拟合”,尽管这种指数损失函数的特性被略微夸大了。这种过拟合很小,因为 SGD 在每一层都收敛到具有最小 Frobenius 范数的网络。因此,这里的预期分类误差不会随着参数数量的增加而增加,因为分类误差比损失更鲁棒(见附录 9).

我们应该明确一点,参数的数量只是过度参数化的粗略表示。第 6 章详细介绍了实验设置。

5 深度网络的非线性动力学

5.3 个主要问题

把所有的引理放在一起,我们得到

定理3:给定一个指数损失函数和非线性划分的训练数据,即对于训练集中的所有x_n,∃f(W;x_n)服从y_n*f(W;x_n) > 0,得到零分类误差。以下性质表现出渐近平衡:

GD引入的梯度流在拓扑上等价于线性化流;该解是每层权重矩阵的局部最小 Frobenius 范数解。

在 squared loss 的情况下解析结果是一样的,但是由于线性化动力学只在零初始条件下收敛到最小范数,因此“解是局部最小范数解”定理的最终表述仅适用于线性网络,例如内核机器,不适用于深度网络。所以在非线性的情况下,平方损失和指数损失之间的差异变得非常显着。一个直观的理解为什么如图3所示。对于全局零最小值附近的深度网络,平方损失的“地形图”通常有很多零特征值,并且在许多方向上都是平坦的。然而,对于交叉熵和其他指数损失,经验误差谷有一个小的下降斜率,当 ||w|| 时接近于零。是无限的(见图<

在补充材料中,研究人员表明,通过写 W_k = ρ_k*V_k 并使 ||V_k||^2 = 1 惩罚 λ 项,考虑了相关动态,从而证明了初始条件和提前停止的独立性和正则化等价。

图 3:带有参数 w_1 和 w_2(左)的平方损失函数。最小值有一个退化的Hessian(特征值都为零)。正如文中所说,它代表了零最小值小邻域中的“一般”情况,它有很多零特征值,对于非线性多层网络的Hessian有一些正特征值。右侧显示了收敛时全局最小值附近的交叉熵风险的图示。山谷略微向下倾斜 ||w|| → ∞。在多层网络中,损失函数可能看起来是分形的,具有许多退化的全局最小值,每个最小值都类似于此处显示的两个最小值的多维版本。

5.4 为什么分类不容易过拟合

由于该解决方案是线性化系统的最小范数解决方案,我们预计与低噪声数据集的交叉熵最小化相关的分类误差很少或不会过拟合。注意:在将交叉熵作为损失函数的情况下,梯度下降可以收敛到线性分离数据上的局部最大边距解,起点可以是任意点(原因是非零斜率,如图在图 3)中。)。因此,对于预期的分类误差,可能根本不会发生过拟合,如图 2 所示。通常相关损失中的过拟合很小,至少在几乎无噪声数据的情况下,因为解决方案是局部极大值间隔解,围绕最小值的线性化系统的伪逆。最近的结果(推论 2. [10] 中的 1)证明,只要数据是可分离的,具有 RELU 激活函数的深度网络的铰链损失的梯度最小值有很大的余量。这一结果与研究人员将 [1] 的指数损失扩展到非线性网络的结果一致。注:目前,本文研究人员尚未就预期误差的性质发表任何声明。不同的零最小值可能有不同的预期误差,尽管在 SGD 的类似初始化场景中很少出现这种情况。在另一篇论文中,我们的研究人员讨论了所提出的方法如何能够预测与每个经验最小值相关的预期误差。这一结果与研究人员将 [1] 的指数损失扩展到非线性网络的结果一致。注:目前,本文研究人员尚未就预期误差的性质发表任何声明。不同的零最小值可能有不同的预期误差,尽管在 SGD 的类似初始化场景中很少出现这种情况。在另一篇论文中,我们的研究人员讨论了所提出的方法如何能够预测与每个经验最小值相关的预期误差。这一结果与研究人员将 [1] 的指数损失扩展到非线性网络的结果一致。注:目前,本文研究人员尚未就预期误差的性质发表任何声明。不同的零最小值可能有不同的预期误差,尽管在 SGD 的类似初始化场景中很少出现这种情况。在另一篇论文中,我们的研究人员讨论了所提出的方法如何能够预测与每个经验最小值相关的预期误差。

总之,这项研究的结果表明,多层深度网络在分类中表现得像线性模型。更准确地说,在分类任务中,通过最小化指数损失,保证全局最小值具有局部最大值边距。因此,动态系统理论为非过拟合的核心问题提供了一个合理的解释,如图 2 所示。主要结果是接近经验损失的零最小值,非线性流的解继承了线性化流的最小范数性质因为这些流是拓扑共轭的。损失中的过度拟合可以通过正则化显式控制(如通过权重衰减)或隐式控制(通过提前停止)。根据数据集类型,可以避免分类错误中的过度拟合,

6 实验

图 4:使用平方损失在特征空间中训练和测试的线性网络(即 y = WΦ(X)),退化 Hessian 如图 3 所示。目标函数是频率为 f 的正弦函数 f(x) = sin(2πfx) = 4 在区间 [−1, 1] 上。有 9 个训练数据点和 100 个测试数据点。在第一对图中,特征矩阵 φ(X) 为 39 次多项式。第一对图中的数据点按照 Chebyshev 节点机制进行采样,以加快训练速度,使训练误差为零。训练使用步幅 0.2 的全梯度下降进行 10,000,000 次迭代。每 120,000 次迭代后,对权重进行一定量的扰动,并允许梯度下降在每次扰动后收敛到零训练误差(机器精度的最高点)。通过添加均值为 0 且标准差 0.45 的高斯噪声来扰乱权重。扰动在第 5,000,000 次迭代时停止。第二个图显示了权重的 L_2 范数。请注意,训练重复了 29 次,图中报告了平均训练和测试误差,以及权重的平均范数。在第二对图中,特征矩阵 φ(X) 是次数为 30 的多项式。使用完全梯度下降进行训练,步幅 0.2,迭代次数为 250,000。第四个图显示了权重的 L_2 范数。注:训练重复 30 次,图中报告了平均训练和测试误差,以及权重的平均范数。在这个实验中,重量没有受到干扰。

7 解决过拟合问题

本研究的分析结果表明,深度网络与线性模型相似,虽然它们可能存在过度拟合预期的风险,但很少会过度拟合低噪声数据集的分类错误。这遵循线性网络的梯度下降特性,即风险的隐式正则化和相应类间隔的最大化。在深度网络的实际应用中,通常会添加显式正则化(例如权重衰减)和其他正则化技术(例如虚拟研究),并且通常是有益的,尽管不是必需的,尤其是在分类任务中。

如前所述,平方损失与指数损失不同。在平方损失的情况下,具有任意小 λ 的正则化(在没有噪声的情况下)保留了梯度系统的双曲率以收敛到解。然而,解的范数是依赖于轨迹的,在线性化引入的参数中,不能保证它会是一个局部最小范数解(在非线性网络中)。如果没有正则化,线性网络(而不是深度非线性网络)可以保证收敛到最小范数解。在指数损失线性网络和非线性网络的情况下,可以得到双曲线梯度流。因此可以保证解是不依赖于初始条件的最大区间解。对于线性网络(包括内核机器),存在一个非常大的余量解决方案。在深度非线性网络中,有多个最大间隔解,每个解对应一个全局最小值。本研究的分析结果在一定程度上表明机器学习防止过拟合,正则化主要提供了动力系统的双曲率。在条件良好的线性系统中,即使 λ → 0,这个结果也是正确的,因此插值核机的一般情况是在无噪声数据情况下不需要正则化(即条件数取决于x 数据,因此 y-label 与噪声无关,详见[19])。在深度网络中,这也会发生,但仅限于指数损失,而不是平方损失。有多个最大间隔解,每个解对应一个全局最小值。本研究的分析结果在一定程度上表明,正则化主要提供了动力系统的双曲率。在条件良好的线性系统中,即使 λ → 0,这个结果也是正确的,因此插值核机的一般情况是在无噪声数据情况下不需要正则化(即条件数取决于x 数据,因此 y-label 与噪声无关,详见[19])。在深度网络中,这也会发生,但仅限于指数损失,而不是平方损失。有多个最大间隔解,每个解对应一个全局最小值。本研究的分析结果在一定程度上表明,正则化主要提供了动力系统的双曲率。在条件良好的线性系统中,即使 λ → 0,这个结果也是正确的,因此插值核机的一般情况是在无噪声数据情况下不需要正则化(即条件数取决于x 数据,因此 y-label 与噪声无关,详见[19])。在深度网络中,这也会发生,但仅限于指数损失,而不是平方损失。在条件良好的线性系统中,即使 λ → 0,这个结果也是正确的,因此插值核机的一般情况是在无噪声数据情况下不需要正则化(即条件数取决于x 数据,因此 y-label 与噪声无关,详见[19])。在深度网络中,这也会发生,但仅限于指数损失,而不是平方损失。在条件良好的线性系统中,即使 λ → 0,这个结果也是正确的,因此插值核机的一般情况是在无噪声数据情况下不需要正则化(即条件数取决于x 数据,因此 y-label 与噪声无关,详见[19])。在深度网络中,这也会发生,但仅限于指数损失,而不是平方损失。

结论是,深度学习没有什么神奇之处。在泛化方面,深度学习所需的理论与经典线性网络没有什么不同。泛化本身是指收敛到预期的误差,尤其是在缺少过拟合的情况下发生过参数化时。本研究中的分析通过将线性网络的属性(例如 [1] 中突出显示的属性)应用于深度网络,解决了在不过度拟合预期分类错误的情况下泛化深度网络的困难。

8 讨论

当然,构建对深度网络性能有用的量化界限仍然是一个悬而未决的问题,因为这是一个非常常见的情况,即使对于只有一个隐藏层的简单网络(例如 SVM)也是如此。本文研究人员的主要成果是,图2所示的令人费解的行为可以用经典理论定性地解释。

这个领域有很多悬而未决的问题。尽管该论文解释了不存在过度拟合,即预期误差对参数数量增加的容忍度,但并没有解释为什么深度网络的泛化能力如此之好。也就是说,本文解释了为什么图 2 中的测试分类误差在参数数量增加并超过训练数据数量时没有变差,但没有解释为什么测试误差如此之低。

基于[20]、[18]、[16]、[10],研究人员推测这个问题的答案包含在以下深度学习理论框架中:

根据这个框架,浅层网络和深层网络之间的主要区别在于,两个网络都能够根据特定任务的组织从数据中学习更好的表示或近似值。与浅层网络不同,深度局部网络,尤其是卷积网络,在逼近层次局部合成函数的类时可以避免维度灾难。这意味着对于此类功能,深度局部网络可以表征适当类别的假设,这些假设允许以最小容量实现零近似误差的可实现设置。

论文:理论 IIIb:深度网络中的泛化

论文链接:

摘要:深度神经网络 (DNNs) 的主要问题围绕着明显不存在“过度拟合”,本文将其定义如下:当神经元数量或梯度下降迭代次数增加时,预期误差不会变得更糟。考虑到 DNN 的大容量来拟合随机标记的数据并且缺乏显式正则化,这令人惊讶。Srebro 等人的最新发现。为二进制线性网络中的这个问题提供了解决方案。他们证明,无论初始条件如何,损失函数(例如逻辑、交叉熵和指数损失)的最小化都会渐近且“缓慢”地收敛到线性分离数据集上的最大边距解。在本文中,我们展示了经验损失最小值接近于零的非线性多层 DNN 的类似结果。指数损失也是如此,但平方损失则不然。具体来说,我们展示了深度网络每一层的权重矩阵可以收敛到一个最小范数解,直到一个比例因子(在独立的情况下)。我们对动态系统的分析对应于多层网络的梯度下降,这证明了经验损失的不同零最小值的泛化性能的简单排名标准。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论