神经网络的训练需要最小化高维度非凸损失函数

来自 arXiv

机器之心编译

参与:黄晓天、刘晓坤

在本文中,研究人员提出了一种“滤波器归一化”方法,用于可视化损失函数的曲率,并对损失函数进行了实验并排比较。他们进一步探讨了各种因素(网络架构、超参数、优化器等)对损失函数形状的影响,以及损失函数形状对泛化能力的影响。

神经网络的训练需要最小化一个高维非凸损失函数——这个任务在理论上很困难,但在实践中有时很容易。尽管训练一般的神经损失函数(Blum & Rivest, 1989) 是 NP-hard,但简单的梯度方法通常会找到全局最小化器(训练损失为零或接近零的参数)配置),即使当数据和标签在训练之前已经被随机化(Zhang et al., 2017)。然而,这可行但并不普遍;神经网络的可训练性高度依赖于网络架构的设计、优化器和变量初始化的选择,以及许多其他考虑因素。不幸的是,这些选择中的每一个对潜在损失函数的几何形状的影响尚不清楚。

本文的目标是使用高分辨率可视化来提供神经损失函数的经验表征,并探索不同网络架构的选择对损失函数的影响。此外,本文探讨了神经损失函数的非凸结构与其可训练性之间的关系,以及神经最小值的几何形状(即它们的锐度/平坦度和周围形状)如何影响它们的泛化能力。

为了以有意义的方式实现这一点,本文提出了一种简单的“滤波器归一化”方案,该方案能够并行比较不同方法找到的不同最小值。然后,我们通过可视化探索不同方法找到的最小值的锐度/平坦度,以及网络架构选择(跳跃连接的使用、过滤器数量、网络深度)对损失函数的影响。本文的目的是了解损失函数几何的差异如何影响神经网络的泛化能力。

图 1:没有和有跳跃连接的 ResNet-56 损失函数表面。垂直坐标是对数以显示动态范围。本文提出的滤波器归一化方案用于比较两个图的锐度/平坦度。

图 2:在 VGG-9 上使用 mini-batch 和 large-batch 方法获得的解的一维线性差异。蓝线是损失值,红线是准确率。实线是训练曲线,虚线是测试曲线。小批量在横坐标上为 0,大批量在横坐标上为 1。

表 1:使用不同优化算法和超参数在 CIFAR-10 上的 VGG-9 测试误差。

图 3:权重直方图。权重衰减率 0、较小的批量大小会导致较大的权重。权重衰减率不是0、batch size越大得到的权重越小。

图 4:使用不同优化算法获得的最小值形状,其中使用了不同的批量大小和权重衰减率。优化器、批量大小和测试错误标记在每个子图下方。第一行使用 0 的权重衰减率,第二行使用 5e-4 的权重衰减率。

图 5:通过 SGD 和 mini-batch size、batch size 获得的解决方案的 2D 可视化。与图 4 类似,第一行使用 0 的权重衰减率,第二行使用 5e-4 的权重衰减率。

图片[1]-神经网络的训练需要最小化高维度非凸损失函数-老王博客

图 6:不同网络解决方案的 2D 可视化。

表2:不同架构的损失值和误差。

图 7:CIFAR-10 上 Wide-ResNet-56 的损失函数图像(WRN-56) 有和没有快捷连接(上半部分有 4 个图像)和没有快捷连接(下半部分有 4 个图像)一半)。k=2 表示每层的过滤器数量增加一倍,k=4 表示每层过滤器的数量增加四倍,以此类推。测试错误标记在每个图表下方。

图 8:优化器轨迹的无效可视化。这些可视化方法受到高维空间中随机方向正交性的困扰。

图 9:使用 VGG-9 的归一化 PCA 方向投影的学习轨迹。每个子图中的左图使用 128 的批大小,右图使用 8192 的批大小。

结语

本文提出了一种新的、更精确的可视化技术,能够深入了解神经网络从业者面临的众多选择的结果,包括网络架构、优化器选择和批量大小。

近年来,神经网络发展迅速。未来的进一步进展将需要对神经网络的结构有更全面的了解。本文希望通过有效的可视化技术和理论的不断进步,将导致更快的训练、更简单的模型和更好的泛化。

研究表明,当神经网络很深或没有跳跃连接时,损失函数的表面会从凸光滑变为凌乱尖锐,这大大降低了泛化能力和可训练性。

论文:可视化神经网络的损失景观

论文链接:

神经网络的训练依赖于找到(足够好)高度非凸​​损失函数的最小值的能力。使用特定的网络架构设计(例如跳过连接)生成的损失函数可以使训练过程更简单,并且通过仔细调整训练参数(批量大小、学习率、优化器)可以实现更好的泛化能力。然而,这些规律神经网络损失函数种类,以及这些因素对损失函数形状的影响,还不是很清楚。在本文中神经网络损失函数种类,我们使用各种可视化方法探索了神经网络损失函数的结构以及损失函数的形状对泛化能力的影响。首先,我们介绍一个简单的“过滤器归一化” 方法来帮助我们可视化损失函数的曲率并对损失函数进行有意义的并排比较。然后,我们使用各种可视化方法探索了网络架构对损失函数形状的影响以及训练参数对最小值形状的影响。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论