深度学习成功,正在反哺神经科学!(附视觉模型)

介绍

深度学习的成功正在回馈神经科学。例如,如果您现在想研究哺乳动物大脑如何区分猫和狗,您可以检查区分猫和狗的神经网络是如何工作的。然而,11 月 12 日在线发表在《自然通讯》杂志上的一篇论文指出,由于神经网络训练的初始条件和超参数不同,即使具有相似的判别精度,不同的神经网络之间也存在显着差异。该研究还指出,在比较网络结构的差异时,需要考虑多个组之间的差异,而不是多个神经网络。这对计算神经科学,尤其是视觉模型研究具有指导意义。

论文题目:

深度神经网络模型之间的个体差异

论文地址:

1. 如何衡量神经网络之间的异同

作为迄今为止最成功的人工智能模型,卷积神经网络的灵感来自模仿大脑的视觉皮层的腹侧视觉流。由于视觉处理是分层的,早期阶段处理的是边缘、颜色等低级特征。更抽象的特征,如整个对象和面部,只出现在下额叶皮层等后处理阶段。

图1:卷积神经网络结构示意图(辨别图中的马)

借鉴对大脑的神经科学研究,卷积神经网络采用了类似的结构。上图所示的卷积神经网络分为9层。通过对数据的层次压缩,提取高层特征,最后将特征用于分类。

研究大脑的神经科学家需要了解大脑如何区分不同的物体。例如,植物和动物是否使用相同的神经机制。但是直接观察大脑太难了。观察与大脑结构相似的人工神经网络要容易得多。神经科学家可以根据人工神经网络在区分动物和识别植物方面的差异,推断出大脑的大脑区域之间的异同神经网络参数初始化,从而识别动植物。

图 2:两个神经网络的差异估计

根据人工神经网络中的激活(即训练网络中的神经元权重向量),可以计算出区分马和卡车的神经网络之间的差异。大。这些称为代表性差异矩阵(RDM)。

图 3:测量两组神经网络之间差异的方法

对于具有相同功能的两组神经网络(例如,一组判别马,一组判别卡车),可以通过比较函数 A 和函数 B 网络的 RDM,然后计算两者之间的 Pearson 相关系数来衡量。两组网络。这两个函数对应的神经网络的区别。

2. 增加深度

带来了神经网络之间表征差异的异同

无论是区分动物还是植物,最初都需要区分图像中的局部直线或曲线等特征,随着抽象程度较高的特征被提取出来,具有相同任务的神经网络会通过多维缩放(Multidimensional scaling)分析被可视化并聚集在一起,如图4所示。

图4:每个点代表一个神经网络,不同的颜色对应不同的判别函数。从左到右,神经网络的深度不断增加

将图中区分每个对象的神经网络视为一个类,然后将不同层的神经网络之间的相关差异距离显示为彩色热图。网络没有区别。

随着网络层数的增加,对角线上的小方块逐渐变浅,说明用于区分不同对象的神经网络是不同的,这进一步说明与待区分对象相关的抽象表示会出现在一个更高层次的神经网络。. 如图 5 所示。

图片[1]-深度学习成功,正在反哺神经科学!(附视觉模型)-老王博客

图 5:随着网络深度的增加,神经网络中的个体差异出现

3. 高级功能各不相同

这项研究的另一个发现是,具有相同结构和相同判别能力的神经网络可能会因为训练过程中的随机性而导致高级表示的差异。

在下图中,对于一个共享权重差异的神经网络(蓝线)和一个 7 层的 Alex Net-like 神经网络(黑线),增加网络的深度会导致网络之间的标准差增加。

图6:100个判别神经网络每层表示矩阵对应的相关系数均值

这意味着训练过程中的随机性会导致具有相同判别能力的神经网络根据各自提取的不同抽象特征进行判别。无论采用哪种方法计算抽象特征之间的相似度,都会得到相似的结果。

如下图所示,当用cos距离、Manhattan距离或归一化距离代替差值度量时,得到了类似的结果。

图 7:不同测量方法下,神经网络各层表示矩阵对应的相关系数均值随着层数的增加而减小

4. 高级表示向量中的方差来源

为什么上述“完成相同判别任务的神经网络具有不同的高层表示”是本研究接下来要讨论的问题。

在人类学习中,这个问题可以类比为为什么老师教给学生一个任务,但不同的学生在最后一步会自发地不同。

假设有 10 个区分猫的神经网络,找到这些网络的表示向量的质心神经网络参数初始化,然后用这些质心计算区分不同物体的神经网络之间的相关性。会发现,随着网络深度的增加,标准方差并没有明显增加(下图中的绿线)。

图 8:不同层的表示向量的质心对应的相关性不随网络层的深度而增加

这意味着要区分不同的任务,所需的特征是相似的,而同一任务之间表示的差异来自于训练初始化中引入的随机性。

在神经网络的训练过程中,为了避免梯度爆炸,对权重进行了正则化。这会导致一些人工神经网络中的神经元在实践中是等价的并被淘汰。在深度学习中,为了提高泛化能力,一种常用的方法是dropout,即随机去激活一些神经元。

下图显示,在训练过程中,随着dropout神经元(纵轴)比例的增加,神经网络最后一层的表示一致性先增大后减小。

图 9:训练期间具有不同 dropout 率的最后一层神经网络的表征一致性热图

如图 9 所示,图中的点越接近黄色,抽象表示的相似度越高。由于不同对象神经网络之间的抽象表示相似,网络具有更好的泛化能力,这就解释了为什么 dropout 是一种有效的正则化机制。当 dropout 比例过高时,网络无法提取对分类任务有意义的特征,因此最终的表示不同。

5. 神经网络模型的个体差异

对神经科学和人工智能的启示

通过一系列实验,研究表明,由于前馈深度神经网络训练过程中初始权重的随机性,当其他所有因素保持不变时,网络学习到的内部表示会有所不同。并且随着网络层深度的增加,个体差异似乎显着增加。出现的个体差异部分可以通过正则化引起的部分神经元失活的随机化来解释。

对于神经科学研究人员来说,如果忽略具有相同功能的神经网络之间的差异,那么在使用神经网络模拟大脑运行时得出的结论就会受到随机性的影响。更合适的做法是研究具有相同功能的多个神经网络的质心,以克服随机因素的影响。

对于 AI 研究人员而言,该研究使研究人员能够在给定训练参数(例如网络结构有多大、不同的网络类型、不同的训练集和要完成的任务目标)的情况下估计得到的网络。,可能有多少代表性可变性,反映了预期的网络可变性。

这使研究人员能够更好地调整神经网络超参数和训练程序,以确保从中派生的模型更好地泛化。并更深入地理解为什么不同的神经网络在不同难度的分类任务上存在性能差异。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论