「超网络」训练AI的AI训练师‍‍‍

为了摆脱繁琐的训练过程,Boris Knyazev 团队设计了一个“超级网络”,对于任何全新的深度神经网络,它都可以在几分之一秒内预测网络的参数,而不再需要被训练。

‍ ‍

开源项目:

项目开源后,团队也没有闲着,最近又发布了一波更新,大大提高了训练的速度。

训练AI的AI教练

在某种程度上,人工智能是一场数字游戏。‍‍‍

目前,训练和优化深度神经网络的最佳方法之一是使用随机梯度下降 (SGD)。

SGD 算法使用大量标记数据来调整网络的参数并减少错误或损失。梯度下降是一个迭代过程,它从损失函数的高值爬升到代表足够好的(有时甚至是最好的)参数值的某个最小值。

当然,SGD只有在有网络需要先优化时才能工作。

要建立一个从输入到输出的初始神经网络,研究人员必须依靠直觉和经验法则。

这些架构可以在神经元的层数、每层中的神经元数量等方面有所不同。

使用梯度下降找到全局最小值以最小化损失

理论上,对于一个任务,你可以选择几个架构,然后优化每一个,然后选择最好的一个。

然而,谷歌大脑的访问研究员任梦烨表示,训练和测试每个候选网络架构是不可能的,尤其是考虑到有数百万种可能的设计。

所以在 2018 年,Chris Zhang、Mengye Ren 和 Raquel Urtasun 尝试了不同的方法。他们设计了一个所谓的图超网络 (GHN),以在给定一组候选架构的情况下找到解决某些任务的最佳深度神经网络架构。

论文链接:

“图”是指深度神经网络的架构,可以将其视为由线或边连接的点或节点的集合。这里的节点代表计算单元(通常是神经网络的整个层),边代表这些单元如何相互连接。

论文提出的方法首先对神经网络架构进行随机采样,形成一个GHN;图传播后,GHN中的每个节点都会生成自己的权重参数;然后,对 GHN 进行训练以最小化采样网络并生成权重训练损失;最后,根据使用 GHN 生成的权重的性能对随机网络进行排名,并选择性能最佳的网络。

当 Knyazev 和他的同事发现图超网络的想法时神经网络c语言实现下,他们意识到他们可以在此基础上更进一步。

论文链接:

在论文中,该团队展示了如何使用 GHN 不仅可以从一些样本集中找到最佳架构,还可以预测最佳网络的参数,使其在绝对值上表现良好。

通过在给定图像数据集和我们的 DEEPNETS-1M 架构数据集上预测的参数进行反向传播训练

Knyazev 和他的同事将他们的“超级网络”称为 GHN-2。

首先,他们依靠原始 GHN 的技术将神经网络的结构描述为图。图中的每个节点都对有关执行某种类型计算的神经元子集的信息进行编码。图中的边描述了信息如何从一个节点到另一个节点,从输入到输出。

他们借用的第二个想法是一种训练超级网络以预测新的候选架构的方法,这需要两个额外的神经网络。

第一个实现对原始候选图的计算,从而更新每个节点的相关信息,第二个将更新后的节点作为输入,预测候选神经网络对应计算单元的参数。

并且这两个网络也有自己的参数,必须在超网络正确预测参数值之前对其进行优化。

为此,需要训练数据,即人工神经网络 (ANN) 架构的随机样本。

对于样本中的每个架构,从图开始,使用图超网络来预测参数,并用预测的参数初始化候选 ANN。然后,ANN 用于执行一些特定的任务,例如识别图像。

通过计算人工神经网络的损失,更新最先做出预测的超网络的参数,而不是更新人工神经网络的参数来做出更好的预测,让超网络下次做得更好。

通过迭代带注释的图像训练数据集中的每个图像和架构的随机样本中的每个 ANN,减少每一步的损失,直到它不能做得更好。

在某些时候,你最终会得到一个训练有素的超网络。

ViT 计算图的可视化

由于 GHN 的代码不是开源的,Knyazev 的团队从头开始编写自己的软件。

首先,他们确定了 15 种类型的节点,可以混合和匹配以构建几乎任何现代深度神经网络。他们在提高预测准确性方面也取得了一些进展。

最重要的是,为了确保 GHN-2 学会预测广泛的目标神经网络架构的参数,Knyazev 创建了一个包含 100 万个可能架构的独特数据集。

因此,GHN-2 的预测能力更有可能很好地推广到看不见的目标架构。

比 SGD 更好用?

当然神经网络c语言实现下,真正的考验是让 GHN-2 工作。通过训练 GHN-2 来预测给定任务的参数,例如对特定数据集中的图像进行分类,他们测试了它为任何随机候选架构预测参数的能力。新的候选架构可能与训练数据集中的数百万架构具有相似的属性,也可能不具有相似的属性。

在前一种情况下,目标架构称为分布式架构;在后一种情况下,它被称为分布式架构。深度神经网络通常无法对分布式架构进行预测,因此在此类数据上测试 GHN-2 非常重要。

在可视化图中,一个节点是 15 个基元之一,用底部的标记编码,在训练集中按频率排序。出于可视化目的,蓝色三角形标记将 1×1 卷积(相当于全连接层)与其他卷积区分开来,但其原始类型仍然只是卷积。

使用经过全面训练的 GHN-2,该团队预测了 500 个以前未见过的随机目标网络架构的参数。然后研究人员将 500 个网络的参数设置为预测值,并将它们与使用随机梯度下降训练的相同网络进行比较。

经过数千次 SGD 迭代,新的超级网络基本稳定,有时甚至比原来的更好,虽然有些结果会喜忧参半。

对于 CIFAR-10 图像数据集,GHN-2 在分布式架构上实现了 66.9% 的平均准确度,经过 2500 次 SGD 迭代训练的网络实现了 69.2% 的平均准确度. 对于分布式架构,GHN-2 的表现出奇的好,准确率达到 60% 左右。特别是它在 ResNet-50 上达到了 58.6% 的准确率,相当不错。

“ResNet-50 架构大约比我们的平均训练架构大 20 倍,因此它特别适用于这种架构,”Knyazev 在该领域的旗舰会议 NeurIPS 2021 上说。

然而,GHN-2 在 ImageNet 上表现不佳。平均来说,GHN-2的准确率只有27.2%左右。但即便如此,这个准确率还是比使用 SGD 训练 5000 步的同一网络的准确率要好,只有 25.6%(当然,如果不计成本地一直执行 SGD,最终是 95 %准确度可以获得)。

至关重要的是,GHN-2 在不到一秒的时间内做出了 ImageNet 预测。使用 SGD 获得与预测参数相同的性能在 GPU 上需要 10,000 倍的时间。

GHN-2 会从许多建筑样本中为一项任务找到最佳的神经网络,即使这个最佳选择不够好,至少获胜者得到了部分训练,并且可以在未来进一步优化。不是在使用随机参数初始化的网络上使用 SGD,而是使用来自 GHN-2 的预测作为起点。

克尼亚泽夫说:“可以说我们是在模仿这部分预训练。”

‍超网络的未来——在GHN-2之后

尽管取得了这些成功,但 Knyazev 认为机器学习社区不会很快使用图像超网络。

例如,就在 2012 年之前,机器学习研究人员更喜欢手写算法而不是神秘的深度网络。但是,当基于大量数据训练的大型深度网络开始超越传统算法时,这种阻力发生了变化。

未来,他设想在更多样化的架构和不同类型的任务上训练图像超网络,例如图像识别、语音识别和自然语言处理。然后可以根据目标架构和手头的具体任务进行预测。

如果这些超网有一天能够推出,新的深度神经网络的设计和开发将不再局限于财力雄厚、能够访问大数据的公司,任何人都可以参与。Knyazev 非常清楚这种“基础深度学习”的潜力,他称之为长期愿景。

DeepMind 研究科学家 Petar Veličković 说:“神经网络就像一个黑匣子,你使用一个神经网络来预测另一个神经网络的参数,如果它出错了,你无法解释它。”

如果像 GHN-2 这样的超网有一天真的成为优化神经网络的标准方法,Veličković 说,这种莫名其妙的问题将是一个大问题。

Kipf 看到了一线希望。“其他一些事情让我对神经网络特别兴奋,”他说。“GHN-2 展示了图像神经网络在复杂数据中寻找模式的能力。”

通常,深度神经网络会在图像、文本或音频信号中找到模式,这些是相当结构化的信息类型。GHN-2 可以在完全随机的神经网络架构图中找到模式。

此外,GHN-2 还可以对那些看不见的,甚至分布外的网络架构参数进行泛化和合理的预测。

“这项工作向我们展示了架构中的许多模式是相似的,并且模型可以学习如何将知识从一种架构转移到不同的架构,”Kipf 说。“这可能会激发一些关于神经网络的新想法。理论。”

如果是这样,它可能会导致对这些黑匣子的更新、更深入的了解。

参考:

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论