机器之心编辑部连发三篇论文全面阐述大规模语言模型依然在进展之中

机器之心报告

机器之心编辑部

DeepMind 已连续发表三篇论文,充分说明大规模语言模型仍在进行中,能力不断提升。

近年来,国内外各大AI巨头的大规模语言模型(LLM)陆续推出,如OpenAI的GPT-3、致远研究院的无道2.0等… 大模型已成为社区不可阻挡的趋势。

但是,当前的语言模型存在一些问题,例如逻辑推理能力弱。那么我们可以仅仅通过增加更多的数据和计算能力来改善这些问题吗?或者,我们是否达到了语言模型相关技术范式的极限?

今天,DeepMind“一口气”发表了三篇论文,目的之一是解决当前语言模型存在的问题。DeepMind 得出的结论是,进一步扩大大规模语言模型应该会带来实质性的改进。“这些论文的一个重要发现是,大规模语言模型仍在进行中,并且在能力上继续增长,”DeepMind 研究科学家 Jack Rae 在之前的简报中说。“这个领域并没有停滞不前。”

博客地址:

三篇论文的主题如下:

在本文中,机器之心将简要介绍大型模型Gopher和RETRO模型。

Gopher:2800亿参数,接近人类阅读理解

DeepMind 在一篇有近 100 位作者的 118 页论文中介绍了新的语言模型 Gopher 及其 Gopher 系列。

论文地址:%20Gopher.pdf

在探索语言模型和开发新模型的过程中,DeepMind 探索了 6 种不同规模的 Transformer 语言模型,参数从 4400 万到 2800 亿不等。架构细节如表1所示。参数数量最多的模型被命名为Gopher,有2800亿个参数,他们称整个模型集为Gopher族。这些模型在 152 个不同的任务上进行了评估,在大多数情况下都达到了 SOTA 性能。此外,DeepMind 提供了对训练数据集和模型行为的整体分析,涵盖模型大小和偏差。最后,DeepMind 讨论了语言模型在 AI 安全和减轻下游危害方面的应用。

DeepMind 在自回归 Transformer 架构的基础上进行了两项修改:将 LayerNorm 替换为 RMSNorm;并使用相对位置编码而不是绝对位置编码。此外,DeepMind 使用 SentencePiece 和 32,000 个词汇来标记文本,并使用字节级退避来支持开放词汇模型。

火车

DeepMind 使用了 Adam 优化器,所有模型都使用 2048-token 上下文窗口方法训练了总共 3000 亿个 token。在训练的前 1500 步中,学习率从 10^-7 增加到最大值,之后使用余弦调度将学习率衰减到 1/10。随着模型大小的增加,研究人员降低了最大学习率,并相应地增加了每批中的令牌数量,如表 1 所示。

DeepMind 采用 bfloat16 数字格式来减少内存并提高训练吞吐量。小于 7.1B 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1B 和 280B 使用 bfloat16 激活和参数。

培训基础设施

DeepMind 使用 JAX 构建训练和评估代码库。特别是,本研究使用 JAX 的 pmap 转换来提高数据和模型的并行性,并且所有模型训练和评估都在 TPUv3 芯片上进行。此外,DeepMind 采用优化器状态划分、模型并行性和重新实现来划分模型状态并减少激活,因此这种方法适合 TPU 内存。

DeepMind 发现 TPUv3 具有跨芯片快速通信的能力,因此 TPUv3 上的数据和模型并行的开销非常低,在训练 Gopher 时只产生 10% 的开销。因此,研究发现TPU在训练规模超过1024个芯片的pods之前不需要流水线操作,大大简化了中型模型的训练。

训练数据集

DeepMind 在 MassiveText 上训练 Gopher 模型家族,其中包括网页、书籍、新闻和代码等文本,包含大约 23.5 亿个文档和 10.5 TB 文本。表 2 详细说明了数据集。

结果

DeepMind 深入研究了这些不同规模的模型的优缺点,强调扩展模型可以提高其性能——例如,在阅读理解、事实检查和有害语言识别等领域。

该研究评估了 Gopher 及其模型家族在 152 个任务上的性能。DeepMind 将这些结果与 SOTA 语言模型(LM 性能的 124 个任务)、使用特定任务数据的监督方法和人类专家性能进行了比较。下面摘录了一些关键结果。

例如,逻辑推理和常识任务的性能比较:

按类别划分的大规模多任务语言理解 (MMLU) 基准性能。Gopher 在几个方面都优于以前的工作。

在这项研究中,研究人员发现 Gopher 在许多关键任务上都优于当前的语言模型,包括大规模多任务语言理解 (MMLU) 基准。在一项任务中,Gopher 取得了可与人类专家相媲美的显着进步。

除了对 Gopher 进行定量评估外,DeepMind 研究人员还通过直接交互对模型进行了测试。结果表明,当提示 Gopher 进行对话交互(例如在聊天中)时快速门编码器说明书,该模型有时会表现出令人惊讶的连贯性。

在这里,Gopher 可以讨论细胞生物学并提供正确的引用来源,即使之前没有对特定对话进行微调。该研究还详细介绍了不同模型大小的几种故障模式,包括重复倾向、传统偏见的反映和错误信息传播。

对于语言模型基准,DeepMind 在图 2 中将 Gopher 的相对性能结果与当前的 178B SOTA 模型 Jurassic-1 和 175B GPT-3 进行了扩展。结果表明,Gopher 在 19 个任务中的 8 个任务中没有超过 SOTA 技术,尤其是关于 Ubuntu IRC 和 DM 数学。

如图 4 所示,Gopher 显示了绝大多数任务的性能提升——只有 16 个任务(总共 152 个任务)的性能提升为零。相比之下,在 57 个任务上有小幅提升,相对性能提升高达 25%,在 79 个任务上有超过 25% 的显着提升。

这种类型的分析很重要,因为理解和记录故障模式可以深入了解大型语言模型如何产生下游危害,并且还建议正在研究的缓解方法应该集中在哪些方面来解决这些问题。

RETRO:使用互联网规模检索进行高效培训

另一篇论文是DeepMind提出了一种基于Gopher的改进语言模型架构。这种架构降低了训练的资源成本,更容易将模型输出追溯到训练语料库中的源头。

论文地址:%20language%20models%20by%20retrieving.pdf

具体来说,本研究提出了一种检索增强的自回归语言模型,即检索增强转换器 (RETRO),该模型使用互联网规模的检索机制进行了预训练。受大脑在学习时对特殊记忆机制的依赖的启发,RETRO 能够有效地查询文本段落以改进其预测。通过将生成的文本与生成 RETRO 的段落进行比较,可以解释模型为何做出某些预测以及它们来自何处。此外,研究人员发现,该模型能够以少一个数量级的参数实现与常规 Transformer 相当的性能,并在多种语言建模基准上实现了最先进的性能。

为本研究设计的检索增强架构能够从具有数万亿令牌的数据库中检索。为此,该方法检索连续的令牌块而不是单个令牌,这通过线性因子减少了存储和计算需求。

该方法首先建立一个键值对数据库,其中值存储原始文本令牌块,键是冻结的 Bert 嵌入(Devlin et al., 2019)。通过使用冻结模型避免训练定期重新计算嵌入整个数据库。

然后将每个训练序列划分为块快速门编码器说明书,这些块由从数据库中检索到的 K 最近邻进行扩充。编码器-解码器架构将检索块集成到模型的预测中,RETRO的架构如下图所示。

如下图所示,研究人员使用实验数据表明该方法可以很好地适应不同的模型大小和数据集大小。

该研究还评估和比较了 RETRO 模型和其他几个模型在问答任务上的表现,结果如下表所示。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论