计算机处理“记忆“的历史,也解读了新的模型和数据集”

莱克编译量子比特报告 | 公众号QbitAI

人们可以很容易地记住几年前的事件,并根据这些记忆继续思考现在。这种能力对于计算机来说是非常困难的。

研究人员也一直在研究它。去年年底,Deepmind 发布了一个新模型和数据集,让计算机拥有更长期的记忆和推理能力。

近日,DeepMind 的官方博客发布了最新文章,进一步解读了这一点。本文回顾了“记忆”计算机处理的历史以及新模型和数据集的进展。

回顾:深度学习如何处理记忆

发明交流电系统的发明者尼古拉曾说过:

没有基于持久印象的记忆或记忆能力。我们所说的记忆是增加对重复刺激的反应。

△尼古拉·特斯拉

在人工智能领域,最早也是应用最广泛的记忆结构是循环神经网络(RNN),被称为长短期记忆(LSTM),适用于处理和预测时间序列中间隔很长的重要事件和延误。

但是,它的计算效率很低,并且模型中的模型中可学习参数的数量会随着内存大小呈二次方增长。内存大小为 64KB 的 LSTM 产生大小为 8GB 的​​参数。

于是,DeepMind 提出了一种新的架构,DNC,一种可微分的神经计算机,它使用更大的内容矩阵来增强 LSTM。

DNC 使用注意力操作从矩阵中读取内容。类似于人类的视觉注意力,人们会被他们想要关注的事物所吸引。例如,一个人会比鞋子更关注朋友的面部表情。在 DNC 中,内存模型可以处理过去的特定事件和数据。

与 DNC 类似计算机怎样使用记忆加,具有额外注意力机制的 RNN 在翻译和回答问题方面表现良好。

自然语言模型的发展

统计语言建模可以提升 AI 中的内存架构和通用智能。

语言模型通过不断预测文本流中的下一个单词来工作。它可以用来模拟现有的文本,也可以用来生成新的文本。模拟过去的能力越好,预测就越准确,生成的文本也就越真实。

文本预测和生成可以通过上下文的概率建模来实现。添加上下文可以提高文本质量。因此,长期依赖是语言模型的一个重要挑战。

WikiText-103 是一种广泛使用的远程语言模型。由 Salesforce AI 的研究人员开发的英文维基百科文章组成。文章平均约 3600 字,在开发时远远超过了当时最先进模型的记忆窗口。

然而,谷歌研究人员最近发现,Transformer 的一种变体——称为 TransformerXL——可以保持对过去网络活动的记忆,并使用超过 1000 个词的上下文。

模型开发提出了新问题:这些基准会很快饱和吗?因此,DeepMind 发布了新的语言模型基准。

数据集 PG-19

图片[1]-计算机处理“记忆“的历史,也解读了新的模型和数据集”-老王博客

DeepMind 发布的一个新的语言建模基准数据集,命名为 PG-19。

数据来自古腾堡计划在线图书馆,并选择了 1919 年之前出版的文本。文本几乎没有预处理计算机怎样使用记忆加,例如没有字长限制,没有数字审查。

PG-19 的大小是之前语言建模基准的两倍多,一些文本比 WikiText-103 长 10 倍以上。

△PG-19与其他语言建模基准比较

新的长期记忆模型

DeepMind 还提出了一种新的长期记忆模型,Compressive Transformer。这是一个长期连续的注意力序列模型。

它的灵感来自睡眠对记忆的压缩和巩固。

颗粒记忆,类似于记忆片段,在模型经过一系列输入时被收集,随着时间的推移它们最终被压缩。

△用粗压缩的粒状短期记忆来描述过去

DeepMind 发现 Compressive Transformer 在为两个基准 WikiText-103 和 Enwik8 构建自然语言模型方面具有最先进的性能,而无需使用额外的训练数据集。

它还可以用于语音建模,尤其是处理稀有词,并且可以用于强化学习代理来解决记忆任务。

在使用 PG-19 benchmark 之后,Compressive Transformer 的最强性能也可以得到提升,写出书本般的总结。

Compressive Transformer 能够产生多种风格的叙事、多字符对话、第一人称日记或第三人称散文。尽管模型对语言的理解并不基于现实世界或现实世界中发生的事件,但通过捕捉更远距离的相关性,可以出现更连贯的文本。

内存架构的未来

在努力创建运行数天、数周甚至数年的代理时,在每一步都对所有原始数据执行计算是不切实际的。即使在当前计算能力提高的情况下,仍需要为内存开发压缩和稀疏架构,以构建操作的表示和推理。

DeepMind 认为能够捕捉日、月和年经验相关性的模型即将出现。实现更强的推理需要对过去有更好的选择性关注,以及更有效的压缩机制。

门户网站

– 结束-

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论