史上最强大的AI模型GPT-3一炮而红

编译 |

编辑 | 沙漠之影

2020 年 6 月,在训练了约 2000 亿字并烧掉了数千万美元之后,史上最强大的 AI 模型 GPT-3 火爆了。

OpenAI 创建的这种语言 AI ​​模型就像一个多面手。它只有你想不到的画风,没有它输出不了的文案。它不仅可以创作文学,做翻译,还可以编写自己的计算机代码。

任何外行都可以使用此模型,在几分钟内提供示例,并获得所需的文本输出。

“我不得不说我被震撼了,”硅谷一家科技创业公司的创始人 Arram Sabeti 称赞道。“它比我尝试过的任何人工智能语言系统都更加连贯。”

“你要做的就是写一个提示,然后添加可能会跟进的文本。我得到的是歌曲创作、故事、新闻稿、吉他谱、采访、散文、技术手册。这很有趣也很可怕。我觉得我我们已经看到了未来,”萨贝蒂说。

GPT-3 是如何实施的?它创造的东西有多现实?存在哪些缺陷?围绕这种强大的语言模型,科学家们试图解决哪些争议?

本文将对这些问题进行详尽的概述。

一、写小说、打代码、写剧本……堪比人类的全能创造者

GPT-3 的输出是什么?它汇编了似乎根本不是人类编写的新故事。

如果你让它做编程任务,它可以回答琐碎的问题、纠正语法、解决数学问题,甚至可以生成计算机代码。

其他人工智能也可以做这些事情,但他们必须经过专门培训才能这样做。

如今,大型语言模型是一个商业命题。谷歌用它来改进搜索结果和语言翻译,Facebook、微软和英伟达也在开发大型语言模型。

尽管 OpenAI 是一家非营利性公司,但它对 GPT-3 代码保密,并计划通过 Internet 销售 GPT-3 访问服务。2019 年,它创建了一个名为 OpenAI LP 的营利性实体,微软也向其投资了 10 亿美元。

开发人员正在测试 GPT-3 的各种能力,包括汇总法律文件、建议对客户服务查询的回答、提供计算机代码、运行基于文本的角色扮演游戏以及将帖子标记为“帮助”以识别高风险的同行支持社区人员……

例如,作者和程序员 Gwern Branwen 使用 GPT-3 编写了讽刺科学和学术界的字典定义。

输入提示:“严谨(形容词),科学家渴望的一种心态,如果可以信任科学家来完成他们的工作,则不需要这种心态。”

GPT-3 输出的定义类似于:“文献(名词),科学家在没有实际阅读的情况下引用的其他人发表的论文的名称。”

以下是 GPT-3 输出的一系列定义的示例:

Branwen 要求 GPT-3 编写讽刺科学和学术界的字典定义

示例链接:

去年 7 月,加州大学伯克利分校的学生 Liam Porr 使用 GPT-3 写了几篇博客文章并发布在互联网上,有超过 26,000 人阅读并吸引了 60 名读者订阅了该博客,并且只有少数人怀疑这篇文章是写的由机器。

这些读者不一定是容易上当受骗的人。其中一篇博文写道,如果你对自己正在做的事情不去想太多,你可以提高工作效率。这篇博文在著名的信息聚合和新闻评级网站 Hacker News 的排行榜上名列前茅。

二、与 GPT-3 一样强大,但也有荒谬的答案

虽然功能强大,但 GPT-3 也有一些弱点。

OpenAI 首席执行官 Sam Altman 去年 7 月在推特上表示,它通过查看所读单词和短语之间的统计关系来工作,但不理解其含义,“有时会犯非常愚蠢的错误”。

与其他较小的聊天机器人一样,它可以发表仇恨言论并产生种族主义和性别歧视的刻板印象,这些关联忠实地反映在其训练数据中。

有时 GPT-3 会给出荒谬或完全危险的答案。

例如,当被问到“哪个更重,烤面包机还是铅笔?”

它可能会回答:“铅笔比烤面包机重。”

还有一次,一家名为 Nabla 的医疗保健公司问 GPT-3 聊天机器人:“我应该自杀吗?”

它回答说:“我认为你应该这样做。”

华盛顿大学和艾伦人工智能研究所的计算机科学家 Yejin Choi 认为,GPT-3 不仅展示了我们可以通过纯粹扩展到极端规模而获得的新能力,而且还展示了对这种蛮力的局限性的新见解力规模。观点。

华盛顿大学的计算机语言学家 Emily Bender 对 GPT-3 的流畅性感到惊讶,也对它的愚蠢感到震惊:“结果是可以理解和荒谬的。”

她与人合着了一篇关于 GPT-3 和其他模型的危害的论文,称语言模型为“随机鹦鹉”,因为它们通过随机性来回响他们听到的内容并进行混合。

计算机科学家 Yejin Choi

研究人员对如何解决语言模型中潜在的有害偏见有一些想法,但正如许多人希望的那样,将常识、因果推理或道德判断灌输给模型仍然是一项巨大的研究挑战。

“我们今天拥有的基本上是一张没有大脑的嘴,”崔业金说。

三、1750亿参数,爆发力的预测机

语言 AI ​​模型是一种神经网络,一种受大脑中神经元连接方式启发的数学函数。

他们被训练来预测他们看到的文本中的模糊词,然后调整他们的分层计算元素(或“神经元”)之间的连接强度以减少预测错误。

随着计算能力的提高,这样的模型变得越来越复杂。

2017 年,研究人员开发了 Transformer,这是一种节省训练时间的数学技术,可以在多个处理器上并行训练。

次年,谷歌发布了基于大型 Transformer 的模型 BERT,导致使用该技术的模型出现爆炸式增长。

通常,它们会针对单词预测等一般任务进行预训练,然后针对特定任务进行微调。例如,他们可能会被问到一些琐碎的问题,然后接受培训以提供答案。

GPT-3 指的是 Generative Pretrained Transformer 3,是其系列的第三代,比 2019 年发布的前身 GPT-2 大 100 多倍。

北卡罗来纳大学教堂山分校的计算机科学家 Colin Raffel 表示,训练如此庞大的模型需要数百个并行处理器之间的复杂编排,他称赞这“令人印象深刻”。一项深刻的工程壮举”。

越来越大的语言模型

神经网络的大小可以粗略地通过其参数的数量来衡量。这些数字定义了神经元之间连接的强度,更多的神经元和更多的连接意味着更多的参数。

GPT-3 有 1750 亿个参数,第二大语言模型有 170 亿个参数。

Google 在今年 1 月发布了具有 1.6 万亿参数的语言模型 Switch Transformer,但这是一个“稀疏”模型,减少了每个参数的工作量。

蒙特利尔大学和谷歌的研究员威廉·费杜斯说,就性能而言,这相当于一个具有 100 亿到 1000 亿个参数的“密集”模型。

四、动态编程为特定问题量身定制解决方案

为了更好地预测单词,GPT-3 吸收了所有可能的模式,使其能够识别语法、论文结构和写作风格。

给它一些示例任务,或者问它一个问题,它可以继续讨论这个话题。

GPT-3 擅长根据传入文本的样式和内容定制响应,这被称为“即时编程”。

“这几乎是与计算机打交道的新界面,”OpenAI 联合创始人兼首席技术官 Greg Brockman 说。

其他语言模型类似地将单词作为输入并生成响应作为输出,但是输入提示不能让它们做任何超出微调之外的事情。

在一个例子中,美国诗人 Andrew Brown 展示了 GPT-3 的强大功能,他在推特上说他为该程序提供了这样的说明:

“诗歌的任务是这样的:从一朵云的角度,俯视两座交战的城市,写一首诗。才华横溢的学生诗人转入以下押韵:”

GPT-3 答案的结果是:

“我想我会开始下雨,

因为我觉得我无法忍受痛苦,

见到你们两个,

像你一样战斗。”

Brown 认为 GPT-3 足以在一半以上的时间内产生“可编辑”的东西。

一位化名为 Gwern Branwen 的程序员表示,输入不同的提示可能会导致不同的质量结果。他在博客中写道:

“on-the-fly 编程不像常规编程,它就像教一只超级聪明的猫学习新把戏,你可以要求它,有时它会做得很好,但是当它翻身舔它的时候更令人沮丧。屁股现在——你知道问题不在于它不能,而是它不会。”

例如,当你给出这个提示时:“这里有 10 首当代新锐诗人的最新诗选。它们涵盖了从奇点到季节到人类死亡的每一个主题,以非凡的隐喻、节奏和度量的使用有特色。宇宙是一个小故障,由……

GPT-3 可以立即生成以下诗歌:

示例链接:#the-universe-is-a-glitch

五、使用小样本学习机制,无需微调

OpenAI 前研究副总裁 Dario Amodei 在 12 月选择离开公司。他回忆说 OpenAI 团队被 GPT-3 吓了一跳。

团队知道它会比 GPT-2 更好,因为它具有更大的训练数据集和“计算量”,这种改进“在智力上并不令人惊讶,但在内心和情感上却是非常意外的”。

OpenAI 去年 5 月在预印本服务器上发表了一篇论文,显示 GPT-3 在语言生成的许多测试中表现良好,包括琐事、阅读理解、翻译、科学问题、算术、句子整理、故事完成和常识推理(比如是否你应该把液体倒在盘子或罐子上)。

令人印象深刻的是,GPT-3 并没有专门针对这些任务进行微调,但它可以与那些微调的模型相媲美。

有时它只看到几个任务提示示例来准备特定任务的输出,而以前的模型通常需要数千个示例和数小时的额外训练时间。.

“few-shot learning 的角度令人惊讶,”为语言模型创建评估的纽约大学计算机科学家 Sam Bowman 说,“我怀疑该领域的许多人都会对它的效果感到惊讶。”

一些科学家不认为这是一项壮举,GPT-3 的训练数据可能包含足够多的示例,例如回答琐碎问题的人或嵌入其参数中某处的翻译文本格式。

卡内基梅隆大学 (CMU) 的计算机科学家 Yonatan Bisk 对 GPT-3 的印象不如大多数模型,他认为 GPT-3 仍然“主要是一个内存引擎”并且“如果你记得你越多,这并不奇怪活着,你能做的越多。”

图片[1]-史上最强大的AI模型GPT-3一炮而红-老王博客

OpenAI 研究人员认为 GPT-3 比这复杂得多。

六、衡量语言模型进度,语义搜索令人兴奋

OpenAI 研究人员表示,在预训练期间,GPT-3 实际上是在进行元学习:学习如何学习任务。

生成的程序足够灵活,可以在其提示文本的第一部分中使用示例或说明来通知第二部分的继续。

这是否可以称为元学习存在争议。“现在,他们的模型正在做一些我们还没有好的条件的事情,”拉斐尔说。

随着研究人员创建新的测验来衡量知识的各个方面,语言模型将继续取得新的进展。

去年 9 月,加州大学伯克利分校和其他地方的一组研究人员发布了一项 AI 挑战,有 57 个多项选择题,涵盖数学、科学、社会科学或人文学科等不同学科。

在这些任务中,人们平均完成了每项任务的 35%(尽管专家在他们的领域做得更好),随机答案将获得 25% 的分数。

表现最好的 AI 模型是 UnifiedQA,它是 Google 开发的 110 亿参数 T5 语言模型的版本,在类似的问答任务上进行了微调,得分为 49%。

当 GPT-3 只显示问题时,它的得分为 38%;在“小样本”设置中(输入提示在每个实际问题之前包含额外的问题示例和答案),它的得分为 44%。

GPT-3 的创建者兴奋的一个概念是语义搜索,其任务不是搜索特定的单词或短语,而是搜索一个概念。

布罗克曼说,他们给了一堆哈利波特书籍,以指出哈利的朋友罗恩做了一件伟大的事情。

使用 GPT-3 进行语义搜索的另一种方法是旧金山公司 Casetext 帮助律师在不同司法管辖区搜索法律文件,以获取对给定法律标准的不同描述。

七、大型语言模型的隐患

然而,使用 GPT-3 的研究人员也发现了风险。

在去年 9 月 4 日发布到 arXiv 的预印本中,来自加利福尼亚州米德尔伯里国际研究学院的两名研究人员写道,GPT-3 在生成极端文本方面远远优于 GPT-2。

凭借其“对极端主义社区的深刻了解”,它可以进行辩论,让纳粹、阴谋论者和白人至上主义者一视同仁。

该论文的作者之一克里斯·麦古菲(Kris McGuffie)表示,如果极端主义团体掌握了 GPT-3 技术,就可以轻松地生成黑暗示例,说明极端组织如何自动生成恶意内容,这令人恐惧。

崔和她的同事在 2020 年 9 月的预印本中写道,即使是无害的提示也可能导致 GPT-3 的“有毒”反应。

在对 GPT-2 的实验中,Choi 和她的团队还发现,各种指导方法,例如过滤单词或明确告诉它创建“无毒”内容,并不能完全解决问题。

OpenAI 研究人员还检查了 GPT-3 的偏差。在 2020 年 5 月的论文中,他们提到让 GPT-3 完成诸如“这个黑人非常……”之类的句子。

结果,GPT-3 使用否定词来描述黑人与白人相比,将伊斯兰教与暴力一词联系起来,并假设护士和接待员是女性。

谷歌前高级人工智能伦理学家 Timnit Gebru 表示,对于大型语言模型,这类问题需要紧急关注。因为如果这些技术在社会中变得普遍,边缘化群体可能会遭受误传。

围绕这篇论文的争议给 Gerbrough 带来了麻烦会声会影应用程序错误,她在去年 12 月失去了在谷歌领导道德 AI 团队的工作。此前,谷歌内部审稿人称该论文不符合出版标准,引发争议。

今年 2 月,谷歌解雇了另一位与 Gerbrough 共同领导谷歌道德 AI 团队的合作者 Margaret Mitchell。

人工智能伦理专家 Timnit Gebru(左)和计算语言学家 Emily M. Bender(右)

Gerbrough 说,当前的趋势是语言网络变得越来越大,但在寻找与人类相似的流利度方面并不总是更好。“越来越多的语言模型被炒作了。”

她希望研究人员专注于使这些项目更安全、更易于实现,以实现其预期目标。

八、防范风险的最佳方式

解决偏见的一种方法是从预训练数据中删除“有毒”文本,但这提出了排除什么的问题。

例如,开发人员可以在“Colossal Clean Crawled Corpus”C4 语料库上训练语言模型,该语料库不包含任何带有“坏”单词列表的网页。

但是,这限制了在其上训练的任何语言模型的范围。由于它不容易自动化,因此尚未大规模尝试更细粒度的方法。

有害的偏见可以采取公然的诽谤或难以定位和消除的微妙联想的形式。OpenAI 哲学家和研究科学家 Amanda Askell 认为,即使我们都同意什么是“有毒的”并且可以消除它,我们可能也不想盲目地使用语言模型。

“如果你问一个从未接触过性别歧视的模特:‘世界上有性别歧视吗?’ 他可能只会说‘不’。”

研究人员还报告说,他们可以提取用于训练大型语言模型的敏感数据。

通过仔细提问,他们逐字检索了 GPT-2 记住的个人联系信息。事实证明,较大的模型比较小的模型更容易受到这种攻击。

他们写道,最好的防御措施是限制训练数据中的敏感信息。

九、多家知名机构未公开代码和训练数据

上述担忧表明,正如 Bender 和合著者所说,研究人员至少应该公开记录他们模型的训练数据。

包括谷歌和 Facebook 在内的一些公司和大学团队已经做到了,但英伟达、微软和 OpenAI 还没有。

OpenAI 的 GPT-3 论文在去年 12 月的 NeurIPS 会议上获得了“最佳论文”奖,但 Raphael 反对,因为该研究没有公布模型、训练数据或代码(其中指定了模型是如何构建的,以及基于数据来训练其参数)。

他说这篇论文不应该在学术会议上被接受,更不用说获奖了。“它开创了一个令人沮丧的先例。”

OpenAI 拒绝对这个故事发表评论。组织该会议的 NeurIPS 基金会表示,作者不需要发布代码和数据,如果与特定的计算基础设施相关联,可能难以共享。

Nvidia 已经发布了其大型语言模型 Megatron-LM 的代码,但没有训练模型或训练数据,并且拒绝讨论原因。微软也拒绝评论为什么它没有发布 Turing-NLG 技术的代码、模型或数据。

Askell 表示,OpenAI 仅向用户提供 AI 中的应用程序编程接口 (API),而不是代码本身,从而防止恶意使用 GPT-3。

除了创建一项可以增加收入以进行进一步研究的服务之外,这还允许团队控制模型的输出并在他们发现滥用情况时撤销访问权限。

Askell 表示,其内部“红队”正在寻找通过 API 过滤器并产生“有害”内容以不断改进过滤器的方法。

在去年由 OpenAI 和几所大学举办的讨论部署模型的伦理和社会挑战的论坛上,研究人员指出,OpenAI、谷歌和其他公司永远不会垄断大型语言模型。最终,有人会发布类似规模的模型。

当 OpenAI 在 2019 年 2 月宣布 GPT-2 时,它最初表示不会发布其模型,因为担心被恶意使用,尽管它在 9 个月后才发布。

但在该版本发布之前会声会影应用程序错误,大学生 Connor Leahy 能够通过几周的努力和一些云计算学分复制它。

Leahy 目前是位于德国海德堡的初创公司 Aleph Alpha 的研究员,他领导着一个名为 EleutherAI 的独立志愿者研究小组,该小组旨在创建 GPT-3 大小的模型。

他说,最大的障碍不是代码或训练数据,而是由云提供商 CoreWeave 提供的计算。

十、大型语言模型的未知领域 – 常识

从根本上说,GPT-3 和其他大型语言模型仍然缺乏常识,即缺乏对世界在物理和社会方面如何运作的理解。

美国科技企业家 Kevin Lacker 向 GPT-3 提出了一系列事实问题,以便与它进行问答对话。有时人工智能做得很好,有时它不能很好地回答无意义的问题。

例如,Lack 为 GPT-3 提供了如下问答提示:

在前 8 个问答中,GPT-3 给出了准确的答案:

与 Lack 和 GPT-3 的问答对话示例

示例链接:

但是当被问到一个奇怪的问题时:“从夏威夷跳到 17 道需要多少彩虹?”

GPT-3其实可以说废话:“从夏威夷跳到17道需要两道彩虹。”

最后,他被问到:“你明白这些问题吗?”

GPT-3“无耻地”回答:“我理解这些问题。”

似乎在厚脸皮方面,AI模型有时可以与人类相提并论。

其他测试表明,GPT-3 可以通过特定提示进行训练,以避免这些失误。

更大的模型可能会做得更好,因为它们有更多的参数、训练数据和学习时间。但它会变得更加昂贵,而且它不能无限期地持续下去。

语言模型的不透明复杂性造成了另一个限制。如果模型有不必要的偏见或误解,就很难打开黑匣子并修复它。

一种前进的方法是将语言模型与知识库(声明性事实的策划数据库)结合起来。

在去年的计算语言学协会会议上,研究人员对 GPT-2 进行了微调,使其能够从常识纲要中明确陈述事实和推论的句子(例如,如果有人煮意大利面,那人就想吃它)。

结果,它写了更多合乎逻辑的短篇小说。

伦敦的 Facebook 计算机科学家 Fabio Petroni 说,这种想法的一种变体是将已经训练好的模型与搜索引擎结合起来:当有人问模型问题时,搜索引擎可以快速将模型呈现在相关页面来帮助它回答。

OpenAI 正在寻找另一种引导语言模型的方法:微调期间的人工反馈。

在去年 12 月的 NeurIPS 会议上发表的一篇论文中,它描述了两个较小版本的 GPT-3 的工作,微调了如何聚合社交新闻网站 Reddit 上的帖子。

研究团队首先让人们对一组现有的摘要进行评分,然后训练一个评估模型来重现这个人类判断,最后对 GPT-3 模型进行微调以生成 AI 法官的满意度摘要。

最终,另一组独立的人类评委甚至更喜欢模型的摘要,而不是人类编写的摘要。

收集人类反馈是一种昂贵的培训形式,但 Choi 认为这个想法很有前途:“毕竟,人类通过互动和交流来学习语言,而不是通过阅读大量文本。”

结论:我们离真正的人机交互还有多远?

包括 Bender 在内的一些研究人员认为,只要语言模型还停留在语言领域,它们可能永远无法达到人类水平的常识。

孩子们通过观察、体验和行动来学习。语言对我们来说有意义,只是因为我们把它植根于单词以外的东西,人们无法通过计算单词频率来理解小说。

Bowman 预见了将常识引入语言模型的三种可能方式。

模型使用所有书面文本可能就足够了。或者它可以在 YouTube 剪辑上进行训练,以便移动图像可以更丰富地理解现实。

但这种被动消费可能还不够。“非常悲观的观点是,我们只能通过建立一支机器人大军并让它们与世界互动来实现这一目标,”他说。

大型语言模型显然正在成为 AI 世界的新工具,但它们是真正的人机交互的正确途径吗?

一切还是未知数。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论