
【新智慧介绍】近日,国际计算语言学协会ACL举办的WMT 2021国际机器翻译大赛评比结果揭晓。微软亚洲研究院、微软翻译产品团队和微软图灵团队联合发布的微软ZCode-DeltaLM模型获得了WMT 2021“大规模多语种翻译”赛道的冠军。该模型基于微软亚洲研究院机器翻译研究团队构建的可支持数百种语言的多语言预训练模型DeltaLM,在微软ZCode多任务学习框架下训练生成。研究人员希望利用这种多语言翻译模型来有效支持更多低资源和零资源的语言翻译,
近日,在刚刚结束的国际机器翻译大赛(WMT 2021))上,微软亚洲研究院、微软翻译产品团队和微软图灵团队强强联手,展开了“大型多语言机器翻译”评测任务竞赛。在路上,风度翩翩,微软ZCode-DeltaLM模型在赛道的三个子任务中均排名第一,优势巨大。模型在大任务上实现了 10 多个 BLEU 分数的提升。
WMT国际机器翻译大赛是全球学术界公认的世界顶级机器翻译大赛。自2006年以来,WMT机器翻译大赛已成功举办了16届。每场比赛都是全球各大高校、科技公司和学术机构展示机器翻译能力的平台,也见证了机器翻译技术的不断进步。其“大规模多语言机器翻译”评估任务赛道提供数百种语言翻译开发集和部分语言数据,旨在推动多语言机器翻译研究。评估任务由三个子任务组成:一个使用模型支持定向翻译的大型任务 10,
WMT 2021 大规模多语言翻译任务中 Full-Task 和 Small-Task1 的官方结果(BLEU 分数)
重建巴别塔
据统计,世界上有7000多种不同的语言,很多语言正处于消失的边缘或已经消失。每种语言承载着不同的文明。笛卡尔曾经说过,“语言的多样性是人生最大的不幸之一”。长期以来,重建通天塔可以消除语言在经济活动和文化交流中造成的隔阂,实现语言交流,这是人类共同的梦想。1888 年,语言学家波兰犹太人扎门霍夫在拉丁语的基础上创造了一种新的语言,称为世界语。他希望全世界的人都能学会说同一种语言。这是一个理想的解决方案,但世界语最终没有流行起来。
1563年勃鲁盖尔·彼得的油画《巴别塔》。圣经中记载,人类最初生活在一起,说着同一种语言,后来人类越来越强大,想要建造一座通向天堂的高塔,叫做巴别塔。神听后大怒。上帝为了阻止人类建造通天塔,扰乱了人类的语言,使人类说着不同的语言,无法相互交流。结果,通天塔计划失败,人类分散在世界各地。
后来,计算机科学家希望通过算法模型来实现机器翻译。早期,研究人员尝试设计规则来完成任意两种语言之间的翻译,包括编制双语词典、总结翻译转换规则、建立翻译知识库等。但是,基于规则的方法存在很大的缺陷,如规则描述粒度大、覆盖率低、规则库维护成本高,导致翻译质量低、鲁棒性差、容易出现新旧规则冲突和兼容问题。 . 问题。之后,研究人员开始尝试基于数据驱动的方法来解决语言翻译问题,从基于实例的方法,到基于统计的方法,再到目前流行的基于神经网络的方法。
数据驱动的翻译方法依赖于双语平行语料库的数量和质量。受益于信息技术的发展,高资源语言的数据相对容易获取,高资源语言机器翻译系统的翻译质量越来越高,现在已经部署并大量商业化,有助于解决一些语言之间的交流。障碍推动了各种跨语言商业应用的发展,人们看到了重建通天塔的希望。
但尽管如此,目前的机器翻译仍面临诸多困难。首先,低资源语言仍然存在大量,其双语语料库难以获得,因此独立机器翻译系统对低资源语言的翻译质量非常低。其次,为所有语言构建机器翻译系统的开发和维护成本非常大。
巴别塔黎明:多语言机器翻译模型
那么,有没有更好的技术方式来实现所有语言之间的一次翻译,同时兼顾翻译性能呢?为此,研究人员开始探索多语言机器翻译模型,即只使用一种模型来实现所有语言之间的翻译。这种模型方法的动机和优点是:
(1)。基于数据驱动的方法,将所有语言代码映射到一个语义空间,然后通过解码算法从这个空间生成目标语言。与显式构造的世界语相比,这个语义空间是隐式存在,理论上可以编码人类所有语言的语义信息,就像人脑可以理解多种模态的输入信息(视觉、触觉、听觉、嗅觉、味觉等)发出相应的指令信息.
(2)。语言是相关的,很多语言同源,很多语言同根。人类语言在日常使用中经常和多种语言混用。虽然资源不同语言不平衡,混合所有语言进行模型训练,不仅可以在不同语言之间共享知识,还可以利用高资源语言的知识帮助提高低资源语言的翻译质量。
(3)。这种方法充分利用了计算机的硬件计算能力。基于先进的深度学习算法,只有一个模型可以支持数十种、数百种甚至所有语言的翻译问题。从这个意义上说,机器已经超越人类专家的翻译能力,因为即使在吉尼斯世界纪录中,一个人最多能掌握的语言也只有32种,而机器模型可以做的更多。
多语言机器翻译模型是当前非常重要的热点研究问题,有望帮助人们实现重建通天塔的愿望。近年来,微软亚洲研究院机器翻译研究团队对多语言机器翻译模型进行了多方位的研究,包括模型结构探索、模型预训练方法、参数初始化、微调方法、构建大规模模型。团队在机器翻译领域积累了大量的研究经验,在以汉语为中心的语言翻译任务中取得了丰硕的成果,包括东亚语言之间的翻译(如汉语、日语、韩语),以及中国少数民族语言翻译。, 汉语方言(如粤语),以及文言文的翻译。相关机器翻译的技术成果也让微软能够应用多种跨语言产品,如语音翻译、跨语言检索、跨语言问答等。
基于DeltaLM+Zcode,拔得头筹
在 WMT 2021 比赛中脱颖而出的多语言机器翻译模型 Microsoft ZCode-DeltaLM 是在 Microsoft ZCode 的多任务学习框架下训练的。实现该模型的核心技术是基于微软亚洲研究院机器翻译研究团队此前构建的可支持数百种语言的多语言预训练模型DeltaLM。DeltaLM 是微软开发的一系列大规模多语言预训练语言模型中的最新一个。作为基于编码器-解码器网络结构的通用预训练生成模型,DeltaLM 可用于许多下游任务(如机器翻译、文档摘要、问题生成等),并显示出良好的效果。
预训练语言模型通常需要很长的训练时间。为了提高 DeltaLM 的训练效率和效果,微软亚洲研究院的研究人员并没有从头开始训练模型参数,而是对当前最先进的编码器进行了预训练。模型(InfoXLM)用于参数初始化。虽然初始化编码器很简单,但直接初始化解码器有些困难,因为与编码器相比,解码器增加了一个额外的交叉注意力模块。因此,DeltaLM在传统Transformer结构的基础上进行了部分修改,采用新颖的交错架构来解决这个问题(如下图所示)。研究人员在解码器的自注意力层和交叉注意力层之间添加了全连接层。具体来说,奇数层的encoder用来初始化decoder的self-attention,偶数层的encoder用来初始化decoder的cross-attention。通过这种交错初始化,解码器匹配编码器结构,并且可以以与编码器相同的方式初始化参数。
DeltaLM模型结构及参数初始化方法示意图
DeltaLM模型的预训练充分利用了多语种单语语料库和平行语料库。它的训练任务是重构单句和拼接后的双句对中随机指定的块,如下图所示。
DeltaLM 模型预训练任务示例
在参数微调方面,研究人员将多语言翻译任务作为DeltaLM预训练模型的下游任务,利用双语并行数据对其参数进行微调。与其他自然语言处理任务的微调不同,多语言机器翻译的训练数据量很大,因此参数微调的成本也很大。为了提高微调的效率,研究人员采用渐进式训练方法从浅层到深层学习模型。
微调过程可以分为两个阶段:第一阶段,研究人员使用所有可用的多语言语料库直接对 DeltaLM 模型的 24 层编码器和 12 层解码器架构进行参数微调。在第二阶段,研究人员将编码器的深度从 24 层增加到 36 层,其中编码器底部的 24 层复用微调后的参数,顶部的 12 层随机初始化参数,然后继续使用在此基础上的双语数据。训练。由于使用了更深的编码器,扩大了模型的容量,并且考虑到编码器的并行性,新的编码器层数不会增加额外任务的计算时间成本。
此外,微软亚洲研究院的研究人员采用多种数据增强技术,解决了多语言机器翻译多方向数据稀疏的问题,进一步提升了多语言模型的翻译性能。研究人员在以下三个领域使用单语和双语语料库进行数据增强:
1)为了获得从英语到任何语言的回译数据,研究人员使用初始翻译模型对英语单语数据和其他语言的单语数据进行回译;
2)为了获得非英语方向的双重伪数据,研究人员通过将相同的英文文本反向翻译成两种语言来配对它们。当这个方向的效果足够好时,研究人员还直接对这个方向的单语预测进行反向翻译,得到伪平行数据;
3)研究人员还使用中心语言进行数据增强。具体而言,将中心语言到英语的双语数据进行反向翻译,得到目标语言到英语和中心语言的三语数据。
面对复杂的数据类型构成(包括并行数据、数据增强回译合成数据、双伪并行数据)和语言数据规模不平衡,研究人员基于动态调整策略不仅调整数据的优先级types技术参数英语怎么说,同时应用温度采样来平衡不同语言数据的训练使用次数。比如在模型微调的前期,更侧重于高资源语言翻译的学习,而在后期,从不同的语言数据中学习到的翻译知识更加均匀。对于每个语言对的翻译任务技术参数英语怎么说,
基于以上方法,研究人员构建的大规模多语言系统的Microsoft ZCode-DeltaLM模型在WMT 2021的隐藏测试集官方评测结果中超出预期。如下图所示,该模型领先排名第二的竞争对手平均大约 4 BLEU 分数,并且比基线 M2M-175 模型高出大约 10 到 21 BLEU 分数。与更大的 M2M-615 模型相比,模型翻译质量也分别领先 10 到 18 个 BLEU 分数。
WMT 2021 大规模多语言翻译模型评估结果列表汇总
通用模型,超越翻译
虽然微软研究人员对他们在 WMT 2021 比赛中的成绩感到兴奋,但更令人兴奋的是,微软 ZCode-DeltaLM 模型不仅仅是一个翻译模型,而是一个通用的预训练编码器 – 解码器语言模型,适用适用于所有类型的自然语言生成任务。Microsoft ZCode-DeltaLM 在 GEM Benchmark 中的许多生成任务上也取得了最佳性能,包括摘要生成 (Wikilingua)、文本缩减 (WikiAuto) 和结构化数据到文本 (WebNLG) 等任务。如下图所示,微软ZCode-DeltaLM模型的性能远优于其他参数尺度更大的模型,比如37亿参数的mT5 XL模型。
GEM Benchmark 中微软 ZCode-DeltaLM 模型对摘要生成和文本缩减任务的评估结果
请登录后发表评论
注册
社交帐号登录