FacebookAI首次提出多语言机器翻译模型——M2M-100

译者:人工智能研究院

双语原文链接:数据科学职业是否面临自动化风险?

Facebook AI 率先提出了多语言机器翻译(MMT)模型,即 M2M-100,可以在不依赖英语数据的情况下在任意 100 种语言之间进行翻译。该项目已开源。

因为英文训练数据非常广泛,所以之前的中法翻译模型会分别训练中英和英法的翻译模型,并以英文作为中间环节来实现翻译。本文模型直接应用中法训练数据,更好地保留语义。计算BLEU指标显示它比英语系统高出约10个百分点。

M2M-100 共训练了 2200 种语言,是之前最好的以英语为中心的多语言模型的 10 倍。通过M2M-100模型,将助力10亿人的翻译工作,低资源语言的翻译将得到显着提升。

Facebook AI 经过多年的机器翻译努力,终于实现了这一里程碑。接下来,我们介绍具体的研究工作,包括为 100 种语言构建的翻译训练数据、模型的细节和训练。同时,我们也将模型开源,并公布模型的训练和评估设置,以方便其他研究人员复制,并以此进一步推动多语言模型的发展。

机器翻译(MT)有能力打破语言障碍,团结不同语言的人,向不同人群提供有关COVID的权威信息,帮助他们避免感染。得益于我们在低资源机器翻译和翻译质量评估方面的最新研究和进展,我们现在每天在 Facebook 动态消息上提供近 200 亿次翻译。

典型的 MT 系统需要针对不同语言和任务的单独翻译模型。但是,这种方法并不适合 Facebook,因为 Facebook 有数十亿内容以 160 多种语言发布。如今的多语言系统,虽然可以同时处理多种语言,但使用英语数据作为源语言和目标语言之间的中继,降低了准确性。因此,我们需要一个真正的多语言机器翻译(MMT)模型,可以直接在任何语言之间进行翻译,这将更好地为我们的社区服务。

我们多年来一直在 Facebook 研究 MT,我们终于自豪地宣布:我们首次构建了一个大规模的 MMT 模型,可以直接在 100 种不同的语言之间进行翻译,而无需依赖英语作为过境语言。同时,我们的多语言模型的性能并不弱于传统的双语模型,甚至比以英语为中继的多语言模型高出 10 个 BLEU 点。

通过一种新颖的挖掘策略,我们首次构建了一个真正的“多对多”翻译数据集,其中包含 75 亿个句子,涵盖 100 种不同的语言。最终,我们构建了一个具有 150 亿个参数的通用模型,该模型捕获了有关语言的信息,并能够学习更多不同的语言和形态特征。在这里查看开源地址。

挖掘数十亿不同语言的训练句子

构建多对多 MMT 模型的最大障碍之一是训练数据,即不同语言之间的直接高质量翻译数据,而不是英语作为中间语言。然而,现实情况是,中英文、英法文的翻译数据比法文和中文的直接翻译数据更容易获得。此外,训练所需的数据量与支持的语言数量成正比技术参数英语怎么说,例如,如果每种语言需要 10M 句对,那么 10 种语言是 1B 句对,100 种语言需要 100B 句对。

构建 100 种语言的 75 亿句对的多对多 MMT 数据集是一项艰巨的任务,由于我们多年来积累的不同数据挖掘资源,包括 ccAligned、ccMatrix 和 LASER,这是可行的。为此,我们创建了一个新的LASER 2.0,它提高了fastText语言识别,从而提高了挖掘质量,相关的训练和评估脚本也将开源。当然,所有这些数据都是开源且合法的。

Facebook AI 提出的多对多多语言模型是多年研究的结晶,其机器翻译模型、数据资源和优化技术均具有开创性。本文重点介绍了一些主要成就。另外,我们通过挖掘ccNET创建了一个庞大的训练数据集,基于fastText;基于 CCMatrix 的 LASER 库可以在多语言嵌入空间中嵌入句子;CCAligned 可以根据 URL 匹配对齐文档。此外,我们开发了改进版 LASER 2.0。

即使使用 LASER 2.0 等先进技术,从 100 种不同语言/4450 种可能的语言对中挖掘任何类别的训练数据也是计算密集型的。由于数据规模庞大,为了便于管理,我们首先关注翻译请求最多的语言。因此,我们根据数据大小和数据质量对挖掘目标进行了优先排序,并丢弃了对极冷门语言的数据挖掘,例如冰岛语-尼泊尔语或僧伽罗语-爪哇语。

接下来,我们引入一种新的过渡挖掘策略,根据地理和文化的相似性将语言分为 14 个语言组。这样做是因为在同一个国家或地区的人们会有更多的交流,因此翻译数据的质量会更高。例如,印度地区的语言被分为一组,包括孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。同样,我们的系统挖掘不同组的所有语言对。

为了在不同组的语言之间建立联系,我们从每个组中选择少量的过渡语言,通常是一到三种主要语言。在上面的例子中,我们选择了印地语、孟加拉语和泰米尔语作为 Indo Ya-Ryan 语言的过渡语言。然后我们并行挖掘了 2200 种过渡语言组合的所有数据,得到了 75 亿个条目的训练集。由于翻译数据在两种语言之间是可相互训练的(例如en->f和fr->en),我们的挖掘策略采用了高效的稀疏挖掘方法,通过单个模型可以达到100×100(总共9900)。a) 结合数据挖掘工作。

在并行挖掘的过程中,会得到一些低质量、低资源的翻译数据。基于此,我们使用反向翻译的方法对这类数据进行了扩展,帮助我们在 2018 年和 2019 年的 WMT 国际机器翻译大赛中获得了第一名。具体来说,如果我们的目标是训练一个中文到法文的翻译模型,那么我们将首先训练一个法文到中文的模型,然后将法文反向翻译成中文。我们发现这种方法在数据量很大(例如数亿个句子)时非常有效。在这项研究中,我们使用反向翻译的合成数据来扩充挖掘数据集,并且我们还使用反向翻译来为那些未标记的语言对创建训练数据。

总体而言,与仅在挖掘数据上训练的模型相比,结合转换策略和回译训练数据学习的模型在 100 个回译任务中平均 BLEU 提升约 1.7。借助丰富、高质量的训练数据集,多对多翻译模型成为可能。

还。我们还发现,对于没有训练数据的语言对,零样本思维很重要。例如,如果模型的训练数据只有法语-英语和德语-瑞典语,零样本我们可以在法语和瑞典语之间进行翻译。我们的 M2M-100 模型还表明,对于没有训练数据的语言对,零样本融合的多语言模型优于以英语为过渡的多语言模型。

MMT模型——150亿参数,快速准确翻译

多语言翻译的一个挑战是单个模型必须能够从不同语言中捕获信息。执行此操作的常用方法是扩展模型,为特定语言类型添加参数。同时,用过多的训练数据训练的模型包含一些不相关的参数。丢弃这些参数不仅会压缩模型,而且可以避免这些参数对翻译任务的干扰。最后,当我们将模型规模缩放到 120 亿参数时,我们发现不同语言的翻译任务中 BLEU 的平均提升在 1.2 左右,但随着参数的不断减少,模型性能开始下降衰退。这样,一般的多语言翻译模型包含120个参数,加上3个。

我们将此模型与双语基线模型和以英语为过渡的多语言模型进行比较,如上图所示。第一行表示具有 12 亿个参数的基线模型,由 24 个编码器层和 24 个解码器层组成,第二行是转换为英语的多语言翻译模型。接下来是M2M-100模型,分别有12亿参数和120亿参数。可以看出,参数较多的模型的BLEU改进为1.2。

通过增加 Transformer 层的数量和每层的宽度,我们可以训练一个更大的模型,它仍然是高效和收敛的。值得注意的是,多对多翻译系统首次使用 Fairscale——一个新的 PyTorch 库,专门用于管道和张量并行。我们构建了一个通用架构技术参数英语怎么说,通过 Fairscale 并行训练大型模型,避免了单个 GPU 的限制。同时,我们应用了零优化器、层内模型并行和管道模型并行来加速模型训练。

然而,120 亿参数的多语言翻译模型是不够的,我们需要训练一个更准确、更高效的模型。现在有很多研究工作使用多模型集成方法,即训练多个模型并将它们用于同一个源语句进行翻译。为了减少训练多个模型的复杂性和计算量,我们引入了多源分组技术,将源语句翻译成多种语言以提高翻译质量。参考 LayerDrop 和 Depth-Adaptive,我们训练了一个具有共同主干和不同语言特定参数集的模型。这种方法可以按语言对或语系对模型进行划分,非常适合多对多模型。最终,

打破不同语言之间的障碍

多年来,人工智能研究人员一直在努力建立一个可以理解所有语言的通用模型。这样一个支持所有语言或方言的通用模式将更好地为所有人服务,令人满意的翻译将为数十亿人打破语言障碍,让他们更平等地了解世界。这项工作使我们离这个目标更近了一步。

在长期的研究中,我们在预训练语言模型、微调和自监督学习方面取得了快速进展,研究成果非常令人振奋。这一研究方向将进一步提高我们系统使用未标记数据理解低资源语言文本的能力。例如,XLM-R 是一个强大的多语言模型,它可以从仅一种语言的数据中学习,然后扩展到 100 种语言。对于多语言 BART 任务,mBART 是首批预训练完整模型之一。最近,我们提出了一种新的自监督方法CRISS,它通过许多不同语言的未标记数据挖掘不同语言的平行句子,并迭代训练更好的多语言模型。

我们将持续关注前沿进展,学习最新技术,探索机器翻译系统和更专业的计算架构的部署方式,不断完善翻译模型。

GitHub

人工智能学习俱乐部是人工智能学术青年和人工智能开发者交流技术的在线社区。我们与大学、学术机构和行业合作,通过提供学习、实践和求职服务,打造人工智能学术青年和开发者交流、互助和职业发展的一站式平台,力争成为人工智能学术青年和开发者最大的聚集地。中国科技创新人才。

如果你也是爱分享的AI爱好者。欢迎加入我们,学习新知识,分享成长。

雷锋网版权文章,未经授权禁止转载。有关详细信息,请参阅重印说明。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论