研究者:基于Transformer架构的预训练模型和新领域

在本文中了解视觉语言预训练的最新进展和新领域。

让机器对人类做出类似的反应一直是人工智能研究的目标。为了赋予机器感知和思考的能力,研究人员进行了人脸识别、阅读理解和人机对话等一系列相关研究,通过这些任务来训练和评估机器在特定方面的智能。通常,领域专家手动构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据才能获得更好、更强大的模型。

基于 Transformer 架构的预训练模型缓解了这个问题。它们首先通过自我监督学习进行预训练,以从大规模未标记数据中训练模型,从而学习一般表示。当仅使用少量手动标记的数据对下游任务进行微调时,它们可以取得令人惊讶的结果。自从 BERT 应用于 NLP 任务以来,各种预训练模型在单峰领域迅速发展,例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明,它们有利于下游单峰任务,并避免从头开始训练新模型。

与单峰域类似,多峰域也存在高质量注释数据较少的问题。我们不禁要问,以上的预训练方法能否应用于多模态任务?研究人员对这个问题进行了探索并取得了重大进展。

在本文中,中国科学院自动化研究所和中国科学院大学的研究人员研究了视觉语言预训练(VLP)的最新进展和新领域,包括图像-文本预训练和视频-语言预训练(VLP)。文本预训练。VLP 通过对大规模数据的预训练来学习不同模态之间的语义对应关系。例如,在图像-文本预训练中,研究人员希望该模型将文本中的狗与图像中的狗外观联系起来。在视频-文本预训练中,研究人员希望模型能够将文本中的对象/动作映射到视频中的对象/动作。

论文地址:

为了实现这一目标,研究人员需要巧妙地设计 VLP 对象和模型架构,以允许模型挖掘不同模态之间的关联。

为了让读者更好地全面掌握VLP,本研究首先从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾了VLP的最新进展。然后,文章详细总结了具体的VLP模型。最后,本文讨论了 VLP 的新前沿。据了解,这是VLP领域的首次调查。研究人员希望这项调查能够为 VLP 领域的未来研究提供启示。

VLP 概述

VLP的五个方面及其最新进展的回顾

在特征处理方面:论文主要介绍了VLP模型如何对图像、视频和文本进行预处理和表示以获得相应的特征。

为了充分利用单峰预训练模型,VLP 随机初始化标准转换器编码器以生成视觉或文本表示。从视觉上讲,VLP 使用预训练的视觉转换器(如 ViT 和 DeiT)对 ViT-PF 进行编码。在文本方面,VLP 使用预训练的文本转换器(例如 BERT)对文本特征进行编码。为简单起见,该研究将这些变压器命名为 Xformer。

在模型架构方面:论文从两个不同的角度介绍了VLP模型架构:(1)从多模态融合的角度观察单流和双流的架构(2)从整体上比较编码架构设计)编码器和编码器-解码器比较。

单流架构是指将文本和视觉特征组合起来,并将它们输入到单个转换器块中,如下图 1(a) 所示。单流架构通过集中注意力来融合多模式输入。单流架构的参数效率更高,因为两种模式都使用相同的参数集。

双流架构意味着文本和视觉特征没有组合,而是独立地馈送到两个不同的转换器块中,如图 1(b) 所示。两个变压器块不共享参数。为了获得更高的性能,交叉注意力(由图 1(b)中的虚线所示)用于实现跨模态交互。为了更高的效率,视觉转换器块和文本转换器块之间的交叉注意也可以省略。

图片[1]-研究者:基于Transformer架构的预训练模型和新领域-老王博客

许多 VLP 模型仅采用编码器架构,将不同的模态表示直接馈入输出层。相比之下,其他 VLP 模型提倡使用转换器编码器-解码器架构,其中不同的模态表示首先被馈入解码器,然后进入输出层。

在预训练目标方面:论文通过使用不同的预训练目标对VLP模型进行预训练,并将预训练目标归纳为完成、匹配、时间、特定类型四类。

完成是指从未屏蔽部分重建屏蔽元素。以蒙面语言建模(MLM)为例,它最早是由泰勒提出的,被广泛称为BERT作为预训练任务。VLP 模型中的 MLM 与预训练语言模型 (PLM) 中的 MLM 类似,不仅可以从其余的文本标记中预测被屏蔽的文本标记,还可以从视觉标记中预测被屏蔽的文本标记。根据经验,BERT-following VLP 模型以 15% 的屏蔽率随机屏蔽每个文本输入标记程序设计模式语言·卷5,并在 80% 的时间使用特殊标记 [MASK],在 10% 的时间使用随机文本标记,剩下的 10% 时间使用原始 token 来替换被屏蔽的文本。然而,在论文“Should You Mask 15% in Masked Language Modeling?”中 陈丹琪等人。在普林斯顿大学,作者发现,在有效的预训练方案下,他们可以屏蔽 40-50% 的输入文本,并获得比默认文本更好的结果。下游性能提高 15%。

在 Masked Vision Modeling (MVM) 中,与 MLM 类似,MVM 对视觉(图像或视频)区域或补丁进行采样并掩盖其视觉特征,通常以 15% 的概率。VLP 模型需要在给定剩余的视觉特征和所有文本特征的情况下重建 mask 的视觉特征。

视觉语言匹配 (VLM) 是最常用的用于对齐视觉和语言的预训练目标。在单流 VLP 模型中,我们使用特殊的令牌 [CLS] 表示作为两种模态的融合表示。在双流 VLP 模型中,我们将特殊视觉标记 [CLSV] 的视觉表示和特殊文本标记 [CLST] 的文本表示连接起来,作为两种模态的融合表示。VLP 模型将两种模态的融合表示提供给 FC 层和 sigmoid 函数以预测 0 到 1 之间的分数,其中 0 表示视觉和语言不匹配,1 表示视觉和语言匹配。在训练期间,VLP 模型在每一步从数据集中采样正对或负对。

在预训练数据集方面:VLP 的大多数数据集是通过组合跨多模式任务的公共数据集构建的。这里,一些主流语料库及其详细信息如下表1所示。

在下游任务方面:各种各样的任务需要视觉和语言知识的融合。本文的这小节介绍了此类任务的基本细节和目标,并将它们分为五类:分类、回归、检索、生成和其他任务程序设计模式语言·卷5,其中分类、回归和检索任务也称为理解任务。

在分类任务中,包括视觉问答(VQA)、视觉推理和综合问答(GQA)、视觉语言推理(VLI)、自然语言视觉推理(NLVR)、视觉常识推理(VCR)等。在VQA中,提供图像或视频的视觉输入,通常被认为是一个分类任务,模型从一个选择池中预测出最合适的答案;在 GQA 中,我们可以将 GQA 视为 VQA 的升级版,旨在推进自然场景中的视觉推理研究;在 VLI 中,给定一个以对齐字幕为前提的视频剪辑,再加上基于视频内容的自然语言假设,模型需要推断该假设是否与给定的视频剪辑相矛盾。

在回归任务中,多模态情感分析(MSA)旨在使用视觉、语言等多模态信号检测视频中的情绪。它被用作连续强度变量来预测话语的情绪方向。

在检索任务中,视觉-语言检索(VLR)通过适当的匹配策略来理解视觉(图像或视频)和语言,该策略由视觉到文本检索和文本到视觉检索两个子任务组成,其中视觉-文本检索是基于视觉从更大的描述池中获取最相关的文本描述,反之亦然。

在生成任务中,视觉字幕 (VC) 旨在为给定的视觉(图像或视频)输入生成语义和句法上适当的文本描述。此外,论文还介绍了多模态机器翻译(MMT)、视觉语言导航(VLN)和光学字符识别(OCR)等其他下游任务。

SOTA VLP 模型

图文 VLP 模型。VisualBERT 被称为第一个图像-文本预训练模型,它使用 Faster R-CNN 提取视觉特征,连接视觉特征和文本嵌入,并将连接的特征馈送到由 BERT 初始化的单个转换器中。在调整预训练目标和预训练数据集时,许多 VLP 模型遵循与 VisualBERT 类似的特征提取和架构。最近,VLMO 利用图像补丁嵌入和文本词嵌入将组合嵌入与模态专家一起输入到单个转换器中,并实现了令人印象深刻的性能。METER 探索了如何使用单模态预训练模型,并提出了一个双流架构模型来处理多模态融合,在许多下游任务上实现了最先进的性能。

视频文本 VLP 模型。VideoBERT 被称为第一个视频文本预训练模型,它扩展了 BERT 模型以处理视频和文本。VideoBERT 使用预训练的 ConvNet 和 S3D 来提取视频特征并将它们与文本词嵌入连接起来,这些嵌入被馈送到使用 BERT 初始化的转换器。在训练 VideoBERT 时,ConvNet 和 S3D 被冻结,说明该方法不是端到端的。最近,受 ViT 的启发,Frozen 和 Region-Learner 首先将视频剪辑处理成帧,并根据 ViT 处理每一帧图像的方式获得补丁嵌入。Frozen 和 Region-Learner 以端到端的方式优化自身并实现 SOTA 性能。

下面的表2总结了更多现有的主流VLP模型:

未来,在现有工作的基础上,研究人员希望VLP可以从以下几个方面进一步发展:

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论