本期AITIME:基于语义生成概率的无监督常识问答方法

在多项选择常识问答任务中,许多现有的无监督方法使用预训练的语言模型来计算选项的句子生成概率,并将其作为选项得分。但是,此类方法容易受到干扰因素的影响,例如同义词替换、句型变换等,可能会极大地改变句子的生成概率,从而导致预测结果发生变化。在这项工作中,我们提出了一种基于语义生成概率的无监督方法,减轻了干扰因素的影响,显着提高了答案预测的准确性和鲁棒性。

在本次AI TIME博士直播间,我们有幸邀请到清华大学CoAI组计算机科学与技术系博士生牛依林带来报告——《一种无监督的常识问答方法》基于语义生成概率”

牛一林:清华大学计算机科学与技术系博士生,师从黄敏烈副教授。他的研究兴趣是机器推理和问答系统,并以第一作者在ACL上发表了多篇论文。

01

背景

(1) 问题描述

在多选常识问答任务中,模型需要根据一定的常识知识(例如,太阳从东方升起)从多个选项中选择一个符合常识逻辑的答案。例如下面的例子:

问: 男子脚趾受伤,可能是什么原因?

选项 1:他的袜子上有一个洞。

选项2:锤子击中他的脚。

从常识来看,选项 2 更可能是正确的。

目前,基于监督学习的方法在常识问答任务中取得了不错的成绩,甚至超过了人类的表现。然而,在实际应用中,标注数据集往往不易获得,或者标注成本较高,这体现了无监督方法的重要性。

(2) 相关工作

为了解决数据标注不足的问题,现有的主流方法可以分为两类:

第一种方法直接使用现有的预训练语言模型对选项进行评分。具体来说,在下图中的问题中,需要预测蓝色部分是“奖杯”还是“手提箱”。我们可以先将这两个选项填入句子,然后预测“is too big”剩余部分的生成概率,发现填“trophy”时,生成概率高于填“suitcase” ,所以选择“奖杯”作为预测结果。

第二种方法是设计规则生成相关的训练数据,并在这些数据上训练出常识问答模型,如下图所示。

本文主要研究第一类方法的一些不足并提出解决方案。

第一类方法又可以细分为两种形式:单跳(single-hop)和多跳(multi-hop):共同点是问题或选项的句子生成概率作为选项得分; 不同的是,单跳方法不依赖显式知识添加,直接从问题中计算答案分数。下图显示了三种单跳方法。第一个使用答案的条件生成概率作为分数,受词频影响很大。干扰因素的影响。

相比之下,多跳方法依赖于显式知识添加:首先提取与问题相关的知识,然后根据问题和知识计算选项的句子生成概率。

句子生成概率受多种因素影响。语义是与任务相关的因素。此外,还有很多与任务无关的因素也会影响句子的生成概率,例如词频、句子结构等,这些被称为无关或干扰因素。现有方法依赖于句子生成概率,因此它们对分散注意力的因素很敏感。例如,在下图中的示例中,将“cold”替换为同义词“chilly”。两者的词频不同,但意思是一样的。基线方法 Pro-A 给出的分数(即句子生成的概率)变化很大,改变了预测结果。. 在第二个例子中,主动句变为被动句。相似地,

现有方法容易受到干扰因素的影响,简单的同义词替换可能会影响预测结果。我们认为问答方法应该只关注选项的语义信息,而忽略其他不相关的因素。具体表现是问答方式给出的分数应该尽可能接近多个同义选项。

02

方法

为了消除干扰因素的影响,一种直观的方法是将句子生成概率替换为语义生成概率,即只关注与任务相关的语义因素。如下图所示,选项A的语义生成概率定义为选项A的所有同义句子的生成概率之和。直观的理解是,给定问题,生成具有该语义的句子的概率. 这个生成概率只与A的语义有关如何用易语言做计算公式软件,与其他干扰因素无关,符合我们只关注语义信息的要求。

为了计算语义生成概率,本文采用下图所示的方法流程(推导过程见论文)。首先,使用模板将问题重写为陈述句。该模板简单且易于构建。为了确保公平,我们的方法和基线使用相同的模板。然后,基于改写后的问题,从语言模型 GPT-2 中抽取多个可能的答案作为选民,并使用特征提取器 Sentence-RoBERTa 计算每个选民和选项的语义向量。最后,每个投票者根据语义相似度对每个选项进行投票,平均得分最高的选项被选为预测结果。

图片[1]-本期AITIME:基于语义生成概率的无监督常识问答方法-老王博客

03

实验

本文在四个数据集上进行实验,并选择三个单跳方法和两个多跳方法作为基线。

数据集:

(1) COPA (2-选择)

(2) StoryClozeTest (2-选择)

(3) SocialIQA (3-选择)

(4) CosmosQA (4-选择)

基准方法:

(1)单跳方法:①Pro-A ②MI-QA ③Pro-Q

(2)多跳方法:①CGA ②Self-Talk

评价指标:

本文以准确率(Original Accuracy)和鲁棒性作为常识问答方法的性能评价指标。鲁棒性方面,使用TextFooler以同义词替换的形式对模型进行攻击,以After-attack Accuracy和Attack Success Rate作为鲁棒性评价指标。攻击成功率越低,攻击后准确率越高,表明一种方法更鲁棒。

实验结果:

在准确率上,本文的方法 SEQA 在所有四个数据集上都优于基线方法,并且在 SCT 和 CosmosQA 数据集上,SEQA 与最佳基线相比至少有十个点的提升,如红框所示以下。.

在鲁棒性方面,SEQA 远优于所有四个数据集上的最佳基线,如下图红框所示。

同义选项得分一致性实验:

我们认为多个同义选项在常识问答任务中应该获得相似的分数,因此我们进行了以下分数一致性实验。

(1)使用百度翻译自动生成正确选项的同义词。(反向翻译)

(2)使用模型对原始和生成的选项进行评分,所有选项包括:

l 4个同义词和正确选项

l 19个错误选项(部分来自当前样本,部分来自负样本)

(3)23 个选项根据分数进行排名。

(4)计算4个同义和正确选项的排名标准差如何用易语言做计算公式软件,除以标准差

作为分数一致性的衡量标准,标准差越小,分数一致性越高。

下图显示了实验结果。可以看出,本文提出的 SEQA 方法在四个数据集上达到了最低的标准差,即得分一致性最好。

论文链接

来源链接

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论