亚马逊提高面部识别软件“情感检测准确性”(图)

插图:伊娃·雷达蒙蒂

8 月,亚马逊宣布提高了其面部识别软件的“情绪检测准确性”。他们解释说,这项技术不仅可以更好地检测七种情绪(快乐、悲伤、愤怒、惊讶、厌恶、平静和困惑),而且还首次检测到了第八种情绪:恐惧。

微软和苹果等大型科技公司以及 Kairos 和 Affectiva 等初创公司也在销售类似的情绪检测产品。据估计,到 2023 年,这一相对较新的服务类别有望成为价值 250 亿美元的产业。

仅通过面部表情就能读取情绪的技术将是一个惊人的突破。例如,它可以让营销人员调查观众对恐怖电影的反应,汽车内置软件来评估司机是否生气或昏昏欲睡,以及公司可以筛选出无聊或不感兴趣的求职者。它甚至可以帮助自闭症儿童学会识别他人的情绪。但最近几个月,科学家们提出了关于使用面孔解读情绪的重大问题。

问题不在于像 Amazon Rekognition 这样的技术无法读取人脸的细节。相反,人类面部表情所表达的表情不一定是正确的情绪信号。

7 月,东北大学心理学教授丽莎·费尔德曼·巴雷特 (Lisa Feldman Barrett) 和她的同事回顾了 1000 多项研究并发表了一篇总结文章,得出的结论是,人工智能和计算机视觉检测情绪的许多发展都被误导了。上个月,南加州大学计算机科学教授 Jonathan Gratch 和他的同事还在第八届情感计算与智能交互国际会议 (ACII 2019)) 上发表了两篇论文,呼吁暂停某些“情感分析”技术。

问题不在于像 Amazon Rekognition 这样的技术无法读取人脸的细节。相反,人类面部表情所表达的表情不一定是正确的情绪信号。

亚马逊网站上描述其面部分析功能的详细图片显示,一名女性微笑着,因为该软件用“女人”、“睁开眼睛”、“微笑”和“快乐”等词标记了她脸部的关键部位。该图像将被解释为相同方式:是个快乐的女性形象。

我们对他人脸上的快乐表情有着强烈的直觉。从童年开始,我们就学会了面部表情和内心情绪之间的联系。即使是现在,当文字可能无法表达我们的情绪时,我们还是使用表情符号(emoji)来表达我们的情绪。当我们看电视或电影时,演员脸部的特写可以让我们更好地了解角色的感受。当我们看到一个人微笑时哪项是错误的情绪识别,我们会本能地感觉到他们很开心。

“人们的看法是一致的……如果有人在微笑,他们认为图像中的人很快乐,”格拉奇说,这就是为什么 Facebook 上的许多人认为其他人比他们更快乐。他们看到所有这些笑脸并想,’他们一定很开心。'”

有些人看起来很快乐,但这并不意味着他们很快乐。与其他情绪阅读算法一样,Rekognition 系统基于识别人们的情绪,而不是他们的实际感受。该系统结合了计算机视觉和机器学习算法来识别面部特征并将其与相应的情绪相关联。工程师常用来建模和训练算法的数据由训练有素的第三方组织进行注释,包括“快乐”和“悲伤”等情感标签。为了为这些算法创建一个训练集,该公司的注释者同时审查一组图像,将它们标记为“快乐”、“恐惧”、“愤怒”等。亚马逊以所有权问题为由拒绝评论 Rekognition 的算法是如何训练的。

这种方法的一个问题是图像中的面孔代表了情感刻板印象——我们认为一个人如何表达情感。我们倾向于认为情绪与面部表情直接相关:大多数时候,人们高兴时微笑,生气时皱眉,悲伤时皱眉。我们也承认这些表达是情感的特征表达;我们认为微笑是幸福的典型表现,皱眉是愤怒的典型表现。但实际上,人们表达和感知情绪的方式有更多的变化。

“我们没有证据表明情绪表达的信号应该是什么,”格拉奇说,他在他的研究中玩了两对参与者之间的囚徒困境游戏。他们被安置在装有电脑和照相机的不同房间里,并被告知不要互相交谈或使用手势,而要使用面部表情。在每一轮中,玩家选择“分享”或“窃取”一个虚拟球。如果双方玩家选择分享(合作),游戏将给予他们相同的高额奖励,但如果他们选择偷窃(背叛)而对手选择合作,游戏将给予该玩家更高的奖励。如果两个玩家都决定偷窃,那么奖励就会很低。游戏给予双方合作哪项是错误的情绪识别,但为了解决对手会不会合作的谜题,

即使有这些线索,这也是一项艰巨的任务。“你无法推断 [结果] 对他们来说是好是坏,”格拉奇说。“它破坏了通过观察某人的面部表情,你可以判断他们是否在撒谎的想法。”

图片[1]-亚马逊提高面部识别软件“情感检测准确性”(图)-老王博客

就算输了,选手们唯一的表情也只有微笑。人们不只是为了表达喜悦而微笑,他们也会对令他们惊讶的事件回以微笑。例如,如果他们认为对手要背叛,但实际上他们合作了,那么微笑的强度就会反映出他们的惊讶程度。但他们并没有表现出典型的睁大眼睛的惊讶表情。“但这些微笑并不是惊喜的预兆,”格拉奇说。“但它确实强调了人们所展示的内容是非常有背景的,并且受到这些机器没有关注的因素的严重影响。”

在这种情况下,人们的表情更多是对情况的反应,而不是他们内心情绪的表达。“我们展示的很多东西不一定是我们的感受,”格兰奇说。

没有创建情绪检测软件来进行这种区分。当 Rekognition 分析女性微笑的图像并生成“微笑”和“快乐”等标签时,这实际上是一个巨大的飞跃。如果没有关于人和情况的更多信息,很难从面部表情中推断出人们的情绪。“人,甚至机器,都不太擅长从这些面部显示中检测出真实的感觉,”Gratch 指出。

人们表达情绪的方式因文化、环境和不同的人而异,一种情绪可以通过多种面部表情来表达。人们的面部表情通常遵循对话和文化惯例,而不是表现出与他们内心情感相关的任何东西。鉴于所有这些不同的因素,Gratch 认为,“更科学接受的方法是直接说这些是面部动作。”

在他的研究中,他使用了一种称为“面部动作单元编码系统”的方法,该方法根据面部的个体肌肉运动对面部表情或“动作单元”进行分类。科学家和动画师使用这种方法在实时交互中评估人们的面部表情。例如,当一个人微笑时,他们通常倾向于将嘴角向上提起(称为动作单元12),并抬起脸颊,眼睛周围的皮肤会出现皱纹(动作单元6)@ >. Gratch 解释说,“与其说‘你玩得很开心’,不如说‘你正在表现出微笑的一部分。’”

当谈到弄清楚别人的感受时,Gratch 发现我们实际上并不依赖面部表情。相反,我们关注当时的背景。为了弄清楚对手的情绪,在随后的研究中,参与者寻找当前的背景。该研究的参与者回顾了他们自己和他们的伙伴在囚徒困境游戏中的视频片段。活动的结果让他们知道他们的伴侣的感受。例如,如果参与者的伴侣以他们为代价赢得了一轮,他们倾向于对自己和伴侣的情绪进行负面评价,而不是对具有积极结果的其他事件进行正面评价。“事情发生的背景比人们脸上的表情更能预测其他人的想法,”格拉奇指出。

心理学教授巴雷特说,这些发现与其他研究中的发现一致,并补充说,他们“表明背景强烈影响人们在面部动作中推断出的情感意义。总的来说,背景比面部表情更有影响力。动作本身更强大。” 她引用了耶路撒冷希伯来大学心理学家 Hillel Aviezer 的研究。例如,在一项研究中,Aviezer 和他的同事混合并匹配了网球运动员输赢的图像。当参与者看到一个玩家的获胜头像嫁接到另一个玩家的失败头像上时,他们对这张脸的看法比看到另一个玩家的获胜头像时更消极。与身体相关的情绪胜过玩家面部的情绪。

考虑到 Rekognition 等情感识别系统对人的面部表情有很大影响,这些关于上下文的发现很重要。他们接受了关于人类如何在不考虑更大的社会背景的情况下解释静态图像的培训。“实际上,由于数据不包含有关人们面部表情出现的上下文的任何重要信息,”Gratch 说,“这些算法只是在不知道任何上下文的情况下学习另一个人的面部图像。你在表达什么? “

“这种面部表情识别技术确实可以捕捉到一些东西——只是它与人们想要用它做什么并没有很好的相关性。所以他们只会犯错误,在某些情况下,这些错误会造成伤害。”

亚马逊可能意识到这种情绪识别技术的局限性。他们网站上的免责声明写道:“API只是对一个人的外表的判断。这并不能决定一个人的内心情绪状态,不应该这样使用。” 尽管如此,诸如“情感分析”之类的短语和诸如“Rekognition”之类的名称可能会误导该技术的营销方式。更合适的描述是“表情识别”。

“目前任何声称能够识别情绪的公司都会混淆测量(如皱眉)并解释这些测量的含义(如愤怒),”巴雷特说。Gratch 将情绪识别技术等同于测谎仪,即“真相探测器”。”。自从 1998 年最高法院的一项裁决使测谎仪名誉扫地以来,大多数州都禁止测谎仪出庭作证。“它不是一个真相探测器,它只是一个唤醒探测器,”格拉奇说。“从某种意义上说,这种面部表情识别技术真的是在捕捉一些东西——只是它与人们想要用它做什么并没有很好的相关性。所以他们只会犯错误,在某些情况下,这些错误会造成伤害。”

亚马逊因将 Rekognition 出售给政府机构而受到抨击,包括据报道将其推销给移民和海关执法局以及与边境巡逻队签订的价值 9. 5 亿美元的潜在合同。亚马逊的客户可以使用 Rekognition 来告知他们有关人员的决定。如果当局在错误的时间表现出错误的看法,他们可能会瞄准不公正的目标。即使没有识别技术,错误表达情绪也会产生后果:在她的《如何创造情绪》一书中,巴雷特描述了法官和陪审员如何被发现使用被告的面部表情来辨别他们何时可能感到内疚或自责的程度。

“根本没有强有力的证据支持这样一种观点,即存在一种普遍的情绪表达方式,这样一组特定的面部肌肉运动(例如皱眉)可以用来专门判断一个人的情绪状态(例如愤怒),并且可靠性非常高,”巴雷特说。“如果你不这么想,就会有误解的风险,这可能会使人们失去生计、自由甚至生命。”

无论情绪阅读算法变得多么复杂,一个仅使用面部分析来识别人们情绪的系统最终都不会像它声称的那样有效。Gratch 建议消费者注意该技术的局限性,他引用了德国不来梅雅各布斯大学心理学家 Arvid Kappas 的一个类比来说明这些技术是如何营销的。Capas 将“月亮是用奶酪做的”这个错误假设等同于“月亮是用奶酪做的”。“想象一个场景,我们用奶酪和石头的例子训练算法来开发奶酪识别器,”他说。然后我们将它指向天空,看看当有月亮时识别器是否识别出奶酪。Kappas 的类比揭示了商业情感识别技术的初级程度。

“我们正在训练一些与人们的感受无关的东西,然后将其展示给人们并说,‘看,他们会感受到这种情绪,’”Gratch 说,“而实际上我们只是在训练他们的表达方式,他们的实际内心情绪是不同的。”

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论