【伙伴快讯】机器之心编辑部:人类对交互行为的判断

机器之心报告

机器之心编辑部

人类每天使用数字设备的时间长达数十亿小时。如果我们能够开发出协助其中一些任务的智能体,就有可能进入智能体协助的良性循环,然后根据人类对故障的反馈来改进智能体并获得新的能力。DeepMind 在该领域有新的研究成果。

如果机器可以像人类一样使用计算机,它们就可以帮助我们完成日常任务。在这种情况下,我们也可以利用大规模的专家演示和人类对交互行为的判断,这两个因素推动了人工智能最近的成功。

最近关于世界上自然语言的 3D 模仿、代码生成和多模式交互行为的工作(DeepMind Interactive Agents Team 2021)已经产生了具有表现力、上下文感知和丰富常识的模型。这项研究有力地证明了两个组成部分的力量:一个在机器和人类之间保持一致的丰富的组合输出空间;以及为机器行为提供信息的大量人类数据和判断。

一个同时拥有这两种组件但受到较少关注的领域是数字设备控制,它涉及使用数字设备来完成许多有用的任务。由于几乎完全使用数字信息,该领域在数据采集和控制并行化方面非常可扩展(与机器人或聚变反应堆相比)。该领域还将多样化的多模式输入与富有表现力的、可组合的和人类兼容的可供性相结合。

最近,在 DeepMind 的新论文《A Data-driven Approach for Learning to Control Computers》中,研究人员专注于训练智能体像人类一样对键盘和鼠标进行基本的计算机控制。

论文地址:

DeepMind 对计算机控制的初步调查所使用的基准是 MiniWob++ 任务套件(一组具有挑战性的计算机控制问题),其中包含一组指令来执行点击、打字、填写表格和其他此类基本计算机交互任务(图. 1b)。MiniWob++ 进一步提供以编程方式定义的奖励。这些任务是迈向更开放的人机交互的第一步,人类使用自然语言指定任务并提供有关性能的后续判断。

研究人员专注于训练代理来解决这些任务,使用的方法原则上适用于在数字设备上执行的任何任务,并具有所需的数据和计算缩放特性。因此,他们直接结合了强化学习 (RL) 和行为克隆 (BC) 这两种技术,其中行为克隆由人类和代理动作空间(即键盘和鼠标)之间的对齐来辅助。

具体来说,研究人员探索了使用键盘和鼠标通过自然语言进行计算机控制和指定对象。而且,他们没有专注于手工设计的课程和专门的行动空间,而是开发了一种基于强化学习与实际人机交互提供的行为先验相结合的可扩展方法。

这是在 MiniWob 中提出的组合(OpenAI 在 2016 年提出的与网站交互的强化学习代理的基准,MiniWob++ 是它的扩展版本),但当时还没有找到生成高性能代理的方法。因此,后续工作试图通过让代理访问特定于 DOM 的操作来提高性能,并通过受限探索技术使用精心策划的指导来减少每个步骤可用的操作数量。通过重新审视模仿和强化学习的简单且可扩展的组合如何在ai里面用键盘选择指定对象,研究人员发现,实现高性能的主要缺失因素仅仅是用于行为克隆的人类轨迹数据集的大小。随着人类数据的增加,性能可靠地提高,

我们在 MiniWob++ 基准上的所有任务上都达到了 SOTA 和人类平均水平,并找到了跨任务转移的有力证据。这些结果证明了统一的人机界面对于训练机器使用计算机的有用性。总之,研究人员的结果证明了一种方案,该方案超越了 MiniWob++ 基准测试控制计算机的能力,就像人类一样。

对于 DeepMind 的研究,大部分网友都惊呼“不可思议”。

方法

MiniWob++

MiniWob++ 是 Liu 等人提出的基于 Web 浏览器的套件。2018 年,早期 MiniWob(Mini World of Bits)任务套件的扩展,这是一个强化学习基准,用于与可以感知小网页(210×160 像素)原始像素并产生键盘和鼠标动作的网站进行交互。MiniWob++ 任务的范围从简单的按钮点击到复杂的表单填写,例如在给出特定说明时预订航班(图 1a)。

先前对 MiniWob++ 的研究考虑了可以访问特定于 DOM 的操作的架构,允许代理直接与 DOM 元素交互,而无需鼠标或键盘导航。DeepMind 研究人员选择仅使用基于鼠标和键盘的操作,并进一步假设该界面将更好地迁移到计算机控制任务,而无需与紧凑的 DOM 交互。最后,MiniWob++ 任务需要使用基于 DOM 元素的操作无法实现的单击或拖动操作(参见图 1b 中的示例)。

与之前的 MiniWob++ 研究一样,DeepMind 的代理可以访问由环境提供的文本字符串字典,该字典被输入给定任务的输入字段(示例参见附录图 9)。

下图是运行 MiniWob++ 的电脑控制环境。人和代理都使用键盘和鼠标控制计算机,人类为行为克隆提供示范行为,而代理则受过训练以模仿这种行为或表现出寻求奖励的行为。人类和代理尝试解决 MiniWob++ 任务套件,其中包括单击、键入、拖动、填写表格等。

环境界面

如果代理要像人类一样使用计算机,他们需要接口来传输和接收观察和操作。最初的 MiniWob++ 任务套件提供了一个基于 Selenium 的界面。DeepMind 决定实施一个替代环境堆栈,旨在使代理能够在 Web 浏览器中执行各种任务。该界面在安全性、功能和性能方面进行了优化(图 1a)。

最初的 MiniWob++ 环境实现了 Selenium 来访问内部浏览器状态并发出控制命令。相反,DeepMind 的代理直接与 Chrome DevTools 协议 (CDP) 交互以检索浏览器内部。

代理架构

DeepMind 发现没有必要基于专门的 DOM 处理架构。相反,受最近对多模态架构的担忧影响,DeepMind 应用了最小模态特定处理,主要依靠多模态转换器来灵活处理相关信息,如图 2 所示。

洞察力。代理接收视觉输入(165×220 RGB 像素)和语言输入(示例输入显示在附录图 9 中)。像素输入通过一系列四个 ResNet 块,内核为 3×3,步长为 2、2、2、2,输出通道(32、128、@ >256、512). 这会产生一个 14×11 的特征向量,DeepMind 会将其展平为 154 个标记的列表。

图片[1]-【伙伴快讯】机器之心编辑部:人类对交互行为的判断-老王博客

三种类型的语言输入任务指令、DOM 和任务字段使用相同的模块进行处理:每个文本字符串被拆分为标记,每个标记映射到大小为 64 的嵌入。

策略:代理策略由 4 个输出组成:动作类型、光标坐标、键盘键索引和任务字段索引。每个输出都由单个离散概率分布建模,光标坐标除外,光标坐标由两个离散分布建模。

动作类型从一组 10 种可能的动作中选择,包括一个无动作(表示无动作)、7 个鼠标动作(移动、单击、双击、按下、释放、上滚轮、下滚轮)和两个键盘动作(按下键,发出文本)。

DeepMind 从 77 名人类参与者那里收集了超过 240 万个关于 104 个 MiniWob++ 任务的演示,总计大约 6300 小时,并使用模仿学习和强化学习 (RL) 的简单混合来训练代理。

实验结果

MiniWob++ 上的人类水平性能

由于大多数研究通常只解决 MiniWob++ 任务的一个子集,因此本研究采用每个单独任务的最佳已发表性能,然后将这些子任务的总体性能与本研究中提出的代理进行比较。如下图 3 所示,该代理显着超过了 SOTA 基准性能。

此外,该代理在 MiniWob++ 任务组件中实现了平均人类水平的性能。这种性能是通过结合 BC 和 RL 联合训练来实现的。

研究人员发现,虽然智能体的平均性能与人类相当,但人类在某些任务上的表现明显优于智能体,如下图 4 所示。

任务迁移

研究人员发现,与单独训练每个任务的代理相比,在 MiniWob++ 的所有 104 项任务上训练代理可以显着提高性能,如下图 5 所示。

扩张

如下图 7 所示,人体轨迹数据集的大小是影响代理性能的关键因素。使用 1/1000 的数据集,大约相当于 6 小时的数据,会导致快速过拟合,并且与单独的 RL 相比没有显着的性能提升。随着研究将该基线的数据量增加到完整数据集大小的三个数量级,代理的性能继续提高。

此外,研究人员指出如何在ai里面用键盘选择指定对象,随着算法或架构的变化,数据集大小的性能可能会更高。

消融实验

该代理使用像素和 DOM 信息,并且可以配置为支持一系列不同的操作。本研究进行消融实验以了解各种架构选择的重要性。

该研究首先消除了不同的代理输入(图 8a)。当前的代理配置严重依赖 DOM 信息,如果删除此输入,性能将下降 75%。相反,视觉信息的输入对代理的影响较小。

如图 8b 所示,这项研究消除了智能体​​使用环境给定的文本输入选项(任务字段)的能力。有趣的是,被移除的代理仍然能够解决涉及表单填写的任务,但它是通过突出显示文本并将其拖到相关文本框以从人类轨迹中学习来实现的。值得注意的是,在原始 Selenium 版本的环境中,代理实现这种拖动操作并非易事。

图 8b 还显示了消融实验的结果,其中代理使用与特定 DOM 元素交互的替代操作。这意味着代理无法解决涉及单击画布中的特定位置、拖动或突出显示文本的任务。

WAIC 2022上海人工智能开发者大会嘉年华-亚马逊DeepRacer冠军赛

WAIC 2022上海人工智能开发者大会将于2月26日在上海临港举行。活动当天将有四场以“智能时代的AI生活”为主题的嘉年华,其中亚马逊DeepRacer锦标赛将举行下午开始。

Amazon DeepRacer 是亚马逊云技术推出的 1/18 自动驾驶赛车。它使用摄像头查看赛道,并使用强化学习模型来控制油门和方向盘。用户可以在模拟环境中或在实际赛道上测试强化学习模型以进行赛车。

在 1 小时内开始使用 AI,并构建您的第一个强化学习模型!快来和大神们一起开启《速度与激情》的进阶之旅吧!

识别下方海报二维码,立即报名。

© 结束

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论