OpenAI魔方机器手和“深层思维”获六大质疑(图)

纽约大学心理学和认知科学教授马库斯最近加入了人工智能公司 DeepMind。在不久前在推特上质疑美国通用人工智能研究机构 OpenAI 的魔方操纵器后,他最近进化出了由“Deep Mind”推出的全新“星际争霸 2”智能体“AlphaStar”(AlphaStar) . 该版本提出了六个主要问题。这一次,他的质疑点不是游戏性能本身,而是更高的层次:未来通用情报研究的意义。

近年来最酷的成就来自深度强化学习

OpenAI此次推出的魔方解谜机器人,并没有使用专业的算法来解决特定的任务(如果改变任务,需要重新编程),而是通过一定的学习方法对机器人进行训练,让机械手拥有人类- 像解决问题的能力。但马库斯认为,对结果的描述具有误导性,更恰当的描述应该是“用强化学习操纵魔方”或“用灵巧的机械手操纵物体的进展”。

“Marcus 过分强调‘用强化学习来操纵魔方’有点挑剔。事实上,无论是 OpenAI 魔方机械手,还是‘Deep Mind’发布的《星际争霸2》代理‘Alpha Star’的进化版机器学习防止过拟合,都使用了深度强化学习技术。深度强化学习是目前公认的现有技术中最有可能实现通用人工智能的技术。” 天津大学智能与计算系软件学院副教授郝建业解释说,目前机器学习有监督学习、无监督学习和强化学习三个分支,深度学习是目前监督学习中最主流的技术。 .

“近年来,深度强化学习发展迅速,在处理复杂、多方面和决策问题方面显示出巨大潜力。目前,深度强化学习技术主要应用于一些游戏和比赛中。” 郝建业介绍,2016年,谷歌“阿尔法狗”(AlphaGo)击败了世界顶级围棋选手李世石和柯洁,轰动一时,成为人工智能领域的里程碑。《阿尔法围棋》的核心在于使用深度强化学习算法,让计算机通过自我对弈不断提升自己的棋艺。此后,Facebook在DOTA2比赛中击败了顶级职业选手;CMU团队开发的德州扑克AI冷拳大师轻松击败顶级玩家。

此外,《Deep Mind》还利用深度强化学习来优化数据中心的能耗;谷歌利用深度强化学习完成深度神经网络的自动架构搜索,并提出AutoML服务,从而推动机器学习服务千家万户。在我国,深度强化学习技术的应用也很多。阿里巴巴、腾讯、百度等国内团队已将深度强化学习应用于搜索、推荐、营销、订单调度、路线规划等实际问题的决策。

最有可能实现通用人工智能的技术

人工智能发展到现在的高度,技术的主要贡献者应该属于深度学习算法。深度学习利用多层神经网络从海量数据中学习,实现对未来的预测,并使人工智能系统越来越智能。目前我们应用的安防监控、自动驾驶、语音识别、百度地图等都是深度学习技术在图像视觉、语音识别、自然语言理解等领域的应用。

强化学习也是目前机器学习领域的热门技术。与基于已知标签训练模型的监督学习不同,强化学习可以像人类一样实现自主学习机器学习防止过拟合,无需计算机的明确指令。当达到一定的学习量时,强化学习系统可以预测出正确的结果。“强化学习的基本思想是学习在不同的环境和不同的状态下,哪些行为可以最大化预期收益。” 郝建业介绍,新版“阿尔法星”智能体采用了强化学习的自战技术。该过程不需要数据注释,而是由奖励函数主导。当代理获得奖励分数或赢得比赛时,它会得到积极的反馈,代理会根据游戏的表现调整自己的行为。就像婴儿学走路一样,根据结果的好坏来调整自己的行为。

目前对通用人工智能的定义主要有两个特点,一是端到端学习,二是任务适应,即在没有人参与调控的情况下胜任不同的任务。深度强化学习可以结合深度学习的感知能力和强化学习的决策能力,直接根据输入信息进行控制。它是一种更接近人类思维方式的人工智能技术。在与世界的正常交互过程中,强化学习使用奖励通过反复试验来学习,就像自然学习过程一样。例如,机器人手用一只手解决魔方。看魔方可能需要使用深度学习图像识别技术,然后需要一个强化学习模型,让机械手在不断试错的过程中自主学习。在强化学习中,可以使用较少的训练信息,其优点是信息量更大且不受主管技能的限制。深度强化学习是朝着构建对世界有更高层次理解的自主系统迈出的又一步,这就是为什么深度强化学习目前被认为是现有技术中最有可能实现通用人工智能的技术。它的优点是信息量更大,并且不受主管技能的限制。深度强化学习是朝着构建对世界有更高层次理解的自主系统迈出的又一步,这就是为什么深度强化学习目前被认为是现有技术中最有可能实现通用人工智能的技术。它的优点是信息量更大,并且不受主管技能的限制。深度强化学习是朝着构建对世界有更高层次理解的自主系统迈出的又一步,这就是为什么深度强化学习目前被认为是现有技术中最有可能实现通用人工智能的技术。

未来,通用人工智能需要依靠脑科学的发展

“虽然深度强化学习技术最有可能实现通用人工智能,但也不能说可以实现,我们离真正的通用人工智能还很远。” 郝建业表示,当深度学习和强化学习相结合时,真实情况的枚举变成需要先对真实情况进行模式识别,然后再枚举有限的模式,从而减少计算压力,但需要的数据会比其他机器学习算法大得多。如果将场景扩展到多智能体深度强化学习,所需的数据和计算能力将成倍增加。目前还没有平台可以提供强化学习所需的海量数据,并且不可能详尽地列举现实中可能遇到的情况。各种并发症。这种数据要求在许多现实世界的领域中是不现实的。

例如,强化学习需要大量的反复试验。如果将单手魔方机器人手应用到烹饪的真实场景中,那么它可能会把食材涂抹得一塌糊涂,或者将一整袋盐倒进锅里。它也可能引起火灾。因此,在实际场景中无法实现试错学习的模式。

此外,深度学习和强化学习都是机器学习领域最难成功调试的。成功的案例不多,但一经推出,就会引起轰动。而且,这是一个模型框架,即使是随机种子也会极大地影响学习效果。同一个模型,训练 10 次可能会失败 7 次,成功 3 次。还有一点是,深度强化学习极容易过拟合代理当前正在与之交互的环境,所以如果环境稍有变化,之前看起来表现良好的代理很可能会犯低级错误。

“人类在理解事物时,一般都会利用数据进行因果推理和判断,然后才能提出相应的解决方案。但是,目前的人工智能系统无法实现这种因果推理。” 郝建业表示,未来可能会有通用人工智能。人脑的发展也需要依靠脑科学的发展。目前,我们对人脑的了解还处于非常初级的阶段。大脑的认知过程、解决问题过程和思维能力的机制尚不清楚。因此,目前人工智能的发展距离能够真正模拟人类智能思维的通用人工智能还有很长的路要走。去。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论