人类与动物如何处理视觉数据,我们还有很长的路要走

从人工智能早期开始,科学家们就梦想创造出能够“看到”现实世界的计算机。考虑到人类社会对视频元素的高度依赖,以代码的形式实现计算机视觉自然成为人工智能无法回避的核心话题之一。

但与许多其他人工智能发展目标一样,计算机视觉也是一个说起来容易但实现起来却极其困难的挑战。1966 年,麻省理工学院的科学家发起了“夏季视觉计划”,希望在两个月内研制出能够识别图像中的物体和背景区域的计算机系统。但事实证明,短暂的暑假根本不足以解决问题。直到二十一世纪的第二个十年,图像分类器和物体检测器才获得了足够的灵活性和可靠性进入主流应用。

在过去的几十年里,机器学习和神经科学的进步帮助我们在计算机视觉方面取得了长足的进步。但是,要构建能够像人类一样灵活地观察世界的人工智能系统,我们还有很长的路要走。

哈佛医学院教授 Gabriel Kreiman 所著的《生物与计算机视觉》一书探讨了人类和动物如何处理视觉数据,并期待我们如何重现这种对计算机的强大识别能力。

Kreiman 的书解释了生物学和计算机视觉之间的区别,包括数十亿年的进化如何为我们提供了复杂的视觉处理系统,以及如何利用生物学研究成果来构建更好的计算机视觉算法。

硬件差异

在这本书的序言中,Kreiman 写道:“我对生物和计算系统中的互连电路特别感兴趣。生物视觉是数百万年不断进化的产物。而在开发计算模型时,我们当然不需要重新发明轮子。我们可以直接学习生物体如何解决视觉问题,并在此基础上构建更强大的算法。

事实上,对视觉皮层的研究已经成为计算机视觉和人工智能设计的重要灵感来源。但在视觉可以完全数字化之前,科学家们还必须克服生物学和计算机视觉之间巨大的硬件差距。与在皮质细胞和有机神经元的互连网络上运行的生物视觉系统不同,计算机视觉在由晶体管制成的电子芯片上运行。

因此,视觉理论首先要与计算机的底层原理相统一,然后才能达到与生物视觉相同的性能。Kreiman 将此称为“Goldilockian 解决方案”,这是一种既不过分复杂也不过分简单的抽象层次。

例如,早期的计算机视觉试图以高度抽象的方式实现其目标,而忽略了人类和动物大脑中现有的视觉识别模式。但这种方法已被证明效率低下且极易出错。另一方面,在分子水平上研究和直接模拟大脑是不切实际的。

“我不是所谓的‘复制生物学’想法的忠实拥护者,”克赖曼在接受采访时说。生物学的许多元素应该被抽象和组织起来。我们不需要 20,000 种蛋白质、细胞质和复杂的树突几何形状来实现视觉。我们应该适当地去除不必要的生物学细节,而不仅仅是研究特定的行为——抽象太高了。”

在书中,Kreiman 将新皮质回路的 Goldilock 测量定义为每毫秒发生的神经元活动。神经科学和医学技术的进步使得以毫秒为单位研究单个神经元的活动成为可能。

这些研究的结果帮助我们开发了不同类型的人工神经网络。所谓人工神经网络,是一种可以轻松模拟哺乳动物大脑皮层运作的人工智能算法。近年来,神经网络已被证明是在视觉数据中实现模式识别功能的最佳算法,并已成为各种计算机视觉应用中的关键组件。

架构差异

近几十年来,深度学习领域迎来了许多革命性的创新前向和递归神经网络的区别,让计算机能够更舒适地模拟生物视觉中的某些功能。受动物视觉皮层研究的启发,卷积层开始在寻找视觉数据模式方面发挥巨大作用。池化层有助于泛化卷积层的输出,并确保它们对视觉模式漂移不太敏感。卷积层加上池化层足以识别从简单图案(角、边缘等)到复杂对象(人脸、椅子、汽车等)的图像内容。

然而,人工神经网络中使用的高级架构与我们对哺乳动物视觉皮层的理解之间仍然存在偏差。

“不幸的是,‘层’这个词仍然相当模糊,”Kreiman 强调说。在计算机科学中,人们使用层来表示处理的不同阶段(层基本上就像大脑的不同区域)。但在生物学中,大脑的各个区域包含六个皮质层(以及更多的二级结构)。乍一看,这个六层结构应该很关键(层之间的连接,有时称为标准微电路),但不清楚这些电路是如何添加到神经网络中的。有人认为这个六层结构已经体现出来了(比如归一化操作),但这里肯定还有很大的充实空间。”

同样,Kreiman 还提到大脑中的信息向多个方向移动。光信号从视网膜传播到颞下皮层,然后传输到 V1、V2 和视觉皮层的其他层。同时,每一层也同时向上一层提供反馈。在各个层次中,神经元相互交互并传递信息,所有的交互和连接本质上都是帮助大脑填补视觉输入中的空白,从而在信息不完整时进行推断。

相比之下,在人工神经网络中,数据通常只在一个方向上移动。卷积神经网络是“前馈网络”,这意味着信息仅从输入层逐步移动到更高层和输出层。

还有一种称为“反向传播”的反馈机制,可以帮助纠正错误和调整神经网络参数。但是这种反向传播在计算上是昂贵的,并且只在神经网络的训练期间有效。还不清楚反向传播是否真的直接对应于皮质层的反馈机制。

另一方面,强调将较高层的输出与前一层的输入相结合的循环神经网络在计算机视觉中的用途仍然有限。

图片[1]-人类与动物如何处理视觉数据,我们还有很长的路要走-老王博客

在视觉皮层(右)中,信息向多个方向移动。但在神经网络(左)中,信息只向一个方向移动。

在交流中,Kreiman 认为将水平和垂直信息流引入人工神经网络可能有助于其更好地匹配生物视觉系统。

他认为“水平连接(即同一层内的单元之间的连接)对于图补全等计算任务可能至关重要。而垂直连接(即从上层单元到下层单元的连接)很重要用于进行预测、引起注意、结合上下文信息等可能是至关重要的。”

他还提到,大脑神经元具有“现有网络中缺少的复杂时间整合能力”。

目标差异

生物进化已经成功开发出能够完成许多任务的神经架构。多项研究表明,我们的视觉系统能够动态调整对不同目标的注意力敏感度。然而,这种灵活性在计算机视觉系统上仍然难以实现。

目前的计算机视觉系统主要是针对单一任务而设计的,例如物体分类、物体定位、按物体分割图像区域、描述图像内容、生成新图像等,通过不同的神经网络,但这些神经网络只能完成自己的一份工作内的工作。

面对“如何灵活传达以物体为中心的视觉信息?”的问题,Gabriel Kreiman 教授强调“本质上,人类可以基于同一张图像回答无数个问题,包括标注物体、计算物体、描述物体颜色、物体它们之间的交互作用,每个物体的大小等等。我们目前只能构建一个神经网络来解决其中一个问题,但是我们不能通过单个网络同时解决所有问题。虽然有一些新兴算法已经尝试过,它们仍然处于类似的原始水平,远不能与人类的表现相提并论。”

综合差异

对于人类和动物来说,视觉往往与嗅觉、触觉和听觉密切相关。视觉皮层、听觉皮层、体感皮层和嗅觉皮层相互作用并相互提示,帮助人体调整对周围世界的推断。但在人工智能系统中,这些元素只能独立存在。

我们是否需要构建这种综合系统来构建更强大的计算机视觉解决方案?

克雷曼回答道:“作为科学家,我们习惯于把事情分解,分开处理。我个人认为这是一个合理的起点,比如先实现视觉,暂时忽略嗅觉或听觉。这有点像”

然而,生物视觉本身与大脑中的各种复杂区域相互关联。在人体中,视觉离不开逻辑、推理、语言和常识。

Kreiman 指出:“事实上,大多数视力问题都需要我们将输入与预先存在的常识结合起来。”

他以下面这张美国前总统奥巴马的照片为例来说明他的想法。

看懂图片内容需要一定的常识和社会知识,比如搞清楚秤上的人在做什么,奥巴马在做什么,这就需要大量的背景资料。一般知识会让AI代理意识到秤是用来测量体重的,物理知识会表明奥巴马正在向他面前的人施加压力,而心理知识会让人在看到时往往会感到惊讶体重指数远远超出他们的预期。这就是恶作剧的全部内容。

“目前的架构显然无法做到这一点,”Kreiman 说。“这些信息以我们没有意识到的方式整合在一起,并映射和补充存储在大脑中的信息。”

对语言和常识的理解前向和递归神经网络的区别,本身就是AI社区面前的一座高峰。更糟糕的是,我们甚至不知道这些问题是否可以通过拆解逐步解决;也就是说,只有统一的整体处理才能带来真正的答案。

Kreiman 总结道,“总有一天,我们将不得不考虑到认知的方方面面,没有语言和逻辑支持的视觉是不够可靠的。希望我们在未来几年能够取得重大突破,努力把语言、逻辑和视觉模型是统一的。”

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论