AR/VR常作为孪生兄弟被相提并论,到底是什么关系?

雷锋网:AR/VR常被比作孪生兄弟,一般被认为是应用层的新技术或“智能穿戴设备”。与人工智能的相对“算法”标签相比,它没有足够的深度和内涵。AR和人工智能有什么关系?AR是否属于我们目前认知的人工智能?本文由良风台供稿,雷锋网经授权发布。

下面简单梳理一下AR的核心技术

AR(Augmented Reality)就是在现实世界中叠加虚拟信息,也就是“增强”现实。这种增强可以来自视觉、听觉甚至触觉。世界融合在一起。

其中,对现实世界的认知主要体现在视觉上,需要摄像头以图像和视频的形式帮助获取信息和反馈。通过视频分析,实现对3D世界环境的感知和理解,比如场景的3D结构,里面有什么物体,空间在哪里。3D 交互理解的目的是告知系统要“增强”什么。

图片[1]-AR/VR常作为孪生兄弟被相提并论,到底是什么关系?-老王博客

图 典型的 AR 流程

这里有几个关键点:

首先是3D环境理解。要了解您所看到的,您主要依靠对象/场景识别和定位技术。识别主要用于触发AR响应,而定位则是知道在哪里叠加AR内容。定位还可以根据精度的不同分为粗定位和精定位。粗略定位就是给出一个大致的方向,比如区域和趋势。精细定位可能需要精确到点,比如3D坐标系中的XYZ坐标,物体的角度。根据应用环境的不同,两个维度的定位在AR中都有应用需求。在AR领域,常见的检测识别任务包括人脸检测、行人检测、车辆检测、手势识别、生物识别、

在感知到真实的 3D 世界并将其与虚拟内容融合后,需要以一定的方式呈现这种虚实融合的信息。这里需要的是AR中的第二个关键技术:显示技术。目前,大多数 AR 系统都使用透视。类型头盔显示器,分为视频透视和光学透视,其他代表有光场技术(主要以Magic Leap闻名)、全息投影(经常出现在科幻影视作品中)等。

AR中的第三个关键技术是人机交互,它允许人们与叠加的虚拟信息进行交互。AR追求的是触摸按键以外的自然人机交互方式,如语音、手势、手势、人脸等,更多地使用语音和手势。

人工智能和AR之间的技术联系

在人工智能领域,经常会提到几个概念,比如深度学习(DL)和机器学习(ML)。从某种意义上说,我们经常笼统地谈论人工智能,涵盖了所有“让机器像人一样”的技术的应用方向。

图片[2]-AR/VR常作为孪生兄弟被相提并论,到底是什么关系?-老王博客

从这张图中,也可以简单的看出三者的关系。深度学习是实现机器学习的技术途径,而机器学习就是让机器变得智能,实现人工智能。可以说,人工智能是终极目标,而机器学习则是为实现这一目标而延伸的技术方向。其中,还有一个重要的概念叫做计算机视觉(CV),主要研究如何让机器像人一样“看”。它是当前人工智能概念的一个重要分支。方法之一是视觉。目前,计算机视觉已经在商业市场上发挥了作用,比如人脸识别;在自动驾驶中阅读交通信号并注意行人导航;工业机器人用于检测问题控制过程;3D 环境重建图像处理等等。这些概念在一定程度上既有区别又有重叠。

其中,从 2006 年开始,由 Hinton 引发的深度学习热潮开始蔓延,这在一定程度上带动了 AI 的再次崛起。近十年来,在语音识别、计算机视觉、自然语言处理等多个领域都取得了重大成就。向应用领域的突破和延伸如火如荼。

在AR的核心技术中,3D环境理解、3D交互理解、计算机视觉和深度学习密切相关。3D环境理解在学术界主要对应计算机视觉领域,而近年来深度学习在计算机视觉中得到了广泛的应用。在交互方面,硬件终端使用手势、语音等更自然的交互方式,得益于近年来深度学习在相关领域的突破。也可以说,深度学习在AR中的应用主要是在视觉的关键技术上。

目前,AR最常见的形式是2D图像扫描识别,在腾讯QQ-AR火炬活动、支付宝五福等大部分AR营销活动中都可以看到。主要研发方向仍然是3D物体。识别和 3D 场景建模。

真实物体以 3D 形式存在,具有不同的角度和空间方向。所以一个自然的延伸就是从 2D 图像识别到 3D 物体识别,去识别物体的类别和姿态,这里可以使用深度学习。以水果识别为例,它对不同种类的水果进行识别并给出定位区域,即融合了物体识别和检测的功能。

3D 场景建模,从识别 3D 对象到更大更复杂的 3D 区域。比如识别场景中有什么虚拟ai是什么意思,它们的空间位置和相互关系等。这就是3D场景建模,是AR对比的核心技术。这涉及到当前流行的SLAM(实时定位和地图构建)。通过扫描一个场景,然后在其上叠加虚拟战场等三维虚拟内容。如果只是基于普通的二维图像识别,需要特定的图像,当图像不可见时识别会失败。在 SLAM 技术中,即使特定平面不存在,空间定位仍然非常准确,这得益于周围 3D 环境的帮助。

这里我想谈谈深度学习和SLAM技术的融合。计算机视觉一般可以分为两个流派,一个基于学习,比如特征提取-特征分析-分类。目前虚拟ai是什么意思,深度学习技术已经走在了这条路线的前列。性状态。另一条路线基于几何视觉,从线条、边缘和 3D 形状推断物体的空间结构信息。代表技术是SFM/SLAM。在学习方向上,深度学习基本独领风骚,但在基于几何视觉的领域,相关进展还很少。从学术上看,深度学习技术的研究进展可以说是日新月异,而近十年来SLAM技术的进步相对较小。在国际视觉顶级会议 ICCV 2015 组织的 SLAM 技术研讨会上,基于近年来深度学习在其他视觉领域的快速发展,一些专家提出了在 SLAM 中使用深度学习的可能性,但没有想法成熟呢。. 总体而言,深度学习与SLAM的融合在短期内是一个值得研究的方向,而联合语义和几何信息从长远来看是一个非常有价值的趋势。因此,SLAM+DL值得期待。一些专家提出了在 SLAM 中使用深度学习的可能性,但目前还没有成熟的想法。. 总体而言,深度学习与SLAM的融合在短期内是一个值得研究的方向,而联合语义和几何信息从长远来看是一个非常有价值的趋势。因此,SLAM+DL值得期待。一些专家提出了在 SLAM 中使用深度学习的可能性,但目前还没有成熟的想法。. 总体而言,深度学习与SLAM的融合在短期内是一个值得研究的方向,而联合语义和几何信息从长远来看是一个非常有价值的趋势。因此,SLAM+DL值得期待。

在交互方面,主要包括语音识别和手势识别。目前语音识别已经取得了很大的进展。百度、科大讯飞、云智升等国内企业名列前茅。AR公司想要突破的是手势识别的成熟商业化,比如亮丰泰展示的基于深度学习的手势识别系统,主要定义了上、下、左、顺时针、逆时针六种手势。对应的手势轨迹用于实现对人体手势的识别。人脸识别等人工智能的其他热门领域也应用在AR中,但对于AR公司来说并不是重要的研发方向。

由上不难看出,AR的底层技术或基础部分是计算机视觉与相关领域的融合,而当下流行的深度学习与AR的结合,也是AR的努力方向。算法工程师。这也是计算机视觉和人机交互AR的交叉学科。AR的基础是人工智能和计算机视觉的基础。

图片[3]-AR/VR常作为孪生兄弟被相提并论,到底是什么关系?-老王博客

图:计算机视觉与 AR 过程关联

去年今日头条发布的《人工智能影响力报告》也简要统计了人工智能科学家的分布情况,包括人脸识别、语音识别、机器人、AR、芯片等领域的公司和大型研发机构。人员也说明了AI领域的细分方向。

图片[4]-AR/VR常作为孪生兄弟被相提并论,到底是什么关系?-老王博客

AR真的是人工智能吗?

对于AR从业者来说,最理想的状态是用更智能的AR终端代替智能手机。因此,对于用户来说,影响AR使用的第一件事是内容,第二是终端。如果把AR产业链粗略划分,包括技术提供。业务、智能终端研发公司、AR内容提供商。其中,AR设备商必然关注硬件技术,如底层芯片、电池、光学镜头等,以及硬件本身的性能优化,而内容商则更倾向于在现有技术的基础上优化内容和性能。因此,我们可以说AR技术提供商,或者说在底层算法研发上有一定成就的AR公司,都是人工智能公司。

对于企业,尤其是初创企业来说,他们会将底层技术转化为成熟的产品或服务,可能是无人机、AR智能终端、机器人等,也可能是行业解决方案来实现商业目的,而这已经成为了人们的期望和要求。媒体、企业和公众对于AI企业的呼声在沸腾之后。近日,由人工智能产业发展联盟(AIIA)出版的《人工智能浪潮:100个科技改变生活的前沿人工智能应用》一书将面向公众发布,其中囊括了当下巨头公司和初创公司的前沿成果。商业化。也直接反映了当前人工智能的主要商业化方向。

作为一个技术驱动的业务领域,无论是AR还是人工智能的大部分其他方向,该技术距离完全成熟还有很长的路要走。在整个产业链逐渐繁荣并注重商业化的同时,也需要更多的公司和机构不断拓展技术边界,建立核心竞争力,让行业爆发出更大的价值和潜力。这样一来,中国在AI时代的弯道超车就可以期待了。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论