AR/VR常作为孪生兄弟被相提并论，到底是什么关系？-老王博客

雷锋网：AR/VR常被比作孪生兄弟，一般被认为是应用层的新技术或“智能穿戴设备”。与人工智能的相对“算法”标签相比，它没有足够的深度和内涵。AR和人工智能有什么关系？AR是否属于我们目前认知的人工智能？本文由良风台供稿，雷锋网经授权发布。

下面简单梳理一下AR的核心技术

AR（Augmented Reality）就是在现实世界中叠加虚拟信息，也就是“增强”现实。这种增强可以来自视觉、听觉甚至触觉。世界融合在一起。

其中，对现实世界的认知主要体现在视觉上，需要摄像头以图像和视频的形式帮助获取信息和反馈。通过视频分析，实现对3D世界环境的感知和理解，比如场景的3D结构，里面有什么物体，空间在哪里。3D 交互理解的目的是告知系统要“增强”什么。

图典型的 AR 流程

这里有几个关键点：

首先是3D环境理解。要了解您所看到的，您主要依靠对象/场景识别和定位技术。识别主要用于触发AR响应，而定位则是知道在哪里叠加AR内容。定位还可以根据精度的不同分为粗定位和精定位。粗略定位就是给出一个大致的方向，比如区域和趋势。精细定位可能需要精确到点，比如3D坐标系中的XYZ坐标，物体的角度。根据应用环境的不同，两个维度的定位在AR中都有应用需求。在AR领域，常见的检测识别任务包括人脸检测、行人检测、车辆检测、手势识别、生物识别、

在感知到真实的 3D 世界并将其与虚拟内容融合后，需要以一定的方式呈现这种虚实融合的信息。这里需要的是AR中的第二个关键技术：显示技术。目前，大多数 AR 系统都使用透视。类型头盔显示器，分为视频透视和光学透视，其他代表有光场技术（主要以Magic Leap闻名）、全息投影（经常出现在科幻影视作品中）等。

AR中的第三个关键技术是人机交互，它允许人们与叠加的虚拟信息进行交互。AR追求的是触摸按键以外的自然人机交互方式，如语音、手势、手势、人脸等，更多地使用语音和手势。

人工智能和AR之间的技术联系

在人工智能领域，经常会提到几个概念，比如深度学习（DL）和机器学习（ML）。从某种意义上说，我们经常笼统地谈论人工智能，涵盖了所有“让机器像人一样”的技术的应用方向。

从这张图中，也可以简单的看出三者的关系。深度学习是实现机器学习的技术途径，而机器学习就是让机器变得智能，实现人工智能。可以说，人工智能是终极目标，而机器学习则是为实现这一目标而延伸的技术方向。其中，还有一个重要的概念叫做计算机视觉（CV），主要研究如何让机器像人一样“看”。它是当前人工智能概念的一个重要分支。方法之一是视觉。目前，计算机视觉已经在商业市场上发挥了作用，比如人脸识别；在自动驾驶中阅读交通信号并注意行人导航；工业机器人用于检测问题控制过程；3D 环境重建图像处理等等。这些概念在一定程度上既有区别又有重叠。

其中，从 2006 年开始，由 Hinton 引发的深度学习热潮开始蔓延，这在一定程度上带动了 AI 的再次崛起。近十年来，在语音识别、计算机视觉、自然语言处理等多个领域都取得了重大成就。向应用领域的突破和延伸如火如荼。

在AR的核心技术中，3D环境理解、3D交互理解、计算机视觉和深度学习密切相关。3D环境理解在学术界主要对应计算机视觉领域，而近年来深度学习在计算机视觉中得到了广泛的应用。在交互方面，硬件终端使用手势、语音等更自然的交互方式，得益于近年来深度学习在相关领域的突破。也可以说，深度学习在AR中的应用主要是在视觉的关键技术上。

目前，AR最常见的形式是2D图像扫描识别，在腾讯QQ-AR火炬活动、支付宝五福等大部分AR营销活动中都可以看到。主要研发方向仍然是3D物体。识别和 3D 场景建模。

真实物体以 3D 形式存在，具有不同的角度和空间方向。所以一个自然的延伸就是从 2D 图像识别到 3D 物体识别，去识别物体的类别和姿态，这里可以使用深度学习。以水果识别为例，它对不同种类的水果进行识别并给出定位区域，即融合了物体识别和检测的功能。

3D 场景建模，从识别 3D 对象到更大更复杂的 3D 区域。比如识别场景中有什么虚拟ai是什么意思，它们的空间位置和相互关系等。这就是3D场景建模，是AR对比的核心技术。这涉及到当前流行的SLAM（实时定位和地图构建）。通过扫描一个场景，然后在其上叠加虚拟战场等三维虚拟内容。如果只是基于普通的二维图像识别，需要特定的图像，当图像不可见时识别会失败。在 SLAM 技术中，即使特定平面不存在，空间定位仍然非常准确，这得益于周围 3D 环境的帮助。

这里我想谈谈深度学习和SLAM技术的融合。计算机视觉一般可以分为两个流派，一个基于学习，比如特征提取-特征分析-分类。目前虚拟ai是什么意思，深度学习技术已经走在了这条路线的前列。性状态。另一条路线基于几何视觉，从线条、边缘和 3D 形状推断物体的空间结构信息。代表技术是SFM/SLAM。在学习方向上，深度学习基本独领风骚，但在基于几何视觉的领域，相关进展还很少。从学术上看，深度学习技术的研究进展可以说是日新月异，而近十年来SLAM技术的进步相对较小。在国际视觉顶级会议 ICCV 2015 组织的 SLAM 技术研讨会上，基于近年来深度学习在其他视觉领域的快速发展，一些专家提出了在 SLAM 中使用深度学习的可能性，但没有想法成熟呢。. 总体而言，深度学习与SLAM的融合在短期内是一个值得研究的方向，而联合语义和几何信息从长远来看是一个非常有价值的趋势。因此，SLAM+DL值得期待。一些专家提出了在 SLAM 中使用深度学习的可能性，但目前还没有成熟的想法。. 总体而言，深度学习与SLAM的融合在短期内是一个值得研究的方向，而联合语义和几何信息从长远来看是一个非常有价值的趋势。因此，SLAM+DL值得期待。一些专家提出了在 SLAM 中使用深度学习的可能性，但目前还没有成熟的想法。. 总体而言，深度学习与SLAM的融合在短期内是一个值得研究的方向，而联合语义和几何信息从长远来看是一个非常有价值的趋势。因此，SLAM+DL值得期待。

在交互方面，主要包括语音识别和手势识别。目前语音识别已经取得了很大的进展。百度、科大讯飞、云智升等国内企业名列前茅。AR公司想要突破的是手势识别的成熟商业化，比如亮丰泰展示的基于深度学习的手势识别系统，主要定义了上、下、左、顺时针、逆时针六种手势。对应的手势轨迹用于实现对人体手势的识别。人脸识别等人工智能的其他热门领域也应用在AR中，但对于AR公司来说并不是重要的研发方向。

由上不难看出，AR的底层技术或基础部分是计算机视觉与相关领域的融合，而当下流行的深度学习与AR的结合，也是AR的努力方向。算法工程师。这也是计算机视觉和人机交互AR的交叉学科。AR的基础是人工智能和计算机视觉的基础。

图：计算机视觉与 AR 过程关联

去年今日头条发布的《人工智能影响力报告》也简要统计了人工智能科学家的分布情况，包括人脸识别、语音识别、机器人、AR、芯片等领域的公司和大型研发机构。人员也说明了AI领域的细分方向。

AR真的是人工智能吗？

对于AR从业者来说，最理想的状态是用更智能的AR终端代替智能手机。因此，对于用户来说，影响AR使用的第一件事是内容，第二是终端。如果把AR产业链粗略划分，包括技术提供。业务、智能终端研发公司、AR内容提供商。其中，AR设备商必然关注硬件技术，如底层芯片、电池、光学镜头等，以及硬件本身的性能优化，而内容商则更倾向于在现有技术的基础上优化内容和性能。因此，我们可以说AR技术提供商，或者说在底层算法研发上有一定成就的AR公司，都是人工智能公司。

对于企业，尤其是初创企业来说，他们会将底层技术转化为成熟的产品或服务，可能是无人机、AR智能终端、机器人等，也可能是行业解决方案来实现商业目的，而这已经成为了人们的期望和要求。媒体、企业和公众对于AI企业的呼声在沸腾之后。近日，由人工智能产业发展联盟（AIIA）出版的《人工智能浪潮：100个科技改变生活的前沿人工智能应用》一书将面向公众发布，其中囊括了当下巨头公司和初创公司的前沿成果。商业化。也直接反映了当前人工智能的主要商业化方向。

作为一个技术驱动的业务领域，无论是AR还是人工智能的大部分其他方向，该技术距离完全成熟还有很长的路要走。在整个产业链逐渐繁荣并注重商业化的同时，也需要更多的公司和机构不断拓展技术边界，建立核心竞争力，让行业爆发出更大的价值和潜力。这样一来，中国在AI时代的弯道超车就可以期待了。

文章版权声明 1、本站永久网址：https://www.9im.cn
2、本主题所有言论和图片纯属会员个人意见，与本网站立场无关。
3、本网站所有源码和软件均为作者提供和网友推荐收集整理而来，对提供的源码不拥有任何权利，其版权归原著者拥有。仅供学习和研究使用,下载后请24小时内删除。不得使用于非法商业用途，不得经营非法游戏或违反国家法律。一切关于该资源商业行为与老王博客无关。
4、如果您喜欢该程序，请支持正版源码、软件，购买注册，得到更好的正版服务。如有侵犯你版权的，请邮件与我们联系处理，本站将立即改正。
5、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

喜欢就支持一下吧