蔚来汽车：AR技术完成物理与数字世界连接-CCTV央视一线聚焦

蔚来汽车：AR技术完成物理与数字世界连接

发布时间：2023-07-24 17:35 文章来源：网络阅读量：18692

蔚来汽车座舱交付一部高级总监张定勇认为，AR的价值和应用，一是效率工具，通过提供附加数字化信息，帮助用户更好的感知现实环境和做出决策，如AR HUD、AR扩展屏、AR物品识别、AR教育，虚拟物体需要与现实空间融合，如HoloLens、Magic Leap、Vision Pro；二是内容娱乐和沉浸式观影，如NIO PanoCinema，虚拟物体不必需要与现实空间融合。

蔚来汽车座舱交付一部高级总监

同时他表示，AR技术分为三个方向，头戴显示屏、视频透视和光学透视。AR技术的发展趋势，一是逐渐接近普通眼镜形态，二是光学透视+视场角更大的AR显示硬件，三是车载AR的发展方向是器件尽量转移到车端。

AR车载应用和技术

AR的价值和应用主要分为两类，第一类是效率工具，作用是通过提供附加数字化信息，帮助用户更好的感知现实环境和做出决策，典型应用场景包括AR-HUD、AR扩展屏、AR物品识别、AR教育等，可以实现虚拟物体需要与现实空间融合；第二类是内容娱乐，包括沉浸式观影，如NIO PanoCinema，而且虚拟物体不必需要与现实空间融合。

AR车载场景包括沉浸式观影、AR扩展屏、AR-HUD、AR导航、AR远程救援、AR汽车原型设计等，都是车载领域相应的结合应用。其中AR扩展屏可以在车内的真实物理屏幕之外扩展交互空间。

光学透视OST

关于光学透视OST，首先来看其背景知识。

OST技术用的是双目测距的原理。人眼可以通过左右眼感知距离，是因为双目存在视差，距离不同的三个点，右眼看的位置是相同的，但在左眼看则有差别。通过摄像头模拟，可以看到这三个点在相面上投影的位置不一样，根据这个区别，就可以得到物体当前的距离。

图下面的camera L和camera R有两个相似三角形，f是焦距，b是瞳距离左右摄像机的距离，xl和xr是点在相面上成像的点位置，最后通过方程得出结果。立体视觉的难点在于比较难检测左右眼图像里是哪两个点相同。还有一种是结构光测距，计算原理与双目测距相同，用一只眼的位置发射一个特定图案，摄像头的接收端根据图案当前像面上的位置进行计算，测出距离，结果是比较准确的。

AR OST中需要完成的首先是标定，主要完成两个换算关系，相机图像与物理世界换算、相机与人眼、显示屏相对位姿计算。

第二步是SLAM建图，主要包括同步定位和建图。首先是建图，在空间计算中，测距是最关键的一步。可以使用双目相机、结构光相机、LiDAR激光雷达，基于红外激光进行深度计算，然后获取三维场景的深度图；在移动过程中，结合拍摄设备上的IMU获取相对位移，通过不断的相对位移和计算，不断修正深度图结果；最后扫描环境并重建当前世界坐标系下的三维场景和坐标。

接下来是SLAM定位，当了解了当前物理环境在世界坐标系下的坐标，并掌握了当前环境的特征点，例如墙上的灯等，将获得的绝对物理坐标存储在当前VR设备中后，就可以进行SLAM定位。

OST技术的最后一步是重投影。之所以要做重投影，是因为需要将虚拟物体叠加到现实空间中。

图源:嘉宾演讲材料

以此来完成虚拟物体与实际观看到的物理世界之间的融合叠加。VST有许多成熟技术，例如特征检测，为什么需要如此复杂的过程，是因为会使效果更加真实。这个类似在3D渲染中的物理引擎所起到的作用。

AR技术突破

AR技术的突破点有以下几个方面，重量、眩晕、价格和发展方向。

第二个是眩晕感。包括焦距错位、图像抖动和延迟、OST虚实结合误差。除了双眼视差之外，我们平时观察实际物体时，判断距离的依据是焦距，也是人能感知距离的次要因素，现有VR、AR设备还无法实现，因为焦距是固定在显示屏上的，久观后会出现焦距错位，也叫辐辏调节冲突。另外，当前AR、VR在虚拟物体产生和渲染时是存在延迟的，而VST包括实际物理图像和虚拟图像，都是基于摄像头生成的，所以也存在延迟，动起来后就会产生眩晕和不适感。目前已经有产品将延迟降至10毫秒-12毫秒。OST虚实结合误差是一个重要部分，如何减低误差是个挑战。

第三是价格。包括摄像头个数和计算芯片，目前价格都较高。但长期来看不是问题，因为硬件价格是在不断降低的。对于车载扩展虚拟屏的应用来说，需要更低成本的方案，因为车载场景具有特殊性。

AR技术发展方向的关键，首先需要逐渐接近普通眼镜形态，这样才能长期佩戴，才能真正改变生活和世界。因为在现实生活中免不了要与人打交道，反复的摘下再戴上不太现实；其次是光学透视和市场角更大的AR显示硬件，是因为目前AR显示技术在市场角受限，基本上都在70度，VR则通常可以达到100度以上，这会限制OST的落地；在车载方向上，器件要尽量转移到车端，以减轻眼镜的重量。因为环境不同，所以车载场景具有独到的优势。

在车载场景下，可以看到车载扩展屏的应用，在物理屏之外，在旁边附加一块虚拟屏幕，其中关键点是如何实现稳定贴合，无论眼睛怎么动，都能够稳定贴合在物理屏旁边。有一个简单的方法是，因为车本身是一个刚体，所以在车内布置多个红外激光点，只需单目相机就可以通过三个点的位置和当前摄像机投影出来的位置就可以计算出当前摄像头的位置，就可以进行投影，然后将其附加到车内物理空间中，计算消耗非常小。这就是车载的优势所在。

Vision Pro在行业内是一个非常强大且伟大的产品。其最大的创新来自于新交互范式，眼动跟踪和手势技术虽然已经存在很久，但Vision Pro最大的创新是将这两个技术结合在一起，创造了一种新的交互方式，而且非常自然，没有学习成本。

在显示层面，Vision Pro使用的是VST，在传感器和算力层面，具备了OST和空间计算能力，只是显示层面没有使用OST。传感器和算力上具备OST的空间计算能力，因此价格目前相对较难降低。

关于摄像头测距，LiDAR适合远景测距，即使离得很远，精度也不会受到太大损失。True Depth camera则分辨率较高，适合在近距离做到较高精度。苹果选用了这两种组合，可以同步兼顾近景和远景测距，完成SLAM建图。

在显示硬件上，PanCake模组的重量和厚度都会下降。VisionPro针对OST的短板分辨率和延迟都做了弥补。没有选择OST的原因可能是需要同时支持AR和VR模式，才能有更多应用场景。当前OST显示技术的市场有限，无法较好地支持VR场景。在硬件上先配置具备OST能力，也能给予比较成熟的技术支持AR、VR的应用，这是非常聪明的做法。

AR、VR未来发展

图源:嘉宾演讲材料

人类出现几十万年，发展一直处于左边的小C循环物理世界，数字世界直到最近几十年才形成，数字世界也包含感知、决策和执行，只是目前AI层面的发展相对较早期。当前从数字世界感知到物理世界，再到人类智慧的决策，最后到物理世界和数字世界的执行，是一个大C字循环。

因此，现在需要完成更多数字世界与物理世界的连接，这主要来自于感知层和执行层。感知层的连接目前是电脑和手机，将数字信息传输到数字世界，目前物理世界数字化已经有了一部分，如大部分交易已经在数字世界中完成，文本和书籍也已完成数字化，但仍占据较小比例，电脑和手机目前承担桥梁接口的作用。执行层的连接也是电脑和手机，通过人脑判断意图后，将其输入给计算机，使其更多地在数字世界中执行。

随着AI的发展，未来这两个世界之间会有更多接口。数字世界可以给生产力带来很大的提升，这是绝对的原动力。随着AI的发展，在不同层面可能会产生接口，包括决策层和执行层。决策层可能以后会有新接口，执行层也可能通过机器人将数字世界映射回物理世界进行执行。

将来这两个世界将会形成8字循环还是会变成右边的小D字循环，这尚且无法判断，但可以确定，现在所处的物理世界是一个三维空间，而未来数字世界不仅仅是三维，因为时间上可回溯，至少可以是四维，或更高维的世界。

三维世界与高维世界之间的连接还是瓶颈，因为目前的电脑和手机还是二维接口。AR和VR能否取代电脑和手机尚不确定，但一定会有一种新的形态出现。AR、VR目前能完成的不仅是将数字世界的信息投射到当前的物理世界里面。反过来，也可以通过拍摄测距等方式将当前物理世界的信息转化为数字世界的数字资产。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

新闻

娱乐