Meta研究员用神经网络重建视觉透视,带来高质量MR透视效果
尽管效果大有进步,但“未来的路途依然非常遥远”。
(映维网Nweon 2022年10月31日)诸如Varjo XR-3、Quest Pro、Lynx R-1等头显或是未来几年内体验增强现实的最佳方式。采用透明光学器件的传统AR头显(如HoloLen 2和Magic Leap 2)一般是通过波导显示器将AR元素直接投射到眼睛,而前述设备则是利用外置摄像头拍摄物理环境,然后再将其显示在不透明显示器。在这里,系统可以根据需要用AR元素进行扩展。
人工视线合成:一个大问题
上面所说的技术通常称为透视AR。尽管透视AR拥有一定的优势,但它同样存在挑战:当使用传感器数据重建物理环境时,如何令视图看起来像是用户在现实世界中用双眼看到的一样。
分辨率、颜色保真度、深度表示和透视等都必须与自然视觉印象相对应,并在用户移动头部时以尽可能少的延迟进行修改。
透视尤其给这项技术带来了巨大的困难,因为前置摄像头的位置与眼睛的位置不完全匹配。这种视角转换可能会导致不适和视觉伪影。
实际上,Meta的研究人员一直在研究相关的问题,并已在8月举行的Siggraphh 2022大会介绍了一项创新:使用人工神经网络重建视觉透视,亦即NeuralPassthrough神经透视。
如上图所示,由于摄像头和眼睛位置的不匹配,Quest 2的黑白透视产生了扭曲,而且细节方面存在缺陷。但Meta的NeuralPassthrough神经透视能够产生透视正确的高质量结果。
人工智能创建:高质量的结果
团队提出的NeuralPasthrough利用了深度学习的最新进展,将Pasthrought化解为基于图像的神经渲染问题。具体而言,研究人员联合应用学习的立体深度估计和图像重建网络,通过端到端方法生成眼睛视点图像。
Meta开发的人工智能算法可以估计房间和房间内对象的深度,并重建与眼睛相对应的人工视角。相关模型使用合成数据集进行训练:从不同视角显示80个空间场景的图像序列。产生的人工神经网络十分灵活,可以应用于不同的摄像头和眼睛距离。
与Meta Quest 2和其他透视方法相比,NeuralPassthrough提供了非常出色的图像质量,并满足透视校正立体注视合成的要求,如上面的视频所示。
当然,所述技术存在一定的局限性。例如,结果的质量在很大程度上取决于人工智能空间估计的准确性。深度传感器可以改善未来的结果。另一个挑战是AI模型无法重建对象的透视依赖反射,而这反过来会导致伪影。
再一个问题是计算能力:专门为研究目的而构建的原型是基于台式PC提供动力,包括Intel Xeon W-2155和两枚Nvidia Titan V。结果是分辨率为1280 x 720像素,延迟为32毫秒的透视图像,但这对高质量透视而言分辨率太低,而延迟太高。
相关论文:NeuralPassthrough: Learned Real-Time View Synthesis for VR
所以,Meta表示:“为了提供令人信服的透视体验,这一领域需要在图像质量(抑制显著的扭曲和模糊伪影)方面取得重大进展,同时满足严格的实时、立体和宽视场要求。解决可穿戴计算设备移动处理器的进一步限制意味着未来的路途依然非常遥远。”