实现高质量AR/VR全息显示,斯坦福大学提出神经网络参数化平面到多平面波传播模型

查看引用/信息源请点击:映维网

一个神经网络参数化的平面到多平面波传播模型

映维网 2022年01月10日)增强现实和虚拟现实系统能够带来前所未有的沉浸式用户体验,但当前AR/VR平台的光引擎在峰值亮度、功率效率、设备形状参数、对感知重要焦点线索的支持、以及校正用户视觉像差能力等方面都受到不同程度的限制。所以,学界和业界正在积极探索各种解决方案。

对于由斯坦福大学博士后研究院Yifan Peng和电子工程副教授戈登·韦茨坦(Gordon Wetzstein)等人组成的团队而言,其相信全息近眼显示器有望解决上述的一系列问题。

继在SIGGRAPH 2020发表了一份名为《Neural Holography》的研究论文后,他们又在今年的大会介绍了最新的研究成果:《Neural 3D holography: learning accurate wave propagation models for 3D holographic virtual and augmented reality displays》。

延伸阅读斯坦福大学在Siggraph演示最先进AR/VR全息显示技术

简单来说,《Neural Holography》主要介绍了一个能够以1080p分辨率实时生成全彩高质量全息图的CGH算法。《Neural 3D holography: learning accurate wave propagation models for 3D holographic virtual and augmented reality displays》则提出了一个神经网络参数化的平面到多平面波传播模型,其能够缩小物理和模拟之间的差距,并实现高质量的3D计算机生成全息图。

全息近眼显示器通常是利用单个空间光调制器(SLM)来合成3D强度分布,并通过明亮且节能的激光器产生相干照明。全息术的基本原理在70多年前就已经发展起来,但高质量的全息图一直以来都是通过光记录技术实现。以高效利用SLM来生成高质量数字全息图的主要挑战是用于计算机生成全息(CGH)的算法。传统的CGH算法依赖于模拟的波传播模型,但由于无法充分代表近眼显示器的物理光学,所以可实现的质量存在严重的限制。

斯坦福大学团队希望充分挖掘新兴全息近眼显示在合成高质量3D全息图方面的潜力,而实现这一目标所需的关键技术是一个精确且可微的平面到多平面正向波传播模型。其中,所述模型能够充分模拟显示器的物理光学,并实现高质量的3D计算机生成全息图。

如上图所示,基于VR和AR显示原型的广泛实验证明了所述方法的有效性。在与一系列的方法进行对比时,团队提出的方法(ADMM-CNNpropCNN)能够实现优异的图像质量。

1. 基于3D神经网络的波传播模型

研究人员选择了菲涅耳全息图配置,其中准直相干激光束入射到仅相位SLM,以每像素方式延迟源场Usrc的相位。任何CGH算法的任务都是为目标2D或3D强度分布确定最佳SLM相位模式∈ R M×N,即全息图。模拟复波从一个平面传播到另一个平面(例如SLM到目标平面)的流行模型是角谱法(ASM)。

团队结合经典角谱方法(ASM)与卷积神经网络(CNN),并使用了随机梯度下降(SGD)变量,从而提出了一种名为SGDASM的函数来计算二维或多平面三维全息图。

诸如ASM的分析模型非常适合模拟。然而,它们通常不能很好地表示物理光学系统的真实波传播算符。如光学像差、SLM的相位非线性、杂散光或SLM的有限衍射效率等微小缺陷都使得ASM难以开箱即用,校准所有可能的缺陷源是一项繁琐或不可能的任务。

为了克服所述挑战,学界早前提出了二维平面波传播的神经网络参数化模型,将CNN应用到强度以执行从理想预测图像到捕获图像的图像到图像的转换。但相关方法在各自正向模型的精度或其梯度,又或是两者都受到限制。

现有的方法都不能自然地扩展到3D。所以,斯坦福大学的研究人员提出了一种结合先前方法优点,同时能够自然有效地将它们扩展到三维多平面环境的全新波传播模型。他们将能够与所述模型结合使用,并能够促进RGBD目标图像复波场平滑度的近端梯度解算器的方法称为ADMM-CNNpropCNN。

上图是团队提出的3D波传播模型和RGBD监控策略的说明。SLM显示的相位模式由CNN处理。由此产生的复波场使用常规ASM波传播算子传播到所有目标平面。每个目标平面的波场由较小的CNN再次处理。损失函数约束目标平面的遮罩振幅,以匹配遮罩目标RGB图像,其中每个目标平面的二值遮罩都是根据目标深度贴图计算。

为了训练CNN参数化模型,团队使用摄像头捕捉了多对SLM相位图以及由此产生的单平面或多平面强度。他们没有使用随机相位,而是使用传统的CGH算法生成相位模式池。具体来说,对于8个目标平面中的每一个,其使用DPAC算法生成100个相位模式,使用SGD从数据集的随机图像生成1000个相位模式。对于SGD优化的相位,研究人员同时随机化迭代次数,并使用随机相位值初始化相位模式。因此,训练数据总共包括8800个相位模式和相应的捕获强度图像。

他们然后使用Pytork中的ADAM解算器优化模型参,并为三个颜色通道中的每一个分别优化一个模型。

一经训练,团队可以使用波传播模型计算二维或多平面三维目标图像的相位模式,方法是使用fCNNpropCNN求解方程,而不是使用SGD求解fASM,因为后者是一种种迭代方法,需要几十秒或几分钟才能完成,所以并非实时。

当与3D多平面全息显示模式一起使用时,最简单的方法是使用目标场景的渲染焦点堆栈同时约束所有平面。但由于几个原因,这种方法并不理想。第一,它需要渲染目标场景的焦点堆栈,这在计算成本方面非常昂贵。第二,使用焦点叠加对系统进行监控会限制系统。第三,它要求对系统的散焦模糊进行显式建模,以便渲染焦点堆栈。这不是小事,因为如果要确保这种散焦模糊感知正确,你必须追踪用户的瞳孔直径,亦即需要额外的系统复杂性。如果要模拟全息显示自然支持的散焦模糊,就必须考虑SLM的空间-带宽积。另外,相干波场的物理散焦行为并不直观,与我们在自然环境中通常看到的非相干光不同。

为了缓解所述挑战,研究团队提出了一种计算效率高的方法:只需要目标场景的RGBD图像,而不是多平面体或焦点堆栈。深度图可用于所有计算机生成内容,并且可以使用称为单目深度估计的计算机视觉技术对摄影内容进行近似。使用RGBD图像进行多平面全息术并非新鲜事,只需要将深度贴图的值量化到最近的全息显示平面。所以,所有目标平面j上的每个像素位置仅对其中一个目标深度平面进行约束–最接近该位置对应深度值的一个。

2. 实验对比

图4显示了实验捕获的若干测试图像。团队比较了一系列不同方法获得的结果:

如图所示,团队的模型提供了最佳的对比度、清晰度、无斑点瑕疵和整体图像质量。

图5是多平面3D场景的实验捕获结果,每个场景分别聚焦在近距离、中间距离和远距离。同样,团队的模型提供了最佳的对焦和离焦图像质量,散斑显著减少。

3. 总结讨论

总的来说,团队提出了一种全新的全息近眼显示波传播模型。模型由神经网络参数化,并使用摄像头反馈从物理光学系统捕获的图像进行自动训练。所述模型在二维平面到平面设置方面明显优于相关技术,并实现了高质量的三维计算机生成全息图。

另外,团队证明了我们模型的3D变体可以直接使用RGBD目标图像进行监督。为了约束三维全息图的离焦行为(不受RGBD图像的直接约束),团队提出了一种聚焦时波场相位分量的正则化策略,以及有效实施这种正则化的优化器。对VR和AR原型显示器的广泛实验评估证明了方法的有效性优于现有方法。

当然,团队同时承认了研究的局限性。例如,他们主要是开发准确高效的神经网络(全息近眼显示的参数化波传播模型),而不是实时全息图像合成。另外,原型使用了最先进的纯相位SLM,但遗憾的是,所述SLM只能为光学系统提供非常有限的功能。实际上,这意味着全息近眼显示器的视窗很小。

对于未来,团队将尝试继续优化研究,并尝试解决一系列的局限。

相关论文Neural 3D holography: learning accurate wave propagation models for 3D holographic virtual and augmented reality displays

具体而言,论文的贡献如下:

-提出了一个用于全息近眼显示中波传播的可微分摄像头校准模型。所述模型比以前的2D设置更准确地表示物理光学。

  • 开发了一种3D多平面CGH优化策略,可显著减少离焦区域的散斑。所述策略对聚焦区域的相位设置分段平滑约束,并使用近端梯度解算器对其进行优化
  • 使用虚拟现实和增强现实显示原型评估我们的方法,并展示了迄今为止最高质量的2D和3D全息显示结果。
本文链接https://news.nweon.com/93372
转载须知:转载摘编需注明来源映维网并保留本文链接
入行必读:AR/VR——计算机历史第二次大浪潮

更多阅读推荐......

资讯