纽约大学与哥伦比亚大学联合研发超表面神经深度成像系统Nano-3D
一种基于超表面的神经深度成像解决方案
(映维网Nweon 2025年07月02日)深度成像是虚拟现实/增强现实等广泛应用的基础组成。传统而言,深度摄像头依赖于飞行时间传感器或多镜头系统来实现物理深度测量。然而,它们经常面临笨重的形状参数和不精确近似之间的权衡,限制了对空间受限场景的适用性。受纳米光学新进展的启发,纽约大学和哥伦比亚大学团队提出了Nano-3D,一种基于超表面的神经深度成像解决方案。
Nano-3D将定制的700 nm厚的TiO2超表面与多模块深度神经网络集成在一起,从单眼超表面偏振图像中提取精确的度量深度信息。团队通过模拟实验和物理实验证明了所提出方案的有效性,并希望通过新颖的计算方法来将未来的图形系统与新兴的纳米材料技术连接起来。
从物理环境中准确捕获度量深度信息是一系列应用的基本要求,例如虚拟现实和增强现实。然而,传统的2D摄像头配备了平面光电传感器,如互补金属氧化物半导体(CMOS),在记录过程中不能保留深度信息。所以,深度传感通常依赖于精度较低的飞行时间传感器,或会导致笨重设计的多镜头光学。
超表面是新兴的纳米技术,它从根本上克服了传统折射光学的局限性。采用洁净室平面制造技术,可以从高折射率介质材料薄膜制取超表面。它由二维亚波长光学散射体阵列组成,每个散射体都有精心设计的几何形状,可修改光的局部相位、振幅和偏振状态。所以,二维阵列可以共同将光波的等相波前塑造成任何所需的形状,并赋予波前的任何振幅和偏振剖面。
超紧凑显示器在超光学设计方面取得了令人兴奋的进展,而基于学习的方法进一步实现了具有超表面的高保真2D RGB成像。近来的研究同样显示了利用超表面进行深度传感的潜力。然而,目前的解决方案仅适用于简单、平坦和孤立的目标,而且由于计算复杂性和模糊性,需要依赖于严格的模式匹配。据悉,目前没有现有的方法允许适用于复杂现实世界应用的逐像素度量深度成像。
所以,纽约大学和哥伦比亚大学团队提出了Nano-3D,一种基于超表面,单目和逐像素的神经深度成像解决方案。Nano-3D利用直径为3毫米,厚度为0.0007毫米的超表面来实现高度量深度预测精度。除了其超紧凑的足迹,Nano-3D避免了在多镜头摄像头中常见的由遮挡引起错误。
为了实现这一点,研究人员开发了一个集成的传感计算框架。具体来说,他们设计并制造了一种基于二氧化钛的超表面,并为入射的X和y偏振光波引入了两种不同的相位轮廓,从而在摄像头平面形成的一对图像中编码场景的深度信息。然后,由多模块深度神经网络处理x和y极化对,以解码逐像素的度量空间深度。
硬件和神经网络之间的差距则通过硬件对齐的光波传播模拟器弥合。其中,模拟器生成10,000个偏振深度图像的数据集,以方便模型训练。
团队通过模拟实验和物理实验验证了Nano-3D的有效性。结果表明,与现有的基于学习的深度估计方法和商用深度摄像头相比,该方法具有更好的深度估计精度和鲁棒性。这些观察结果表明,当与物理信息计算模型配对时,超表面技术作为高分辨率、超紧凑的3D成像传感器,并可用于下一代设备,包括虚拟现实/增强现实头显。
当然,研究人员指出,神经网络模型是建立在极化图像对的特征空间之上。然而,缺乏可识别特征的环境会降低提取器的性能,以及深度预测精度。团队设想,多尺度图像表示可以提高我们对低特征区域的深度预测。他们的探索重点是选择最合适的深度范围,亦即超表面PSF对深度变化有明显的响应。这个深度范围同样纳入到神经网络训练过程中。未来,研究人员计划通过扩大支持的深度范围,以增加户外应用的深度传感范围。
另外,整体计算目前需要大约4秒的端到端时间来预测度量深度图。尽管深度解码器𝑓𝑑实现实时性能(3 ms),但PSF移位提取模块𝑓𝑠需要大量的高分辨率特征匹配计算。正如消融研究所示,只有深度解码器的模型的精度降低版本可以实时执行。在未来,团队计划探索加速PSF移位提取,以实现实时性能和高精度。
总的来说,Nano-3D是一种由TiO2超表面、光波模拟器和神经网络模型实现的单镜头单眼3D成像系统。凭借超紧凑的足迹,Nano3D在模拟和物理深度传感任务中都表现出高精度和鲁棒性。团队相信这项研究将为计算机图形学社区在集成微制造设计元表面、新兴机器学习技术和光学模拟方面的未来合作铺平道路。