CUBE360:基于立方场表示的全新全景深度估计方法,突破自监督学习限制
在任何视图方向进行连续深度估计
(映维网Nweon 2025年03月14日)全景图像提供了全面的场景信息。获取相应的深度图对于实现沉浸式和交互式体验至关重要。然而,由于等矩形投影(ERP)造成的严重失真和全景RGB-D数据集的有限可用性,全景深度估计面临着重大挑战。
受最近神经渲染成功的启发,中国科学技术大学和香港科技大学(广州)团队提出了一种全新的方法CUBE360。它从单个全景图像中学习由多个MPI组成的立方场,并用于在任何视图方向进行连续深度估计。
CUBE360采用立方体映射投影将ERP图像转换为六个面,并为每个面提取MPI,从而减少MPI处理高分辨率数据所需的内存消耗。另外,所述方法避免了处理等矩形投影所固有的不均匀像素分布的计算复杂性。然后,使用基于注意力的混合模块来学习立方面MIP之间的相关性,构建具有不同深度层次颜色和密度信息的立方场表示。
团队同时引入了一种新的采样策略,用于在立方体和平面尺度绘制立方体场的新视图。整个管道使用自监督学习方法中从渲染视图中计算的光度损失进行训练,从而可以通过没有深度注释的360视频进行训练。
在合成数据集和真实数据集上进行的实验表明,与以前的SSL方法相比,CUBE360具有优越的性能。
360度或全景摄像头可以捕获整个场景,并提供沉浸式和交互式体验。由于全方位深度信息可以通过精确映射周围场景的3D几何形状来极大地增强虚拟环境的真实感和交互性,所以从单个360度图像推断深度的能力已经推动了大量的单目360深度估计研究工作。
现有的研究主要是有监督的:它们直接从单个全景图像中获得深度图,并在RGB-D数据集进行训练。最近的研究探索了自监督全景深度估计,通过渲染不同视点的图像和构造光度损失来训练深度估计网络。
目前的自监督模型主要采用基于图像的渲染方法进行新视图合成。由于深度图无法捕获到隐藏在参考视图中而显示在目标视图中的内容,所以深度图呈现的新视图不足,进而影响了光度损失对深度估计网络的监督。
为了克服这一限制,研究人员采用MPI表示生成了令人满意的渲染图,从而支持合理的深度图。为了进一步改善MPI的表示,有研究人员在NeRF中将MPI泛化为连续的3D表示渲染方案。然而,全景图像的独特特性为基于MPI的3D表示提出了挑战。
由于全景图像的高分辨率,生成基于MPI的表示需要大量GPU内存,这使得训练过程具有挑战性,需要网络执行多个推理来生成不同深度级别的MPI。这不仅增加了计算需求,而且显著加剧了GPU内存的使用。
另外,等矩形投影(ERP)带来的显著畸变使全景图像处理变得复杂。具体来说,360度的图像以二维平面表示方式显示,同时保留了全方位的场景细节。ERP是捕获场景完整视图的最常见投影方法,但存在严重失真,特别是在两极。
相比之下,立方体映射投影(CP)将360度的内容分成六个不同的二维图像,分别对应于立方体的面,这不仅减少了失真,而且降低了每个单独图像的分辨率。
利用所述优势,中国科学技术大学和香港科技大学(广州)团队引入了一种新的基于立方MPI的全景表示,称为立方场。
在所提出的管道中,首先将全景图像划分为立方体地图的六个面。基于编码器-解码器的网络将立方体面作为输入,并预测相关的MPI,而它们分别在预定义的深度重构锥形空间的颜色和密度信息。
随后,将六个面独立预测的MPI输入到一系列混合模块中,生成立方场。模块以三种方式混合信息:在不同的面之间,在每个面与整体全景之间,以及沿着相邻面连接的边缘。如图所示,混合过程显著改善了深度估计。
同时,团队提出了一种结合神经渲染技术的双重采样策略,以在立方体和平面尺度上合成来自立方场的新视图,并进一步采用该策略构建光度损失以进行监督。
研究人员在合成和真实世界的数据集评估了所述方法,并表明它在准确性和泛化方面优于最先进的方法。团队证明了所提出的方法可以为各种场景和光照条件下的全景图像生成逼真且一致的深度图。
相关论文:CUBE360: Learning Cubic Field Representation for Monocular 360 Depth Estimation for Virtual Reality
总的来说,团队提出的CUBE360以自监督的方式对单个全景进行360度深度估计。所述方法学习了一个立方场表示来模拟一个整体场景的颜色和密度信息。团队同时介绍了一种新的采样策略,以在立方体场的立方体和平面尺度上进行新的视图合成。另外,团队提出了一种基于注意力的混合模型,集成交叉面特征来生成立方场。
对于合成数据集和真实数据集,所提出的CUBE360在精度和泛化能力方面都优于SOTA方法。另外,演示的实际应用突出了所提方法的实用性。