台湾交通大学提出新的360°图像深度估计框架,有效利用未标记360°数据
训练最先进深度估计模型的新方法
(映维网Nweon 2024年12月26日)准确估计360度图像的深度对于虚拟现和沉浸式媒体应用至关重要。现有的视角图像深度估计方法由于camera投影和畸变的不同而无法应用于360度图像,而360度图像深度估计方法由于缺乏标记数据对而性能较差。
针对所述问题,台湾交通大学的研究人员提出了一个新的深度估计框架,以有效地利用未标记的360度数据。
所述方法使用最先进的视角深度估计模型作为teacher模型,通过六面立方体投影技术生成伪标签,从而有效地标记360度图像的深度。这种方法利用了不断增加的大型数据集的可用性。
相关解决方案包括两个主要阶段:无效区域的离线掩码生成和在线半监督联合训练机制。团队在Matterport3D和Stanford2D3D等基准数据集测试了方法,并显示出深度估计精度的显著提高,特别是在zero-shot场景。
他们表示,所提出的训练管道可以增强任何360单目深度估计器,并在不同的camera投影和数据类型之间展示有效的knowledge转移。
近年来,计算机视觉领域的研究激增,重点包括解决与处理360度图像相关的挑战。全景图像在虚拟现实和沉浸式媒体等各个领域的广泛使用强调了对专门为360度图像量身定制的精确深度估计技术的需求。
然而,由于camera投影和畸变的差异,现有的透视图像深度估计方法在直接应用于360度数据时遇到了很大的困难。尽管许多方法旨在解决camera投影的深度估计问题,但由于标记数据集的可用性有限,它们经常遇到困难。
为了克服挑战,台湾交通大学提出了一种在360度图像训练最先进深度估计模型的新方法。
随着可用数据量的显著增加,数据数量和质量的重要性已经变得明显。视角感知模型的研究工作越来越多地集中在增加数据量和开发跨各种类型数据的基础模型。
团队的方法利用SOTA透视深度估计基础模型作为teacher模型,并使用六面立方体投影方法为未标记的360度图像生成伪标签。
通过这样做,研究人员通过利用视角模型和大量未标记数据有效地解决了360度图像中标记深度的挑战。所述方法包括两个关键阶段:离线掩码生成和在线联合训练。
在离线阶段,采用检测和分割模型的组合来生成无效区域的掩码,例如未标记数据中的天空和水印。
对于随后的在线阶段,采用半监督学习策略,将批数据的一半加载标记数据,另一半加载伪标记数据。通过标记和伪标记数据的联合训练,所述方法在360度图像实现了鲁棒的深度估计性能。
为了方法的有效性,他们在基准数据集(如Matterport3D和Stanford2D3D)进行了广泛的实验。结果证明了深度估计精度的显著提高,特别是在zero shot场景中。
另外,团队用不同的SOTA 360度深度模型和各种未标记的数据集展示了训练技术的有效性,展示了在解决360度图像带来的独特挑战方面的多功能性和有效性。
总的来说,研究人员提出了一种全新的360度单目深度估计模型训练方法,利用透视深度估计模型作为teacher,并使用六面立方体投影为未标记的360度图像生成伪标签。
训练管道在离线阶段合并使用Segment Anything来掩盖未标记数据中的天空和水印区域。随后,使用标记和未标记的数据进行联合训练,每个批次分配一半的数据。联合训练避免了teacher模式对性能的限制。未标记的数据使用由Depth Anything生成的伪标签进行监督。利用teacher模型的优势,360度深度模型在zero shot数据集展示了可观察到的改进。
团队表示,所提出的方法通过利用透视模型在未标记数据生成伪标签,显著推进了360度单目深度估计。使用具有随机旋转和仿射不变损失的立方体投影则确保了鲁棒性训练和提高深度预测精度,同时弥合了透视和等矩形投影之间的域差距。另外,通过跨域蒸馏有效地解决有限标记数据的挑战,从而为360图像的准确深度估计开辟了新的可能性。
当然,研究存在一定的局限性,因为它严重依赖于未标记数据的质量和来自视角基础模型的伪标签。如果没有data cleaning,训练过程会产生NaN值。另一个限制是,尽管使用了未标记的数据,但与其他任务相比,数据的稀缺性依然存在。