论文分享:高通如何提升Spaces平台的深度感知和3D重建能力
提升深度感知和3D重建
(映维网Nweon 2023年10月16日)空间网格功能丰富了用户与3D环境交互的方式,并提供了更好的增强现实体验。例如,空间网格允许用户将虚拟棋盘游戏放在桌面之上,以及驱动Avatar在环境中导航。在使用空间网格时,出色用户体验的重要因素之一是准确有效的3D重建。在这篇文章中,高通简要介绍了在提升深度感知和3D重建方面的两份论文贡献。
由深度引导的神经三维场景重建
在没有深度传感器的情况下,现有的体三维神经场景重建方法在将2D特征反投影到3D空间时存在深度模糊问题。在这项论文中,高通建议利用从有效单目深度估计中获得的深度先验来指导特征反投影过程。图1说明了深度引导如何在重建中减少错误特征并改善目标分离。
对于基于体三维的场景重建方法,另一个常见缺陷是在多视图特征融合中使用平均值。平均操作丢弃了交叉视图一致性信息,这对于区分表面上和表面上的体素至关重要。高通提出了两种可选择的融合机制:基于方差(var)的融合和基于交叉注意(c-att)的融合。不可学习的方差算子与平均算子一样有效,并且提供了更好的重建。可学习的交叉注意模块进一步改进了重建几何,同时比现有的基于自注意的融合模块效率更高。
图2将团队提出的DG-Recon的两种变体与SOTA 3D重建方法在重建F-score和每秒帧数方面进行了比较。团队的方法在在线方法中实现了最佳的性能效率权衡,达到了接近SOTA离线方法VoRTX的F-score。
与NeuralRecon基线相比,团队所提出的DG-Recon模型在保持实时性的同时显著提高了重建质量和完整性。这一方法在ScanNet数据集上实现了最先进的在线重建结果,与目前最好的离线方法相当。另外,scannet训练模型可以稳健地泛化到具有挑战性的7- scene数据集和SUN3D的子集。
改进的反射表面自监督深度估计
对于获得可靠的监督训练,需要大量的逐像素ground truth值是一项艰巨的任务,而且这依赖于专门的硬件,例如激光雷达,从而限制了数据的大小和多样性。因此,自监督训练方案得到了广泛的关注,产生了主要依靠光度图像重建损失的自监督方法。
然而,优化目标(光度图像重建)与实际测试时间使用(密集深度预测)之间的差异有时会导致满足训练目标的退化解,从实际使用的角度来看并不理想。
在这种情况下,一个这样的例子是自监督深度模型在镜面/反射表面的行为:观察到模型预测的深度值比镜面反射的实际表面距离大得多。图4描述了发生这种情况的原因。
自监督单眼深度估计(SSMDE)旨在预测单眼图像的密集深度图,通过学习在训练过程中使用空间相邻图像对最小化光度损失。尽管SSMDE提供了比监督方法更大的可扩展性优势,但它在反射表面上的性能很差,因为它违反了光度损失的光度常数假设。
团队注意到,反射表面的外观与视图相关,并且在训练数据中通常存在未被强镜面反射污染的此类表面视图。因此,通过聚合这些视图的预测深度,可以精确地重建反射表面。
基于这一观察结果,团队提出了一种新的训练框架3D distillation,利用重建反射表面的投影深度来生成相当准确的深度伪标签。为了自动识别这些表面,研究人员采用了一种不确定性引导的深度融合方法,将反射表面上更平滑和更准确的投影深度与其他地方详细的预测深度相结合。
在使用ScanNet和7-Scenes数据集的实验中,3D distillation不仅显著提高了预测精度(特别是在有问题的表面上),而且它可以很好地泛化到各种底层网络架构和新数据集。
相关论文:3D Distillation: Improving Self-Supervised Monocular Depth Estimation on Reflective Surfaces
高通表示,上述贡献只是欧洲XR实验室进行的众多前沿研究项目中的两个例子。团队的目标是不断突破骁龙Spaces XR开发者平台提供的感知功能质量的极限,并为XR技术最终用户和开发人员提供更好的体验。