英国团队推出适用于XR应用的单目深度学习框架NimbleD
对于需要低延迟推理的虚拟现实和增强现实应用特别有益
(映维网Nweon 2025年02月11日)在一项研究中,英国雷丁大学团队介绍了一个有效的自监督单目深度估计学习框架NimbleD。它结合了由大视觉模型生成的伪标签的监督,不需要camera内参,可在公开可用的视频进行大规模的预训练。
团队指出:“这个简单而有效的学习策略显著提高了快速和轻量级模型的性能,不会引入任何开销,使得它们能够达到与最先进的自监督单目深度估计模型相当的性能。这一进步对于需要低延迟推理的虚拟现实和增强现实应用特别有益。”
单目深度估计(MDE)是从单个图像输入预测对象相对于camera的距离。低延迟深度估计对于XR应用至关重要,因为它可以确保实时,准确的空间感知以及与虚拟现实和现实世界对象的沉浸式交互,增强用户体验和舒适度。
Vision Transformer、大视觉模型和生成式模型的最新进展显著推进了MDE。通常用于MDE的两种主要训练范式是监督学习和自监督学习(SSL)。监督式MDE依赖于从激光雷达或RGB-D摄像头获得的ground truth深度标签,而SSL MDE则利用单眼视频或立体设置的几何约束。
一方面,仅在单目视频上训练的SSL MDE模型代表了最容易获得的方法,因为它们只需要单目视频进行训练,不需要立体设置和ground truth深度,潜在地允许在大规模未标记数据进行训练。
另一方面,最近使用大规模训练或生成式方法的监督模型显示出优越的zero shot深度估计能力。然而,相关模型的推理速度通常相对较慢,这限制了它们在对低延迟至关重要的XR应序中的使用。
在研究中,英国雷丁大学团队通过引入NimbleD来解决相关挑战,NimbleD是一个简单而有效的SSL MDE学习框架,由大型视觉模型和大规模视频预训练生成的伪标签增强。这个框架显著提高了快速和轻量级模型的深度估计质量,不引入任何开销,使得它们能够达到更先进的SSL MDE方法的性能。
团队用KITTI进行了对比评估,NimbleD明显增强了所有基线模型的性能。这一方法重振Monodepth2-R18,而SwiftDepth和LiteMono的性能与FGTO相当。同时,LiteMono-S和SwiftDepth-S提供了最好的速度和精度权衡,与DaCCN b和GasMono相差不远。另外,LiteMono-8M展示了与SQLdepth类似的最先进性能。
通过与基线模型比较,研究人员评估了所述方法在NYUv2和Make3D的zero-shot泛化。结果显示,NimbleD在NYUv2(室内)上显著提高了模型的泛化能力,而在Make3D(室外)则不明显。
总的来说,团队提出的NimbleD是一个高效的MDE学习框架,它使用由大视觉模型生成的伪标签来增强SSL。这种方法使得他们能够利用大规模的视频预训练,提高了快速和轻量级模型的深度估计性能,以匹配最先进的SSL MDE方法,不会引入任何开销,这对于实时XR应用十分有利。尽管有人可能会认为使用大型模型的伪监督并不公平,但研究人员相信大型视觉模型是当前深度学习领域的重要组成,应该得到充分利用。