上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

单目深度估计

映维网Nweon 2025年08月25日)单目深度估计旨在从单张RGB图像预测深度图,并在一系列的领域中存在重要作用,例如AR。目前已有大量基于卷积神经网络和Transformer的单目深度估计方法,并取得了显著成果。然而,大多数现有方法主要侧重于提高精度,往往忽视了在资源受限设备部署的挑战。

为解决这一问题,当前的轻量级单目深度估计方法主要采用基于CNN的架构以降低计算复杂度。但由于CNN感受野大小固定,模型在优化过程中更容易陷入局部最优。相比之下,基于Transformer的架构利用全局注意力机制捕获更广阔的视野,解决了CNN在建模全局上下文方面的局限,但其二次方的计算成本给轻量化实现带来了巨大挑战。因此,探索更高效的轻量级网络架构以平衡性能和计算开销至关重要。图2(a)和2(b)分别简要展示了CNN和Transformer的计算流程。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

近期,基于Mamba的网络架构在图像分类、检测和分割等多种视觉任务上显著推动了状态空间模的研究。作为一种新兴框架,Mamba在SSM中融入了两项关键改进:首先,Mamba引入了一种输入依赖机制,能够动态调整状态空间模型(SSM)的参数。

其次,它采用了硬件感知设计,能够以序列长度的线性复杂度处理数据,显著提升了在现代硬件系统上的计算效率。如图2(c)所示,机制使用输入依赖矩阵来选择性处理输入,可以根据特征的重要性放大或抑制某些输入特征。处理后的输入被投影到状态空间,用于有效地更新状态令牌。总体而言,Mamba兼具高效和高性能的能力,使其成为推进视觉相关任务的理想选择。

在一项研究中,上海交通大学和电子科技大学团队提出LMDepth,一个用于单目深度估计的基于Mamba的轻量级框架。它能够以较低的计算成本有效地从单张RGB图像重建深度信息。具体而言,研究人员设计了一个改进的金字塔空间池化模块(MPSP),模块结合分类感知策略生成深度分类区间。通过利用这些分类区间,LMDepth能够有效适应各种深度估计场景。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

另外,他们提出将多个深度Mamba块组合为图像解码器,通过线性计算实现深度特征与图像特征的高效融合。通过对概率图和分类区间执行逐元素乘法,LMDepth能够在保持低计算开销的同时预测高质量的深度图。如图1所示,在NYUDv2数据集上,LMDepth和LMDepth-S在轻量级方法中以更少的参数量和更低的GFLOPs实现了更高的δ1指标,展示了其在MDE任务中卓越的效率与性能权衡。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

表I比较了不同轻量级深度估计方法在室内数据集NYUDv2的性能和计算效率。它突显了LMDepth在保持低计算开销的同时,在低分辨率和高分辨率设置下均实现高精度深度重建的能力。

团队总结出几个关键观察结果:

(1) LMDepth模型在所有评估指标(包括δ1、δ2和RMS)上均取得最佳性能。在低分辨率(240 × 320)下,LMDepth达到δ1 = 0.833 和 REL = 0.134;在高分辨率(480 × 640)下,性能进一步提升至δ1 = 0.854 和 REL = 0.123,优于其他方法。

(2) LMDepth在保持低参数量的同时显著降低了FLOPs。对于低分辨率输入,Base模型仅需0.72 GFLOPs,而轻量级的-S模型进一步降至0.59 GFLOPs,精度损失极小。在高分辨率下,Base模型仅需2.77 GFLOPs即可实现优异性能,远低于GuideDepth(5.72 GFLOPs)等方法。整体效率表明,LMDepth在计算复杂度和深度精度之间实现了更优的权衡,这对于在嵌入式系统上实时部署至关重要。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

表II展示了在室外数据集KITTI 各种轻量级深度估计方法的比较,突显了LMDepth方法的性能和计算效率。所提出方案在所有评估指标上均取得最佳结果。在低分辨率(192 × 620)下,LMDepth达到δ1 = 0.908 和 REL = 0.089,优于其他模型。在高分辨率(384 × 1260)下,LMDepth进一步将结果提升至δ1 = 0.926 和 REL = 0.079,在准确性和效率上都明显超越了竞争对手。

在计算效率方面,LMDepth所需的FLOPs显著少于竞争方法。对于低分辨率输入,Base模型仅消耗1.08 GFLOPs,而轻量级-S版本进一步降至0.82 GFLOPs,精度损失极小。在高分辨率下,Base模型仅需4.05 GFLOPs即可实现优异性能,远低于需要16.75 GFLOPs的GuideDepth等方法。这种高精度与低计算开销的结合使LMDepth成为实际部署的理想选择。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

图6展示了来自不同方法在NYUDv2数据集上的室内外场景定性深度估计结果。如图所示,所提出方法始终能提供更准确、视觉上更一致的深度估计,其预测结果在广泛的现实环境中与ground truth高度吻合。特别地,所提出方法在处理具有挑战性的场景(如低纹理区域和复杂室内环境)时表现出色,而FastDepth和TuMDE等方法在这些情况下难以保持准确性。

另外,所提出方法在室外场景中的卓越性能,以及捕获细粒度深度变化的能力,突显了其在不同环境下的鲁棒性。视觉对比表明,所提出方法不仅提高了整体深度精度,还保留了深度图中的精细细节,特别是在具有细微深度过渡的区域,而其他模型未能捕获到这种复杂变化。这有力证明了这一方法在实际深度估计任务中的有效性和泛化能力。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

表III通过在解码器的深度Mamba块中替换为基于Transformer和基于CNN的解码器,评估了所提出的VMamba模块的有效性。结果突显了VMamba在不同数据集上在准确性和计算效率方面的优越性。例如,在NYUDv2数据集上,VMamba以δ1精度0.830和RMS误差0.472取得了最佳性能。

值得注意的是,VMamba的参数数量(2.9M)与基于CNN的解码器相当,其FLOPs(0.73G)仅略高于CNN的0.69G,但显著低于基于Transformer的解码器(需要2.8G FLOPs)。这表明VMamba能够比CNN更有效地捕获全局上下文,同时保持远低于Transformer(因其注意力机制导致二次方复杂度)的计算成本。所述发现验证了VMamba在平衡准确性和效率方面的有效性,使其成为室内外数据集轻量级单目深度估计的稳健选择。

上海交大与电子科大团队提出轻量级单目深度估计算法LMDepth

图7比较了MPSP模块中不同投影特征数量和2层/4层池化下的精度和FLOPs。它揭示出随着投影特征数量增加(蓝线表示),FLOPs也随之增加。而精度(红线表示)最初随复杂度增加而提升,但最终趋于平稳甚至下降。研究人员选择精度最高的模型作为LMDepth,并选择梯度变化最大点对应的模型作为LMDepth-S。

相关论文LMDepth: Lightweight Mamba-based Monocular Depth Estimation for Real-World Deployment

https://arxiv.org/pdf/2505.00980

总的来说,LMDepth是一个构建在基于Mamba框架上的轻量级单目深度估计网络,旨在以低计算开销实现高精度深度估计。LMDepth集成了新颖组件,如改进的金字塔空间池化模块和深度Mamba块,以高效提取全局上下文并融合图像与深度特征。在基准数据集(如NYUDv2, KITTI)上的评估表明,LMDepth的性能优于最先进的轻量级方法,以显著更少的参数量和FLOPs(浮点运算次数)实现了具有竞争力的精度。此外,我们在嵌入式平台上结合INT8量化部署了LMDepth,验证了其在现实边缘应用中的实用价值。其跨数据集的泛化能力进一步证明了其鲁棒性,使其能够适应资源受限的平台。这项工作为轻量级深度估计设立了新标杆,并突显了Mamba在更广泛视觉任务中的潜力。

本文链接https://news.nweon.com/131993
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯