丹麦技术大学开发Weak Cube R-CNN 仅需2D标注实现3D物体检测

查看引用/信息源请点击:映维网Nweon

弱监督的3D检测

映维网Nweon 2025年07月28日)单目三维目标检测是计算机视觉中的一项重要任务,在虚拟现实和增强现实等领域有着广泛的应用。然而,3D目标检测器通常以完全监督的方式进行训练,广泛依赖于3D标记数据,而这是一种劳动密集型且昂贵的注释。

在一项研究中,丹麦技术大学团队把目光放在弱监督的3D检测,以减少数据需求,并使用单目方法,利用单摄像头系统,而不是昂贵的激光雷达传感器或多摄像头设置。

研究人员提出了一种通用模型Weak Cube R-CNN,它利用三维立方体的二维投影之间的关系,只需要二维方框注释进行训练,就可以在推理时预测三维对象。所提出方法利用预训练的frozen foundation 2D模型来估计训练集的深度和方向信息,并在训练中使用估计值作为pseudo-ground truth。所设计的损失函数通过将外部模型的信息整合到损失中来避免3D标签。

通过这种方式,团队的目标是隐式地从large foundation 2D模型中转移knowledge,而无需访问3D边界框注释。在SUN RGB-D数据集的实验结果表明,与标注时间均衡的Cube R-CNN基线相比,准确度有所提高。尽管对厘米级测量不精确,但所述方法为进一步的研究提供了坚实的基础。

分辨物体的大小、距离和深度是人类和动物的一种非常自然的能力。因此,在三维空间中放置物体是一项容易完成的任务。然而,大多数数码照片都是用单目摄像头拍摄,无法享受到同样的立体效果。尽管如此,图像中依然存在诸多深度和大小线索。3D对象探测器可以很好地拾取许多深度线索。

在物理空间中以精确尺寸定位物体的能力为增强现实等领域提供了新的用例。然而,由于对特殊物理传感器的要求,收集3D注释数据集具有挑战性。例如,为了注释3D数据集SUN-RGBD,需要花费2051小时,而这只是是一个非常小的数据集,只有10,335张图像。这相当于每张图像大约需要12分钟,而2D注释需要65分钟(≈9%)。这还不包括额外的数据收集时间。

另一方面,业内存在丰富的2D注释数据集可以利用。这激发了仅依赖于2D注释的3D检测器的开发。其他研究通过在推理过程中使用额外的传感器来解决这个问题,主要是激光雷达,伪激光雷达和立体摄像头,因为它们提供了3D空间的准确表示。相关系统大多用于简化的驾驶场景,其中视觉线索是稳定的,亦即很容易判断世界的方向,因为有一个大的、无遮挡的地面视图,并且只需要估计围绕一个轴的旋转。

但在更广义的环境中,相关线索并不一定存在。因此,丹麦技术大学团队提出了一种基于CNN的模型,而它在训练过程中只使用2D标注数据来进行3D目标检测。模型预测对象在图像平面上的位置,然后通过使用仅使用2D ground truth的“弱损失”来学习将对象放置在3D中。

这一步的关键部分是使用基础模型来估计深度和地平面。模型的输出用作弱损失的pseudo ground truth值。团队使用更快的R-CNN类型架构来首先预测对象的2D边界框。然后,通过从3D head中使用的骨干特征图中池化来预测3D立方体,将盒子的位置用作3D立方体的候选区域。

除了3D head外,研究人员同时使用了度量深度估计模型的信息来估计深度和地平面,并且优化三维立方体的参数,使二维和三维属性保持一致。图像平面定位采用广义IoU损失。pseudo ground truth深度从图像推断的深度图中采样。另外,对象大小先验通过relaxed loss合并,这确保了特定类中的对象大小大致匹配同一类的平均大小对象。

为了估计旋转,Pose Alignment Loss对场景内部的对象进行操作,并使用对象通常在一个或多个轴对齐的假设。法向量损失确保了与地面的旋转一致性,这提供了一个世界参考框架。实验结果表明,与标注时间均衡的Cube R-CNN基线相比,SUN RGB-D的准确率有所提高。

团队进行烧蚀实验来研究每个损失项对模型的影响。结果表明,与相应的标注时间均衡模型相比,模型表现良好。表1是Weak Cube R-CNN的损失函数。可以观察到,当增加损失时,精度有所提高,最明显的是Ldim,它将AP3D提高了3.1%。Ldim的初始损失很大,然后迅速减小到0。Lpose的影响最小,这在直觉上是有道理的,因为这种损失强制匹配,但不一定是正确的旋转。

值得注意的是,删除Lz不会对性能产生很大的影响。在检查预测时,许多2D比3D看起来要好得多,但IoU依然很低。这主要是由于深度不正确。所以团队得出结论,Lz不能完美地作为真实深度损失的代表,但依然对总体预测有积极影响。表1中的消融与假设相矛盾,即地面为场景提供了一个旋转框架。

为了验证所提出方法,团队进行了更多的实验。如表3所示,结果表明,使用Lnormal的模型在旋转方面更好。这表明Lnormal确实具有预期的效果。因为他们想要专注于确保正确的旋转,所以在最终模型中包含了Lnormal。

与完全监督的Cube R-CNN方法相比,Weak Cube R-CNN的性能约为表2所示的1/3。在对所有类别进行评估时,AP3D从15.1%下降到5.4%。与同等标注时间的比较。Weak Cube R-CNN的目标是减少标注时间。当使用完全注释的3D数据但在SUN RGB-D mini上训练时,团队将所提出方法与Cube R-CNN进行了比较。

表2表明,所提出方法在许多类别中都超过了基准性能,与Cube R-CNN相比,它达到了+5.3%的平均AP。很明显,Cube R-CNN的时间等式受到特定类别的极少数样本的极大阻碍。不出所料,Cube - CNN在所有类别中都优于这两种模型。然而,考虑到注释时间大约多11倍,它并没有达到Weak Cube R-CNN的11倍性能。

当观察图4中的定性结果时,可以看到对于室内场景,简单场景的预测通常更清晰。在有许多物体和遮挡物体的场景中,它通常会显得挣扎。总的来说,深度似乎是相当准确的预测,这可以在最后一排看到。姿态对齐似乎确实提高了整体检测精度,但使更难的情况变得更加困难。像橱柜这样没有扎根于地面的物体几乎都很难被探测到。

与室内数据集相比,KITTI提供的优势是地面更加一致可见,所以预计旋转更容易确定。对于室外场景该模型在正面视图下的预测效果一般都很好,如图5所示。但在俯视图中,可以看到深度经常是错误的。表4显示,Weak Cube R-CNN接近于实现与完全监督方法M3D-RPN相同的精度,但即使是时间均衡的Cube R-CNN都比它高出2倍。KITTI和SUN RGB-D之间的主要区别是深度,这似乎是Weak Cube R-CNN最难解决的问题。

相关论文Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes

https://arxiv.org/pdf/2504.13297

总的来说,Weak Cube R-CNN是一种仅依赖于单视图图像和2D图像注释的3D对象检测新方法。所提出方法克服了3D目标检测最突出的限制,即数据集的注释可用性,通过利用较弱的监督,同时依然获得有竞争力的性能。Weak Cube R-CNN对具有高可见度和简单几何结构的物体具有很强的检测能力。值得注意的是,在SUN-RGBD数据集上,给定相同的标注时间,它比使用3D标注边界框标注训练的完全监督Cube R-CNN模型取得了更好的性能。

本文链接https://news.nweon.com/131298
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
资讯