密歇根大学团队提出SAM引导的3D语义分割跨域自适应方法
所提出方法显著增加了高质量伪标签的数量,并且比基线方法提高了自适应性能
(映维网Nweon 2025年05月29日)多模态3D语义分割对于虚拟现实等应用至关重要。为了在现实场景中有效地部署模型,必须采用跨领域适应技术,以弥合训练数据和现实数据之间的差距。近年来,基于伪标签的自训练方法已成为多模态三维语义分割中跨域自适应的主要方法。然而,生成可靠的伪标签需要严格的约束,这通常会导致修剪后的伪标签稀疏,而这种稀疏性可能会在适应过程中阻碍性能改进。
在一项研究中,密歇根大学团队提出了一种图像引导的伪标签增强方法。利用来自Segment Anything Model(SAM)的互补2D先验知识引入更可靠的伪标签,从而提高域自适应性能。
具体来说,给定一个3D点云和配对图像数据中的SAM掩码,收集每个SAM掩码覆盖的所有可能属于同一对象的3D点。然后,分两步对每个SAM掩码中的伪标签进行细化。首先,使用多数投票确定每个掩码的类标签,并使用各种约束来过滤掉不可靠的掩码标签。
接下来,引入几何感知渐进传播GAPP,将掩码标签传播到SAM掩码内的所有3D点,同时避免了2D-3D不对齐造成的异常值。
跨多个数据集和领域自适应场景的实验表明,所提出方法显著增加了高质量伪标签的数量,并且比基线方法提高了自适应性能。
近年来,3D语义分割已成为3D场景理解中的关键任务,对于增强现实/虚拟现实等应用至关重要。在全新多模态数据集的推动下,图像数据集成越来越多地用于提高3D语义分割的准确性,因为它提供了丰富的纹理和颜色细节等互补的2D信息,补充了3D点云的几何信息。
然而,与其他感知任务类似,3D语义分割在训练和真实测试环境之间可能会受到域转移的影响,所以需要使用域适应技术。
域自适应旨在弥补这一领域的差距,并已成为2D和3D语义分割的重要研究领域。近年来,所述方法已扩展到多模态3D语义分割,并在多种自适应设置下取得了令人印象深刻的效果。
在现有的方法中,使用伪标签的自我训练已证明是一个关键组成,而业界已经提出了多种伪标签生成方法,如阈值化或模态协议。然而,生成的伪标签往往是稀疏的,并且由于其对目标数据的覆盖不足,往往限制了整体的自适应性能。
最近,Segment Anything Model(SAM)引起了人们的极大关注。SAM训练了超过10亿个掩码,通过生成具有适当提示的类别无关的分割掩码,展示了非凡的zero shot分割能力。这种能力已证明对AR/VR等各种应用有价值。
尽管SAM本身不是为3D点云设计,但在最近的研究中,它的多功能性已经扩展到多模态设置。受最近利用SAM的zero shot分割能力的进展的启发,密歇根大学团队提出在多模态设置中使用这种2D先验知识来增强稀疏的3D伪标签,从而提高域自适应性能。
给定3D点云,由配对的2D图像数据生成的SAM掩码可以利用3D点与camera平面之间的3D-2D对应关系,有效地对属于同一物体的3D点进行分组。利用分组信息,研究人员设计了一个两步掩码伪标签增强框架,以在每个SAM掩码内生成额外的可靠伪标签。
具体来说,对于每个与多个3D伪标签相关联的SAM掩码,首先通过多数投票确定整个掩码的类标签。为了减轻固有的伪标签噪点的影响,团队引入了对掩码面积和伪标签分布的各种约束,以过滤掉不可靠的掩码标签。
其次,团队的目标是将掩码标签传播到掩码内缺乏伪标签的所有点。为了避免将掩码标签分配给由于2D-3D不对准而错误投影到对象的离群点,团队提出了几何感知渐进传播GAPP,其中掩码标签在每轮中仅传播到3D空间中的附近点,从而消除了与对象缺乏连接的离群点。
团队在多个数据集和无监督域和无源域自适应两种自适应任务对所提出的方法进行了评估。实验结果表明,所提出方法有效地增加了高质量伪标签的数量,显著提高了自适应性能。
相关论文:SAM-guided Pseudo Label Enhancement for Multi-modal 3D Semantic Segmentation
总的来说,团队提出了一种基于二维SAM掩码的多模态3D语义分割域自适应伪标签增强方法。相关解决方案使用MLA和GAPP对每个SAM掩码中的伪标签进行细化,确保对伪标签噪点和2D-3D不对准问题的鲁棒性。在多个领域自适应任务和场景下进行的实验表明,算法成功生成了密度更大的伪标签,伪标签精度相似或更高。增强的伪标签显著提高了自适应性能。