雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

慕尼黑工大提出DCSEG框架:基于3D高斯飞溅实现开放词汇语义分割

查看引用/信息源请点击:映维网Nweon

实现灵活、高效和开放词汇的3D分割

映维网Nweon 2025年05月08日)3D分割是增强现实/虚拟现实等应用的主要兴趣点。在一项研究中,慕尼黑工业大学团队提出了一个解耦的3D分割管道,以确保模块化和可适应性。

研究人员首先用3D高斯函数重建场景,并通过对比监督从2D实例建议网络中学习class-agnostic特征。然后将3D特征聚类形成coarse object-或part-level掩码。最后,将每个3D聚类与2D open-vocabulary分割模型预测的类感知掩码匹配,在不重新训练3D表示的情况下分配语义标签。

所述解耦设计提供了一个即插即用的界面,以用于交换不同的2D或3D模块,并确保多对象实例分割,无需额外成本。同时,它利用丰富的3D几何图形进行强大的场景理解。

对合成和真实室内数据集进行的评估证明了性能优越性,特别是对于具有挑战性或长尾类。相关结果证实了解耦3D掩码提议和语义分类可以实现灵活、高效和开放词汇的3D分割。

理解3D场景的语义和实例级结构是各种下游应用的关键要求,包括增强现实/虚拟现实。神经辐射场NeRF的最新进展令人印象深刻。然而,基于NeRF的方法通常需要体渲染,在计算方面十分昂贵,并且对于特定实时应用而言可能不太灵活。

相比之下,3DGS及其后续技术通过一组3D高斯原语提供了场景的显式表示,可以实现更快的渲染。尽管开发了新的表示,开放词汇的3D语义分割问题依然具有挑战性。与封闭集3D分割方法不同,开放词汇表方法旨在处理广泛或任意类别标签,并通常利用大规模的视觉语言预训练。这在出现意外类或长尾类的环境中特别有用。

在2D中,CLIP、OpenSeg和OVSeg等方法将像素映射到语义丰富的特征空间,并可以通过文本提示进行查询。像LERF这样的技术将开放词汇表特征转换为3D NeRF表示,而OpenScene则把语言嵌入与多视图数据的3D特征融合结合起来。SAGA建立在高斯飞溅的基础之上,并通过对比优化将2D特征提升到3D空间,以实现底层高斯的语义聚类。

对于封闭词汇和开放词汇的3D分割管道而言,一个关键的挑战是如何将丰富的几何图形与可推广的语义先验稳健地结合起来。传统的3D网络需要标记的3D数据,但这既稀缺又昂贵。其他方法则将3D结构与有语言条件的2D嵌入融合在一起,以开放词汇表的方式实现语义查询。然而,它们通常与底层3D表示相耦合,或者依赖于具有稀疏几何形状的点云,从而限制了它们的灵活性。

在研究中,德国慕尼黑工业大学团队提出了一种基于3D高斯飞溅的解耦3D开放词汇分割管道DCSEG。

研究人员的目标是开发一种强大的模块化方法,以类感知的方式执行3D开放集分割。他们尝试通过一种解耦的方法来实现这一点,将底层的3D表示和语义特征提取与任何其他可以提供class-agnostic的3D聚类和类别感知的2D分割的管道交换。

关键的见解是将掩码建议与掩码分类分开。具体来说,首先使用来自2D实例建议模型的对比学习信号来学习每个高斯的紧凑3D特征,然后将特征聚类到3D的instance-level或part-level片段中。接下来,为了实现开放词汇表标签,将3D聚类与来自大规模2D分割主干(如OVSeg或OpenSeg)的类感知掩码匹配。

由于模块化架构,可以很容易地在不同的2D基础分割模型之间交换。团队利用OpenSeg和OVSeg进行了一个小型消融研究。尾类表现的显著差异显而易见。另外,管道可以通过切换底层2D分割模型来适应不同的任务,以适应用户的特定需求。

团队在合成(Replica)和真实世界(ScanNet)数据集评估了所提出方法,而结果显示出具有竞争力的性能。总之,方法通过支持实例甚至部分分割而不需要网络再训练或架构重新设计,从而为不同的分割任务提供了灵活和健壮的解决方案,并实现了比基线明显的优势。

相关论文DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting

总的来说,DCSEG是一个用于开放词汇3D语义分割的解耦管道,它能够同时分割part和实例,无需再训练。他们利用3D高斯飞溅作为底层场景表示。这种方案在计算效率更高的同时显示出改进的结果。

本文链接https://news.nweon.com/129599
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯