Meta发布第三代”分割一切”模型,支持可提示概念分割

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

处理上百物体的图片仅需30毫秒

映维网Nweon 2025年11月20日Meta日前发布了第三代”分割一切”模型Segment Anything Models(SAM)——SAM 3,并实现了重大突破,首次支持用户通过自然语言描述和图像示例来识别、分割和追踪视频中的任何物体。Meta同时发布了用于3D重建的开源模型SAM 3D。

SAM 3最核心的创新之一是引入了”可提示概念分割”(Promptable Concept Segmentation)能力。用户可以输入自然语言提示词,然后模型就能自动识别并分割图像或视频中所有符合条件的实例,突破了传统模型依赖固定标签集的限制。

Meta发布第三代”分割一切”模型,支持可提示概念分割

Meta Segment Anything Model 3简介

传统图像分割模型面临的最大挑战是,难以将自然语言与图像中的具体视觉元素关联。现有模型通常只能分割”人”等预定义概念,却难以理解”条纹红色雨伞”这类更细致的描述。

SAM 3通过引入可提示概念分割能力解决了这一局限。模型接受短语形式的文本提示和图像示例提示,完全摆脱了固定标签集的束缚。为评估大词汇量检测和分割性能,Meta创建了SA-Co基准数据集,包含21.4万个独特概念、12.4万张图像和1700个视频,概念覆盖范围达到现有基准的50倍以上。

模型同时支持多种提示方式,既包括简单名词短语和图像示例等概念提示,又支持SAM 1和SAM 2引入的点、框、掩码等视觉提示。这大大提升了分割的灵活性和可用性,特别是对于罕见或难以用文字描述的概念。

另外,SAM 3可作为多模态大语言模型的感知工具,处理更复杂的提示,例如”坐着但没有拿礼物盒的人”。当与多模态大语言模型(LLM)配合使用时,SAM 3在ReasonSeg和OmniLabel等需要推理的复杂文本分割基准测试中表现优于此前研究,且无需在任何指代表达分割或推理分割数据上进行训练。

利用AI和人类标注者构建新型数据引擎

获取带有分割掩码和文本标签的高质量标注图像是一项重大挑战,特别是在视频中详尽标注每个物体类别的出现位置既耗时又复杂。构建覆盖大量多样化词汇和多个视觉领域的全面数据集需要大量时间和资源。

Meta通过创建可扩展的数据引擎解决这一问题。其中,引擎将SAM 3、人类标注者和AI模型结合在一起,显著加快了标注速度。对于负提示(图像或视频中不存在的概念),标注速度比纯人工快约5倍,对于正提示即使在具有挑战性的细粒度领域也快36%。这个人机混合系统使团队能够创建包含超过400万个独特概念的大规模多样化训练集。

由包括SAM 3和基于Llama的图像描述系统在内的AI模型组成的流水线会自动挖掘图像和视频,生成描述,将描述解析为文本标签,并创建初始分割掩码。人类和AI标注者随后验证和修正这些提议,形成快速扩展数据集覆盖范围的反馈循环,同时持续提升数据质量。

AI标注者基于经过专门训练的Llama 3.2v模型,在标注任务上达到或超过人类准确度,例如验证掩码质量或检查图像中某概念的所有实例是否已被详尽标记。通过将部分人类标注任务委托给AI标注者,吞吐量相比纯人工标注流水线提高了一倍以上。

模型架构

SAM 3D包含两个新的业界领先模型:用于物体和场景重建的SAM 3D Objects,以及用于人体姿势和形状估计的SAM 3D Body。这两个模型在物理世界场景的3D重建方面树立了新标准。

SAM 3D Objects代表了一种处理视觉定位3D重建和物体姿态估计的新方法,能够从单张自然图像重建详细的3D形状、纹理和物体布局。该模型的创新来自于突破了长期存在的物理世界3D数据障碍。通过构建强大的数据标注引擎,结合为3D设计的新多阶段训练方案,SAM 3D Objects标注了近100万张不同的图像,生成了约314万个模型参与的网格。

在头对头的人类偏好测试中,SAM 3D Objects相对其他领先模型的胜率至少达到5比1。该模型通过扩散捷径和其他工程优化,可在几秒钟内返回质量相当的完整纹理重建,这使得3D近实时应用成为可能,例如作为机器人的3D感知模块。

SAM 3D Body则专注于从单张图像进行准确的3D人体姿势和形状估计,即使在涉及异常姿势、遮挡或多人场景的复杂情况下也能胜任。该模型支持交互式输入,如分割掩码和2D关键点,使用户能够引导和控制模型的预测。

SAM 3D Body利用大规模高质量数据实现了准确稳健的3D人体姿势和形状估计。研究团队从包含数十亿张图像的大型数据集开始,使用来自大规模多样化照片集合的图像、各种多摄像头捕捉系统的高质量视频以及专业构建的合成数据。然后使用可扩展的自动化数据引擎挖掘高价值图像,选择具有异常姿势和罕见捕捉条件的图像。

团队组建了约800万张图像的高质量训练数据集,训练模型对遮挡、罕见姿势和多样化服装具有鲁棒性。SAM 3D Body在多个3D基准测试中的准确性和鲁棒性实现了阶跃式提升,表现超越了以往模型。

SAM 3D目前尚未完全开源,但Meta表示将共享模型检查点和推理代码,并将与一个新的3D重建基准测试一同发布。另外,一个包含各种不同图像和物体的大型数据集将用于训练。

成果

Meta发布第三代”分割一切”模型,支持可提示概念分割

对于推理速度,在一块英伟达H200 GPU,SAM 3模型处理含100多个目标物体的单张图像仅耗时30毫秒,在处理约五个并发目标物体的视频场景中,可维持接近实时的性能。

Meta发布的SA-Co基准测试结果显示,SAM 3在图像(基于 SA-Co Gold 子集)和视频(基于 SA-Co Video)的概念分割性能方面,性能大幅提升。

SAM 3获得的衡量模型识别和定位概念能力cgF1分数相比现有模型提高了一倍。SAM 3 的性能始终优于Gemini 2.5 Pro 等基础模型以及GLEE、OWLv2 和 LLMDet 等强大的专业基线模型。在用户偏好测试中,用户对SAM 3输出结果的偏好度约为最强基线模型OWLv2的三倍。在视觉分割任务(掩模到掩模组、点到掩模)方面同样取得了最先进的结果,达到或超过了SAM 2等先前模型的最佳性能。

Meta指出,尽管取得了显著进展,SAM 3在特定场景下仍存在局限。例如,模型难以以零样本方式泛化到细粒度的领域外概念,特别是需要专业领域知识的特定术语,如医学或科学图像中的”血小板”。应用于视频时,SAM 3以类似SAM 2的方式追踪每个物体,这意味着推理成本随被追踪物体数量线性增长。每个物体单独处理,仅利用共享的每帧嵌入,没有物体间的通信。

更多信息请访问Meta官网

本文链接https://news.nweon.com/136164
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Wechat Group/微信群

您可能还喜欢...

资讯