加州大学与高通团队提出数字人开放词汇4D人体解析方法
将推理速度提升到子哦gap93.3%
(映维网Nweon 2025年12月26日)在虚拟现实、增强现实以及元宇宙概念日益成熟的今天,对动态3D人体进行精细、实时的语义理解,已成为实现沉浸式交互的核心技术之一。无论是虚拟试衣、个性化数字人驱动,还是AI教练的动作分析,都需要计算机不仅能看清人的轮廓,更能理解其每一部分的身体、衣物甚至手持物品是什么。然而,现有技术大多如同一个只会背诵固定答案的学生,只能在预设的几种衣物类别(如“上衣”、“裤子”)中进行识别,且处理动态视频时速度缓慢,严重制约了实际应用。
面对这一行业瓶颈,加州大学圣迭戈分校与高通团队提出了OpenHuman4D,并首次实现了对动态3D人体(4D数据)的“开放词汇”解析,意味着用户可以用任意文本(如“阿迪达斯运动鞋”、“蓝色围巾”、“足球”)来指导模型进行分割,同时将推理速度提升到最高93.3%,为实时应用打开了大门。

在OpenHuman4D之前,这一领域的研究主要面临两大困境:
封闭的词汇表:传统方法如CloSe-Net等,依赖于在固定数据集上训练,只能识别训练时见过的有限类别。一旦出现新颖的服装款式或随身物品,系统便会无能为力。
高昂的计算成本:唯一的4D解决方案4D-DRESS,虽然能处理动态序列,但其 pipeline 需要对每一帧图像都调用庞大的分割模型(如SAM)和光流模型,处理一段300帧的视频需耗时数小时,完全无法满足交互式应用的需求。
OpenHuman4D的核心理念在于“高效跟踪”与“智能融合”。它不再对每一帧“从头开始”分析,而是像一位智慧的观察者,通过跟踪、验证和融合,建立起一个连贯的4D理解。
1. 掩码传播:从“逐帧分割”到“种子生长”的进化
研究团队采用了Meta最新发布的SAM 2模型作为其“时空追踪器”。整个过程非常巧妙:
初始化:仅在第一帧的第一视角下,使用SAM模型生成一系列初始的、无类别的掩码(即物体轮廓)。
传播:随后,SAM 2扮演了“掩码搬运工”的角色,将这些初始掩码作为种子,根据视频中的运动和信息,将它们自动传播到后续所有帧和所有预设的相机视角中。
效果:这种方法彻底避免了对每一帧都运行一次计算密集的SAM模型,这是实现速度飞跃的最关键一步。
2. 掩码验证:为“新生”与“跟丢”的目标装上安全网
然而,纯粹的跟踪器有其局限:它无法处理初始帧中未出现的新物体,也可能会在复杂运动中跟丢目标。为此,团队设计了一个轻量而高效的掩码验证模块。
模块会计算每一帧中已被所有掩码覆盖的区域和真实人体轮廓之间的“差值”。这个差值区域,可能就是新暴露的皮肤(如抬起手臂后露出的腰部),或是新入镜的物体(如一个突然出现的球)。模块会将这些区域自动分割成独立的连通组件,生成全新的掩码进行补充。这样一来,系统就具备了应对动态变化的鲁棒性。
3. 4D掩码融合:跨越时空的“集体智慧”
在静态模型中,每个视角的掩码信息是独立处理的,这容易导致不同帧或视角下的分割结果不一致,产生“闪烁”现象。OpenHuman4D引入了创新的 “4D掩码融合”模块。
记忆银行:系统为每一个初始掩码(及其传播和验证产生的后代)建立一个“记忆银行”,其中存储了该掩码在所有帧和所有视角下的特征嵌入。
记忆注意力机制:在判断某个掩码的类别时,系统会启动一个注意力机制,让当前帧的掩码特征与记忆银行中所有同源掩码的特征进行“对话”和比较。通过这种机制,系统能自动赋予高质量、一致性高的掩码特征更高权重,而削弱那些因跟踪错误(如左右手臂混淆)而产生的噪声特征的影响。这相当于利用了整个视频序列的“集体智慧”来做出更可靠的决策。
对数均衡:此外,团队还提出一种“对数均衡”技巧,进一步在分类阶段抑制那些自身置信度就很低的模糊掩码,确保最终结果清晰明确。

研究团队在CTD Dynamic和MPEG-PCC等公开数据集上进行了严谨的评估。如表1所示,OpenHuman4D在整体准确率(OA)、平均类别准确率(mAcc)和平均交并比(mIoU)三大核心指标上,全面超越了所有先进的3D和4D对比方法,证明了其分割质量的优越性。
至于开放词汇能力,在图4的“足球”序列可视化结果中,OpenHuman4D不仅能精准分割出人体的手臂、腿部等部位,还能准确识别出“足球”和“地面”。而对比方法4D-DRESS因其封闭性无法识别球类,OpenHuman3D的结果则在不同帧间存在严重不一致。

另外如表2所示,处理一段300帧的视频,4D-DRESS需要超过4小时,而OpenHuman4D仅需17分18秒,速度提升达93.3%。更重要的是,当用户对同一段视频输入不同的文本提示进行多次查询时,OpenHuman4D的平均响应时间仅需11.75秒,已接近实时水平,这对于VR/XR应用具有里程碑式的意义。
研究同时展示了所述方法在最新的“动态3D高斯”表征上的成功应用,并能同时处理场景中的多个人体,展现了其强大的扩展潜力。
OpenHuman4D的成功研发,标志着动态人体解析技术从封闭、低速迈向了开放、高效的新阶段。它不仅为学术界提供了一个强大的新基线,更在工业界展现出广阔的应用前景:从能够理解任意服饰搭配的虚拟试衣间,到能分析运动员每一块肌肉和装备的智能教练系统,再到能够与环境中物体进行自然交互的下一代数字人。


