北卡罗来纳大学团队提出运动感知CLIP优化模型MoCLIP

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

改善了文本到运动的对齐结果

映维网Nweon 2025年09月05日)人体运动生成对于虚拟现实等领域至关重要,这要求模型能够有效地从文本描述中捕获运动动态。现有方法通常依赖于基于对比语言-图像预训练(CLIP)的文本编码器,但模型在文本-图像对上的训练限制了它们理解运动及运动生成固有的时间和运动学结构的能力。

在一项研究中,北卡罗来纳大学夏洛特分校团队提出了 MoCLIP,这是一个经过微调的 CLIP 模型,增加了一个运动编码头。模型通过对比学习和束缚损失在运动序列进行训练。通过显式地融入运动感知的表征,MoCLIP 在保持与现有基于 CLIP 的流程兼容性的同时,增强了运动保真度,并能无缝集成到各种基于 CLIP 的方法中。

实验表明,MoCLIP 在保持竞争力强的 FID(弗雷歇起始距离)的同时,提高了 Top-1、Top-2 和 Top-3 检索准确率,从而改善了文本到运动的对齐结果。相关结果突显了 MoCLIP 的通用性和有效性,将其确立为一个增强运动生成的鲁棒框架。

北卡罗来纳大学团队提出运动感知CLIP优化模型MoCLIP

生成逼真的人体运动是计算机视觉和图形学中的一个具有挑战性的目标,在虚拟现实/增强现实等领域有广泛应用。由于可能的运动具有高度多样性,人体运动生成依然充满挑战。模型必须学习复杂的时空动态,并生成物理上合理、有意义的序列。

另外,收集具有丰富标注的大规模数据集非常困难 ,通常需要先进的框架来实现自动化标注过程 。运捕数据的获取成本高昂,且在语义范围上往往有限。即便是最近将运动与文本标签配对的数据集,都只覆盖了运动流形的一部分,未能捕获自然语言描述的完整丰富性。

业界探索了多种方法来应对人体运动生成问题。条件生成是一个常见主题,即根据某些输入(如动作类别、文本描述、过去的运动序列或姿态)来生成运动。更近期的研究将自然语言作为条件信号,旨在从文本描述生成运动。文本到运动模型在简短、模板化的描述(例如“一个人向前走”)和小数据集上展示了令人鼓舞的结果,但在处理超出训练数据分布范围、更长或更复杂的描述时常常遇到困难。

为了克服数据限制,研究人员使用生成式框架和预训练模型。在图像和音频生成中取得成功的扩散模型已应用于运动生成,产生了流畅多样的运动,并达到了最先进的性能。然而,尽管基于扩散的方法在不断发展,它们依然对计算资源要求很高。

基于 CLIP 的方法利用对比语言-图像预训练(CLIP)的丰富先验知识,通过语义理解来增强运动模型。通过将运动表征与 CLIP 的视觉-语言特征空间对齐,相关方法受益于从 4 亿个图像-文本对中学到的广泛语义覆盖。MotionCLIP开创了这种对齐方式,它训练了一个运动自动编码器,其潜在空间直接对应于 CLIP 的文本和图像嵌入,从而能够在不修改 CLIP 预训练表征的情况下,根据新颖的文本提示合成运动。

尽管它们通过利用 CLIP 的语义结构增强了运动生成,但 CLIP 本身主要是在文本-图像对上进行训练的,并未明确针对捕获时间进程或复杂的运动学细节进行定制。尽管它能有效地建模语言与静态视觉内容之间的关系,但直接将基于 CLIP 的表征应用于运动任务可能无法充分考虑高保真运动生成所需的时间连贯性和自然运动模式。

在研究中,北卡罗来纳大学夏洛特分校团队提出了 MoCLIP。这种新颖的人体运动生成模型通过集成一个在运动序列上通过对比学习训练的专用运动编码器,显式地扩展了标准 CLIP 架构。与保持 CLIP 预训练嵌入的 MotionCLIP 不同,MoCLIP 对 CLIP 的文本编码器进行微调,将其嵌入向量转向面向运动的表征,从而内在地捕获真实运动合成所必需的时间动态和复杂的运动学细节。

另外,MoCLIP 融入了一种蒸馏机制(束缚损失),在将模型明确适应运动领域的同时,保留 CLIP 丰富的语义知识。通过构建一个联合的运动-文本潜在空间,MoCLIP 将运动序列与相应的自然语言描述对齐,使得基于Transformer的运动生成器能够生成语义连贯、高保真的人体运动。

北卡罗来纳大学团队提出运动感知CLIP优化模型MoCLIP

模型保持与现有基于 CLIP 流程的兼容性,允许无缝集成到任何系统中。通过系统地将 CLIP 编码器暴露于运动序列数据,MoCLIP 在文本提示与 3D 运动表征之间改进了对齐,同时不牺牲模型的广泛语言理解能力。在定量上,MoCLIP 取得了优于或与 SOTA 相当的结果;在定性上,它对新输入展现出鲁棒的泛化能力。

MoCLIP 在多个模型中提高了检索准确率。在 MoMask 中,MoCLIP 将 Top-1 R-Precision 从 0.521 提升到 0.533(+1.2%),Top-2 从 0.713 提升到 0.730(+1.7%),Top-3 从 0.807 提升到 0.823(+1.6%)。在 BAMM 中同样观察到类似趋势,Top-1 R-Precision 从 0.522 上升到 0.531(+0.9%),Top-2 从 0.715 上升到 0.724(+0.9%),Top-3 从 0.808 上升到 0.819(+1.1%)。这些改进表明在基于检索的模型中,运动-文本对齐得到了一致的增强。

另外,MoCLIP 在提高运动-文本一致性的同时保持了感知质量。对于 MoMask,FID 从 0.045 略微增加到 0.047(+0.002),而多模态距离从 2.958 减少到 2.868(-0.09)。这表明存在一种权衡:改进对齐的同时伴随着感知差异的轻微增加。在 BAMM 中,FID 从 0.055 增加到 0.064(+0.009),而多模态距离从 2.936 减少到 2.871(-0.065)。

与 MoMask 和 BAMM 不同,BAD 模型未能从 MoCLIP 集成中受益,检索准确率略有下降。尽管FID 分数从 0.065 改善到 0.062(-0.003),但 Top-1 R-Precision 从 0.517 下降到 0.510(-0.7%),Top-2 从 0.713 下降到 0.706(-0.7%),Top-3 从 0.808 下降到 0.801(-0.9%)。另外,多模态距离从 2.901 增加到 2.941(+0.04),表明运动-文本关系较弱。这种性能下降很可能是由于 BAD 的基础架构造成的。

与基于 Token 的生成模型不同,BAD 采用双向自回归扩散,它通过基于排列的破坏技术结合了顺序和双向注意力。尽管这使得 BAD 能够有效捕获长距离运动依赖关系,但同时可能使模型对其嵌入空间的修改更为敏感。MoCLIP 可能引入了 BAD 已学习依赖关系的微妙变化,导致检索准确率变弱。这表明具有双向约束的 BAD 自回归模型可能不如其他模型那样有效地与 MoCLIP 集成。

MoCLIP 在 MoMask 和 BAMM 中提高了检索准确率和运动-文本一致性,使 R-Precision 提高了 1.2–1.7%,多模态距离减少了 2–3%。然而,将其集成到 BAD 中会导致轻微的性能下降,这很可能是由于架构不兼容。相关发现表明 MoCLIP 在基于 Token 的模型中更有效,而双向自回归架构可能需要额外的适配才能充分利用其优势。

研究人员进行了全面的消融研究,以评估 MoCLIP 中各个组件的有效性和重要性。具体来说,他们检查了两种训练类型:一种naïve基线,采用基本的对比学习,没有专门的位置编码或定向注意力机制;另一种高级版本,包含位置编码、对关键身体部位(如手和脚)的定向注意力、束缚损失和余弦相似度对齐。两项研究都旨在量化这些训练变体和特征增强对人体运动生成性能的影响。

为了确定保留 CLIP 语义知识与适应运动特定任务之间的最佳平衡,研究人员深入研究了束缚损失权重 (λ) 的影响。他们为所有三个基线模型选择了多个候选值,具体为 λ ∈ {0, 0.2, 0.4, 0.6, 0.8, 1.0}。在实验中,保持一致的实验设置:每个模型总共训练 50 个 epoch,使用对比学习、余弦对齐和束缚损失的组合。研究人员定期监控弗雷歇起始距离和多模态距离等性能指标,以捕获 λ 变化时性能的细微变化。

他们进一步探讨了我们专门的微调和额外架构增强(位置编码和定向注意力机制)的必要性和有效性。为此,团队开发了一个naïve基线模型,它仅使用基本的对比学习,没有专门的位置编码或对关键身体部位(如手和脚)的增强注意力。为了评估嵌入微调度计划的效果,研究人员尝试在最后 2、5、7 和 10 个 epoch 期间解冻文本嵌入,这使得能够衡量不同微调持续时间的影响。

消融研究中的所有模型都在相同条件下使用 HumanML3D 数据集进行评估。每个模型配置都经过训练,然后测试二十次,以确保报告结果的可靠性和统计显著性。

北卡罗来纳大学团队提出运动感知CLIP优化模型MoCLIP

北卡罗来纳大学团队提出运动感知CLIP优化模型MoCLIP

表 2 和图 3 中展示了消融研究的详细结果,评估了不同微调 epoch 和束缚损失权重 (λ) 对 MoCLIP naïve模型(顶行)的影响。MoMask 在 5 个 epoch 时达到最佳 FID(0.053),在性能和检索准确率(Top-1: 0.538)之间取得平衡,而额外的 epoch 提高了准确率但对 FID 产生负面影响。

BAMM 在 10 个 epoch 时达到其最佳的整体朴素 MoCLIP 性能,呈现最低的 FID(0.079)和同时最高的检索准确率(Top-1: 0.541)。值得注意的是,与高级模型和训练相比,BAD 独特地受益于更长时间的朴素训练,各项指标稳步提升,并在 10 个 epoch 时达到最佳朴素 FID(0.062)。鉴于其相对于高级方法的性能,朴素训练的 BAD 模型被选作最终使用。

相比之下,对于使用束缚方法训练的高级模型(底行),模型选择优先考虑最优 FID 以及指标间的一致性。MoMask 在中等束缚权重 λ = 0.4 时表现出最强的性能,达到最佳整体 FID(0.047),同时具有鲁棒的检索准确率(Top-1: 0.533)以及在 MM-Dist 和多样性指标上的稳定表现。类似地,BAMM 在 λ = 0.4 时达到其最低 FID(0.064)和一致平衡的性能指标,支持将其选作最终部署。然而,BAD 的高级训练方法相比朴素训练并未显示出显著的指标改进,因此选择在 10 个 epoch 时朴素训练的模型用于最终实现。

相关论文MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation

https://arxiv.org/pdf/2505.10810

总的来说,团队介绍了 MoCLIP。这是一种易于实现的微调策略,只需最小调整即可直接替代标准 CLIP 编码器。MoCLIP 通过对比学习、保留语义一致性的束缚损失、以及语义对齐运动-文本嵌入的余弦相似度对齐损失,将 CLIP 的文本嵌入与运动感知表征对齐。

实验证明了语义对齐和检索准确率的一致提升:MoMask 的 Top-1 R-Precision 从 0.521 提高到 0.533(+1.2%),BAMM 从 0.522 提高到 0.531(+0.9%),同时保持了竞争力强的 FID 分数(MoMask:从 0.045 到 0.047;BAMM:从 0.055 到 0.064)。MoCLIP 以较低的实施成本提供了即时的性能提升。

然而,结果表明,某些模型架构可能无法同等受益于这种微调方法。例如,BAD 的 Top-1 R-Precision 略有下降(从 0.517 到 0.510),多模态距离有所增加(从 2.901 到 2.941),这表明某些架构可能需要有针对性的微调方法或架构改进才能充分利用这些嵌入。

在未来的研究中,团队将通过扩展到更多运动生成架构(如扩散模型)和更多数据集(如 KIT-ML)来进一步验证 MoCLIP 的有效性。此外,探索特定于架构的微调策略,并研究针对单个模型的自适应微调技术,可能会在性能和泛化方面带来进一步的改进。

本文链接https://news.nweon.com/132301
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯