英伟达分享AI技术MaskedMimic,专用于AR/VR等生成虚拟角色动作
能够根据少量的信息来自动生成符合物理规律且适应动态复杂场景的完整角色动作
(映维网Nweon 2024年12月05日)由英伟达开发的AI技术MaskedMimic专门用于生成虚拟角色的动作。这一技术主要利用所谓的“掩码动作补全”(Masked Motion Inpainting),能够根据少量的信息来自动生成符合物理规律且适应动态复杂场景的完整角色动作。
换句话说,你可以只提供部分关节的位置,或者用一段文字描述需要的动作,然后系统就会自动推导出完整的、符合物理规律且适应动态复杂场景的角色行为。
MaskedMimic在多个领域具有广泛的应用潜力。以AR/VR为例,MaskedMimic只需头手传感器的数据即可生成全身运动。这意味诸如当前已提供头手追踪数据的头显都能帮助生成全身虚拟角色,无需额外的硬件。
在日前一篇博文中,英伟达专门发文介绍了MaskedMimic:
在计算机动画和机器人技术中,创造能够自然移动并对各种控制输入做出智能反应的交互式虚拟角色迄今都是最具挑战性的问题之一。尽管高性能并行模拟器(如NVIDIA Isaac Sim)在训练交互式类人机器人方面取得了重大进展,但目前的方法依然面临着根本性的限制。换句话说,它们需要专门的控制器来完成不同的任务。
Adversarial Motion prior和Human2Humanoid是模拟机器人和真实机器人的重大飞跃。然而,它们有一个共同的陷阱:任何改变人形机器人的控制方式都需要重新训练一个全新的专门控制器。
下文将介绍MaskedMimic:这个框架通过“掩码动作补全”(Masked Motion Inpainting)统一了角色的物理控制方法。
克服特定任务控制
传统的类人控制方法受到特定任务性质的限制。专门用于路径追踪的控制器不能处理需要头部和手部坐标追踪的远程操作任务。同样地,一个用于追踪全身运动的控制器无法适应需要追踪一个子集关键点的场景。
这种专业化带来了重大挑战,包括:
-
修改控制方案需要设计具有特定reward和observation的新训练环境,并从头开始训练新的控制器。
-
在控制模式之间切换变得不切实际。
-
开发和部署周期的工作冗长且资源密集。
动作补全提供了一个统一的解决方案
生成式人工智能的最新进展表明,在多个领域(如文本、图像甚至动画)中使用inpainting取得了显著的成功。所述方法有一个共同而强大的概念,即通过训练来从非完整或部分视图中重建完整数据。MaskedMimic将这种强大的模式应用到全身人形控制任务之中。
MaskedMimic接受各种类型的局部运动描述:
-
掩码关键帧:在特定时间框架内选定身体部位的位置数据(例如带有头/手位置的VR远程操作数据)。
-
场景交互:自然对象交互规范(例如“坐在这张椅子之上”)。
-
文本描述:自然语言动作描述(例如“用右手挥手”)。
-
混合输入:上述输入的组合(例如带有风格文本约束的路径)。
MaskedMimic的工作原理
训练MaskedMimic是在一个利用了大型人体运动数据集,它们的文本描述和场景信息的两阶段管道中实现。
相关据展示了人类是如何运动,但它缺乏模拟机器人所需的动作致动来重现运动。
管道的第一阶段包括训练一个强化学习代理完成全身运动追踪的任务。这个模型观察机器人的本体感觉,周围的地形,以及它在不久将来应该做什么运动。然后,它预测重建演示运动所需的动作致动。这可以看作是一个适应周围地形的逆模型。
训练的第二阶段是在线teacher-student蒸馏过程。第一阶段的模型用作expert,不再进行训练。
在训练过程中,类人从随机运动初始化为随机帧。当expert观察到未修改的未来演示时,向student提供一个随机掩码的版本。
掩码可能非常密集,从而为student模型提供所有信息——每一帧中的每个节点、文本和场景信息。它同时可以是非常稀疏的,例如只有文本,或者几秒钟内的头部位置。
student(MaskedMimic)的目标是动作补全。只提供部分(掩码)的动作描述,MaskedMimic的任务是成功预测expert的行动,这反过来又会重现原始的无掩码动作演示。
运动重建
视角控制和运动生成为补全问题打开了广泛的功能范围。例如,MaskedMimic可以在模拟的虚拟世界中重建用户的演示。
当从camera推断时,运动可以包括所有的身体关键点。
另一方面,VR系统通常只包含追踪传感器的一个子集。例如,Meta Quest和Apple Vision Pro等常用系统只同时提供头部和手部坐标。
我们测量了VR追踪的成功率和跟踪误差。经验结果表明,与专门为任务优化的专用控制器相比,性能有了很大的提高。无需任何特定任务的训练或微调,统一的MaskedMimic控制器优于先前的专门方法:
方法 | 成功率 | 平均追踪误差(mm) |
MaskedMimic | 98.1% | 58.1 |
PULSE | 93.4% | 88.6 |
ASE | 37.6% | 120.5 |
CALM | 10.1% | 122.4 |
交互式控制
同样的控制方案可以重复使用以从用户输入生成新的动作。单一统一的MaskedMimic策略能够支持广泛的任务,而以前的研究则是通过训练多个不同的专业控制器来解决这个问题。
通过指定根的未来位置和方向,MaskedMimic可以通过操纵杆控制器进行操纵。
类似地,根据头部位置和高度,指示MaskedMimic遵循特定路径。
另一个重要的功能是场景交互,相关设置就像指示它“自然地与所述对象交互”。
MaskedMimic统一系统的优势
MaskedMimic提供了两个显著的优势:
-
卓越的性能:MaskedMimic在一系列控制输入中优于特定于任务的控制器。
-
Zero-shot泛化:这类似于生成文本和图像模型如何学习结合知识。例如,尽管它只接受过在平坦和不受干扰环境中进行对象交互的训练,但它学会了与放置在不规则表面上的前所未见对象进行交互。
总结与未来
MaskedMimic代表了多功能人形控制的重大进步,通过动作补全统一了不同的控制方式,同时保持物理真实性。这项研究可以扩展到多个令人兴奋的方向,如下所述:
-
机器人应用:将这项研究扩展到真实机器人十分自然。对模拟机器人(如Unitree H1)进行训练,可以在真实机器人系统中实现更直观的控制。
-
增强的交互能力:下一个重要的里程碑可能是更复杂和动态的环境,比如物体操作和跑酷。
-
技术改进:最后,这项研究的重点是动画。优化推理速度可以实现实时游戏和机器人系统的部署。另外,提高从故障中恢复的能力将使部署在更加多样化和不可预测环境中成为可能。
相关论文:MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting
毫无疑问,MaskedMimic在XR领域同样有着重要的应用。利用这种动作补全能力,只需头显原本就搭载的头手追踪传感器信息就能生成逼真的全身运动。