研究员用AI模型简化XR内容生成,让角色在3D环境中实现逼真动作
查看引用/信息源请点击:techxplore
自动生成
(映维网Nweon 2024年11月07日)人工智能系统在合成人类、动物和物体的图像和视频方面变得越来越好。人类角色参与特定活动的视频自动生成可能有各种有价值的应用,例如简化电影、VR和游戏的创作。
北京大学、北京通用人工智能研究院和北京邮电大学的研究人员开发了一种新的计算框架,可以为人类角色在3D环境中导航产生逼真的动作。
所提出的框架依赖于一个自回归扩散模型来合成连续的角色运动片段,以及一个调度程序来预测向下一组运动的过渡。
研究人员表示:“这项研究的灵感来自于观察人类与日常环境互动的轻松直观方式。无论是伸手去拿桌上的咖啡杯,还是在家具周围导航,我们的动作都是无缝的,不涉及有意识的计划。”
一系列用于生成人体运动的AI模型已证明可为虚拟人形角色生成可信的对象交互运动。然而,相关模型通常需要复杂的和用户定义的输入,比如预定义的路径点和阶段转换。
研究人员指出:“这种对用户自定义输入的依赖不仅复杂化了用户体验,而且阻碍了运动生成的自动化和流畅性。认识到所述限制,我们的主要目标是开发一个全面的框架,并简化这一过程。我们希望创建一个能够自动生成自然的、多阶段的、场景感知的人类运动的系统,只需要简单的文本指令和指定的目标位置即可。”
研究人员着手提高模型生成运动的一致性和真实感,同时最大限度地减少对复杂用户输入的需求。为了实现这一目标,他们编译了LINGO数据集。这是一个新的语言注释动捕数据集,可用于训练机器学习模型。
他们指出:“我们的框架旨在将简单的文本指令和目标位置转换为3D环境中逼真的多阶段人体运动。究其核心,系统集成了几个创新组件,它们和谐地工作以实现这一转变。”
框架的第一个组成是自动回归扩散模型,它可以生成连续的人体运动片段。这个过程反映了人类实时调整动作的过程,从而实现了从一个动作到下一个动作的平稳过渡。
研究人员指出:“基于我们早期的TRUMANS研究(利用体素网格进行场景表示),我们现在已经发展到双体素场景编码器。通过捕获当前的直接环境,并根据目标位置预测未来的空间,这种增强功能为系统提供了对环境的全面理解。”
所述框架的双重方法最终允许角色顺利导航3D环境,与物体交互并避开附近的障碍物。值得注意的是,框架同时包括一个嵌入框架的文本组件。
他们表示:“这个编码器将文本指令与时间信息集成在一起,这意味着它不仅知道要执行什么动作,而且知道何时执行。这种整合确保了生成的动作与文本中描述的预期动作精确地对齐,就像人类自然地按照完美的时间安排行动一样。”
从本质上讲,目标编码器处理角色的目标位置及其在途中完成的子目标,并将其划分为不同的交互阶段。这个步骤引导角色的动作以实现预期的目标。
团队进一步补充道:“与之互补的是我们的自动调度程序,它的功能是‘指挥者’。它可以智能地确定不同动作阶段之间的最佳过渡点,例如从步行到伸手或交互。这确保了整个运动序列无缝和自然流动,没有突然或不自然的过渡。”
这个新开发的框架与其他角色运动生成模型相比具有多个优点。最值得注意的是,它简化了用户需要提供给动作以生成连贯动作的信息,将其限制为基本的文本指令和角色应该到达的目标位置。
研究人员解释道:“通过整合场景感知和时间语义,我们系统产生的动作在语境上是合适的,在视觉上是令人信服的。另外,统一的管道熟练地处理复杂的动作序列,在多样化和混乱的环境中保持连续性并最大限度地减少意外碰撞。”
在初步测试中,框架表现得非常好,在有限的用户输入下产生了高质量和连贯的角色运动。生成的动作与用户提供的文本指令和虚拟角色正在导航的环境上下文保持一致。
他们说道:“这种校准通过各种指标进行了定量验证,与TRUMANS等现有方法相比,我们的方法显示出更高的精度,并显著减少了场景穿透的实例。所述进步强调了我们的框架在产生运动方面的有效性,不仅在视觉上令人信服,而且在背景和空间上都是准确的。”
这项最新研究的另一个重要贡献是引入了LINGO数据集。所述数据集包含超过16小时的动作序列,跨越120个独特的室内场景,并展示了40种不同类型的角色-场景交互。
团队指出:“LINGO数据集为训练和评估运动综合模型提供了坚实的基础,弥合了自然语言和运动数据之间的差距。通过提供详细的语言描述和运动数据,LINGO有助于更深入地了解人类语言,运动和环境相互作用之间的相互作用,从而支持和激励这一领域的未来研究。”
与之前引入的模型创建的角色动作相比,团队框架生成的动作更流畅、更自然。这在很大程度上是由于运动合成组件。
他们解释道说:“通过将运动、手触和人与物交互无缝地整合到一个管道中,我们的模型在运动序列中实现了一定程度的连贯性和流动性。这种整合不仅简化了动作生成过程,而且增强了虚拟角色在其环境中互动的整体真实感和可信度。”
团队指出,这个新框架存在各种各样的应用。首先,它可以简化并支持使用VR和AR技术生成沉浸式内容:“在AR/VR领域,我们的框架可以显著增强虚拟角色的真实感和沉浸感,从而改善用户体验。游戏和动画行业同样会从我们的系统中受益匪浅,因为它可以自动生成各种逼真的角色动画,减少所需的手工工作,增加游戏内动作的多样性。”
研究人员的框架同时可以用来创建个性化的演示视频,指导用户如何完成运动和康复治疗练习。视频模拟了用户需要执行的动作,允许他们在没有人类教练在场的情况下独立完成练习。
研究人员表示:“在机器人和人机交互中,使机器人能够在共享环境中执行类似人类的动作并无缝交互,可以极大地提高协作任务和效率。另外,我们的框架可以用于辅助生活和训练模拟,为各种专业领域的应急响应培训或技能发展等培训目的开发逼真的模拟。”
在未来,团队介绍的框架和数据集可以为基于人工智能的运动生成模型的进一步发展做出贡献。同时,研究人员正在努力进一步改进他们的方法,例如提高产生运动的物理准确性。
他们表示:“尽管我们目前的模型在产生视觉逼真的运动方面表现出色,但我们的目标是融入更细微的物理特性,如重力、摩擦和平衡。这种改进将确保动作不仅在外观上可信,而且在物理上同样可信,从而提高它们在现实场景中的可靠性和适用性。”
在接下来的研究中,这支团队将尝试提高模型产生的运动的粒度。目前,他们的模型专注于人物的身体动作,但最终他们希望它能捕获到更精细的细节,比如手势和面部表情。
研究人员说道:“通过整合相关元素,我们希望在虚拟角色中实现更高水平的真实感和表现力,使他们的交互更像人类,更吸引人。”
团队希望改进模型的另一个方面是在更大范围的角色-场景交互中进行泛化的能力。另外,他们希望模型能够实时合成运动:“对动态输入做出即时反应的能力,对于实时VR体验和响应式游戏环境等交互式应用尤其有益。实现实时功能将大大拓宽我们框架的实际可用性,使其更能适应现实世界的交互需求。”
在接下来的研究中,研究人员计划将多模态输入整合到框架中。这将允许用户以更吸引人的方式与虚拟角色互动:“通过结合额外的输入方式,如语音和手势,我们的目标是为运动合成创造一个更全面、更直观的界面。这种多模态方法将允许用户以更自然和无缝的方式与虚拟角色互动,从而增强整体用户体验。”
相关论文:Autonomous Character-Scene Interaction Synthesis from Text Instruction
团队的最终目标是确保他们的模型既可扩展又节能,特别是当它产生的交互复杂性增加时。这可以促进其实际部署,确保其性能和效率良好,即使在处理计算要求很高的任务时也是如此。
他们总结道:“我们渴望突破自动人体运动合成的界限,使其在各种行业和应用中越来越有效和通用。我们对我们研究的未来潜力感到兴奋,并期待着为这个充满活力的领域做出进一步的贡献。”