Meta提出支持空间感知的实时智能体化身

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

空间感知的实时智能体化身

映维网Nweon 2026年02月25日)随着具身智能体在虚拟现实、远程临场和数字人应用中日益重要,它们的动作必须超越仅与语音对齐的手势:智能体应能转向用户,对用户的移动做出响应,并保持自然的注视。当前的方法缺乏这种空间感知能力。所以,Meta Reality Labs团队提出了一种能够实时、完全因果地进行空间感知对话动作生成的方法。

这一解决方案可部署在流式传输的VR头显。给定用户的位置和双人对话音频,它能生成全身动作,使手势与语音对齐,同时根据用户调整智能体的朝向。架构结合了一个基于因果Transformer的变分自编码器,其中穿插了用于流式推理的潜变量令牌,以及一个以用户轨迹和音频为条件的流匹配模型。

为了支持不同的注视偏好,团队引入了一种带有无分类器引导的注视评分机制,将学习与控制解耦:模型从数据中捕获自然的空间对齐方式,而用户可以在推理时调整眼神接触的强度。在Embody 3D数据集,方法以超过300 FPS的速度实现了最先进的运动质量,比非因果基线方法快3倍,同时捕获了自然对话中微妙的时空动态。

具身对话智能体正逐渐成为沉浸式应用的核心。为了确保智能体真正具备临场感,仅有语音是不够的。设想一下,当你围绕一个智能体走动时,它却只是盯着前方;或者当你话说到一半时,智能体却走开了。这种行为会立刻打破临场感的幻觉。人类会自然地转向交谈伙伴,随着他们的移动改变姿势,并调整注视以表示参与。另外,人们对眼神接触程度的舒适度差异很大,受到个人偏好、社交背景和文化规范的影响。

为了让虚拟智能体能够模仿这种行为并表现得像人类,它们的动作必须既具有空间感知能力又可控:在根据个人偏好调整注视的同时,面向用户。然而,当前的方法孤立地关注对话场景,生成的智能体缺乏情境推理能力。

Meta Reality Labs提出了一种为虚拟智能体生成全身动作的方法,其能同时对对话内容和用户的空间移动做出响应,且全部实时完成。

实现这样的动作需要同时满足四个标准:

  • 首先,必须符合对话情境,手势应与语音自然对齐。

  • 其次,必须具有空间感知能力,智能体应面向用户并对其移动做出反应。

  • 第三,必须是可控的,注视的参与程度应可调,以适应不同的情境和偏好。

  • 第四,必须是实时的,生成过程必须是因果且流式的,不能访问未来信息。

同时满足这四个标准依然是一个开放的挑战:最先进的方法要么忽略空间情境,要么需要非因果地访问未来帧,要么运行速度远低于实时要求。团队提出了第一个填补这一空白的方法。

现有的手势生成方法主要是单人的:它们仅根据音频或文本为单个说话者合成动作,不考虑对话对象的存在。少数存在的双人方法通常假设参与者是静止的、面向正面的。另外,流行的最先进生成模型通常速度太慢,无法实时部署,或者需要非因果地访问未来帧,这排除了流式推理的可能性。不仅只是这样,现有的双人数据集缺乏学习反应行为所需的时空动态。因此,生成的智能体保持静止并僵硬地彼此面对,缺乏真实对话中流畅的时空动态。

Meta提出支持空间感知的实时智能体化身

团队的关键见解是将学习与控制解耦:从数据中学习空间对齐的自然分布,捕获从持续眼神接触到刻意回避的各种注视行为,然后在推理时应用一个轻量级的引导机制,根据用户偏好校准朝向。这种分离使得模型能够生成既自然(来自学习到的分布)又可控(朝向期望的注视强度引导)的动作。

为了实现这一点,他们提出了一个基于两个核心组件的实时因果架构。首先,一个基于因果Transformer的变分自编码器将动作压缩成一个时间步长交错的潜变量序列,其中穿插的潜变量令牌使得流式推理成为可能,同时又不牺牲时间连贯性。其次,一个流匹配模型在这个潜空间中生成动作,其条件为用户轨迹和双方说话者的音频。为了实现精细控制,引入了一种基于无分类器引导的注视引导机制,允许用户在推理时调节眼神接触的强度。支撑组件的是一个完全欧几里得的动作表示,它提高了训练稳定性并实现了精确的末端执行器控制。

研究人员在Embody 3D数据集进行了评估。结果显示,所述方法在实现超过300 FPS运行速度的同时,达到了最先进的运动质量,优于速度慢3倍的非因果基线方法。值得注意的是,其可以在无法访问未来用户位置的情况下,达到了与非因果方法相当的注视对齐水平,这表明反应性空间行为可以通过因果方式学习得到。另外,生成的动作也是可控的,用户可以在推理时调节眼神接触强度以适应其偏好。

相关论文SARAH: Spatially Aware Real-time Agentic Humans

总之,Meta Reality Labs提出了第一个用于空间感知对话动作的实时系统,使虚拟智能体能够参与动态交互。所提出方法结合了用于流式推理的、带有穿插潜变量令牌的因果Transformer变分自编码器,用于稳定训练和精确末端执行器控制的欧几里得表面点表示,以及用于用户可调节眼神接触的无分类器注视引导机制。相关方案在Embody 3D数据集实现了最先进的性能,并成功地部署到了一个实时虚拟化身系统。

本文链接https://news.nweon.com/138344
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR Research Wechat Group/微信群

您可能还喜欢...

资讯