Meta提出支持空间感知的实时智能体化身

编辑：广东客 | 分类：论文 | 2026年2月25日

空间感知的实时智能体化身

（映维网Nweon 2026年02月25日）随着具身智能体在虚拟现实、远程临场和数字人应用中日益重要，它们的动作必须超越仅与语音对齐的手势：智能体应能转向用户，对用户的移动做出响应，并保持自然的注视。当前的方法缺乏这种空间感知能力。所以，Meta Reality Labs团队提出了一种能够实时、完全因果地进行空间感知对话动作生成的方法。

这一解决方案可部署在流式传输的VR头显。给定用户的位置和双人对话音频，它能生成全身动作，使手势与语音对齐，同时根据用户调整智能体的朝向。架构结合了一个基于因果Transformer的变分自编码器，其中穿插了用于流式推理的潜变量令牌，以及一个以用户轨迹和音频为条件的流匹配模型。

为了支持不同的注视偏好，团队引入了一种带有无分类器引导的注视评分机制，将学习与控制解耦：模型从数据中捕获自然的空间对齐方式，而用户可以在推理时调整眼神接触的强度。在Embody 3D数据集，方法以超过300 FPS的速度实现了最先进的运动质量，比非因果基线方法快3倍，同时捕获了自然对话中微妙的时空动态。

......（全文 1768 字，剩余 1360 字）

wx_mp