Meta提出支持空间感知的实时智能体化身
空间感知的实时智能体化身
(映维网Nweon 2026年02月25日)随着具身智能体在虚拟现实、远程临场和数字人应用中日益重要,它们的动作必须超越仅与语音对齐的手势:智能体应能转向用户,对用户的移动做出响应,并保持自然的注视。当前的方法缺乏这种空间感知能力。所以,Meta Reality Labs团队提出了一种能够实时、完全因果地进行空间感知对话动作生成的方法。
这一解决方案可部署在流式传输的VR头显。给定用户的位置和双人对话音频,它能生成全身动作,使手势与语音对齐,同时根据用户调整智能体的朝向。架构结合了一个基于因果Transformer的变分自编码器,其中穿插了用于流式推理的潜变量令牌,以及一个以用户轨迹和音频为条件的流匹配模型。
为了支持不同的注视偏好,团队引入了一种带有无分类器引导的注视评分机制,将学习与控制解耦:模型从数据中捕获自然的空间对齐方式,而用户可以在推理时调整眼神接触的强度。在Embody 3D数据集,方法以超过300 FPS的速度实现了最先进的运动质量,比非因果基线方法快3倍,同时捕获了自然对话中微妙的时空动态。
......(全文 1768 字,剩余 1360 字)


