Meta提出支持空间感知的实时智能体化身

编辑：广东客 | 分类：论文 | 2026年2月25日

加入映维网会员

空间感知的实时智能体化身

（映维网Nweon 2026年02月25日）随着具身智能体在虚拟现实、远程临场和数字人应用中日益重要，它们的动作必须超越仅与语音对齐的手势：智能体应能转向用户，对用户的移动做出响应，并保持自然的注视。当前的方法缺乏这种空间感知能力。所以，Meta Reality Labs团队提出了一种能够实时、完全因果地进行空间感知对话动作生成的方法。

这一解决方案可部署在流式传输的VR头显。给定用户的位置和双人对话音频，它能生成全身动作，使手势与语音对齐，同时根据用户调整智能体的朝向。架构结合了一个基于因果Transformer的变分自编码器，其中穿插了用于流式推理的潜变量令牌，以及一个以用户轨迹和音频为条件的流匹配模型。

为了支持不同的注视偏好，团队引入了一种带有无分类器引导的注视评分机制，将学习与控制解耦：模型从数据中捕获自然的空间对齐方式，而用户可以在推理时调整眼神接触的强度。在Embody 3D数据集，方法以超过300 FPS的速度实现了最先进的运动质量，比非因果基线方法快3倍，同时捕获了自然对话中微妙的时空动态。

具身对话智能体正逐渐成为沉浸式应用的核心。为了确保智能体真正具备临场感，仅有语音是不够的。设想一下，当你围绕一个智能体走动时，它却只是盯着前方；或者当你话说到一半时，智能体却走开了。这种行为会立刻打破临场感的幻觉。人类会自然地转向交谈伙伴，随着他们的移动改变姿势，并调整注视以表示参与。另外，人们对眼神接触程度的舒适度差异很大，受到个人偏好、社交背景和文化规范的影响。

......（全文 1763 字，剩余 1192 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限