Meta提出支持空间感知的实时智能体化身
空间感知的实时智能体化身
(映维网Nweon 2026年02月25日)随着具身智能体在虚拟现实、远程临场和数字人应用中日益重要,它们的动作必须超越仅与语音对齐的手势:智能体应能转向用户,对用户的移动做出响应,并保持自然的注视。当前的方法缺乏这种空间感知能力。所以,Meta Reality Labs团队提出了一种能够实时、完全因果地进行空间感知对话动作生成的方法。
这一解决方案可部署在流式传输的VR头显。给定用户的位置和双人对话音频,它能生成全身动作,使手势与语音对齐,同时根据用户调整智能体的朝向。架构结合了一个基于因果Transformer的变分自编码器,其中穿插了用于流式推理的潜变量令牌,以及一个以用户轨迹和音频为条件的流匹配模型。
为了支持不同的注视偏好,团队引入了一种带有无分类器引导的注视评分机制,将学习与控制解耦:模型从数据中捕获自然的空间对齐方式,而用户可以在推理时调整眼神接触的强度。在Embody 3D数据集,方法以超过300 FPS的速度实现了最先进的运动质量,比非因果基线方法快3倍,同时捕获了自然对话中微妙的时空动态。
具身对话智能体正逐渐成为沉浸式应用的核心。为了确保智能体真正具备临场感,仅有语音是不够的。设想一下,当你围绕一个智能体走动时,它却只是盯着前方;或者当你话说到一半时,智能体却走开了。这种行为会立刻打破临场感的幻觉。人类会自然地转向交谈伙伴,随着他们的移动改变姿势,并调整注视以表示参与。另外,人们对眼神接触程度的舒适度差异很大,受到个人偏好、社交背景和文化规范的影响。
......(全文 1763 字,剩余 1192 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

