Meta开源Nymeria数据集,帮助改进AR/VR人体运动预测
帮助改进AR和VR设备的人体运动预测
(映维网Nweon 2025年01月02日)为了帮助改进AR和VR设备的人体运动预测,Meta正在开源Nymeria数据集。
Nymeria:人类运动数据集
第一次使用虚拟现实或混合现实头显会有一种神奇的体验。有了六自由度,你可以在沉浸式环境中自由移动,而运动追踪控制器或手部追踪允许你与数字对象进行逼真交互和操作。然而,当你的角色与身体动作不匹配时,魔法就会打断。
随着人工智能眼镜和智能手表等可穿戴技术越来越受欢迎,更准确地预测人体运动的新机会已经出现,并有望为最终用户体验带来切实的好处。
通过自中心传感器(如VR和MR设备中的传感器)预测人体位置依然是一项技术挑战。这是因为人类运动十分复杂,身体类型多种多样,而我们目前这一代的设备在完全捕获用户身体的能力方面依然有限。尽管传感器和分析技术的进步有望改善人体预测,但前方有一个重大障碍尚未得到解决:缺乏全面的研究数据集。
这促使Reality Labs Research开发并发布了Nymeria数据集:在自然环境中捕获的300小时多模态自中心日常运动。这向前迈进了一步,加速了自中心人类运动理解的研究。
构建最大的多模态自中心人体运动数据集
与现有的人类运动建模数据集不同,Nymeria数据集使用Project Aria眼镜和miniAria腕带,通过多个多模态自中心设备捕获in-the-wild人类运动。这种多模态传感器的组合近似于未来可穿戴设备(如人工智能眼镜和智能手表)可能使用的信号类型。in-the-wild运动捕获可帮助研究人员建立下一代技术来协助日常人类活动。
代表着日常生活的丰富多样性
每个参与者都要求在不同的室内和室外环境中表演20个场景,如做饭火运动。通过预定义的非脚本场景,研究人员可以了解不同的人是如何执行相同的活动。
用语言丰富身体动作,以加速物理世界的人工智能助手
Nymeria数据集旨在弥合运动和自然语言之间的差距。数据集包括来自人类注释者的人体运动上下文描述。通过使用从粗略到精细的多级叙述丰富数据,研究人员可以根据上下文以不同粒度模拟人类运动,动作和活动,使用Llama等强大的模型探索先进技术,并构建更好的用户友好解决方案。
基于文本的人工智能助手已证明是有价值的,但它们在理解用户上下文并做出适当反应的能力方面依然存在重大差距。Nymeria数据集代表了解决所述挑战的关键一步,因为它为研究人员提供了丰富的数据来源。
赋能研究
作为案例研究,Reality Labs Research使用Nymeria数据集开发了用于自中心运动理解的新型ML模型。自中心身体运动提供了关于佩戴者的丰富背景,这有助于未来个性化的人工智能助手提出与背景相关的建议。当今智能眼镜的摄像头阵列主要捕获用户的视角,而不是以一种容易捕获佩戴者自己身体运动的方式定位。鉴于这一限制,自中心身体运动在许多情况下都是不适定的。
利用Nymeria数据集,Reality Labs Research开发了一种通过眼镜追踪自中心全身运动的方法HMD2。与HMD2类似,Nymeria数据集同时促进了EgoLM 。这个统一的多模态学习框架使用自然语言模拟身体运动和活动,其中来自智能眼镜的原始传感器测量用于驱动多个任务。
团队总结道:“我们相信,Nymeria数据集为构建下一代AR/VR和情境人工智能技术提供了独特的研究机会。通过发布数据集进行研究,我们希望能够激励研究人员开发具有强大伦理基础的人工智能模型,最终释放人工智能系统的全部潜力,并造福整个社会。”
更多信息请访问Nymeria数据集页面。