英伟达用Vision Pro训练机器人:模仿学习与GR00T新模式
模仿学习
(映维网Nweon 2025年01月07日)对于机器人,提供精确对应的输入数据进行训练非常重要。所以业界和学界正在积极利用XR的力量来帮助训练机器人。通过利用头显,人型机器人可以1:1地复刻映射人类操作员的动作,而软件可以以实现第一人称视频的实时传输和精确控制输出。实际上,英伟达早就在利用Apple Vision Pro来帮助训练人形机器人。
在日前举行的CES 2025大会中,黄仁勋宣布了GR00T的新模式:基于模仿学习的Blueprint。模仿学习是指机器人模仿复刻人类的动作。所以通过GR00T Blueprint,用户可以使用Apple Vision Pro来为机器人创建一个数字孪生,然后机器人可以在模拟中重复模仿学习。
在一篇博文中,英伟达表示人形机器人市场预计将在接下来的二十年里达到380亿美元。为了满足这一巨大需求,特别是在工业和制造业领域,团队已经发布了一系列机器人基础模型、数据管道和仿真框架,以加速下一代仿人机器人的开发工作。
在CES 2025大会中,英伟达首席执行官黄仁勋宣布,用于合成运动生成的NVIDIA Isaac GR00T Blueprint可帮助开发者生成指数级的合成运动数据,以使用模仿学习来训练人形机器人。
模仿学习是机器人学习的一个子集,它允许人形机器人通过观察和模仿人类专家的示范来获得新技能。在现实世界中收集广泛的高质量数据集过程十分乏味和耗时,而且往往代价高昂。
NVIDIA Isaac GR00T Blueprint则旨在帮助开发者从少量的人类演示中轻松生成指数级规模的合成数据集。
从GR00T-Teleop工作流开始,用户可以使用Apple Vision Pro,并在数字孪生中捕获人类行为。然后,机器人可以在仿真中模仿人类行为,并记录下来作为ground truth。
GR00T-Mimic工作流然后将捕获的人类演示复制到更大的合成运动数据集。最后,GR00T-Gen工作流通过域随机化和3D upscaling指数扩展数据集。
接下来,数据集可以用作机器人策略的输入,并在NVIDIA Isaac Lab中教导机器人如何有效安全地移动并与环境交互。
值得一提的是,英伟达同时在CES大会宣布了Cosmos。这个平台具有一系列开放的、预训练的世界基础模型,并专门用于生成物理感知视频和物理人工智能开发的世界状态。它包括各种大小和输入数据格式的自回归和扩散模型。
除了帮助生成大型数据集之外,Cosmos可以通过将3D图像升级为真实图像来减少模拟与真实之间的差距。英伟达指出,将Omniverse与Cosmos结合起来是至关重要的,因为可以通过高度可控、物理精确的模拟提供关键保障,有助于最大限度地减少通常与世界模型相关的潜在幻觉。
更多信息请访问这个页面。