麻省理工、哈佛、斯坦福等研究员联合开发3D世界场景生成AI平台TDW

查看引用/信息源请点击:映维网

生成逼真的3D世界,从而为各种AI应用模拟丰富的现实世界交互

映维网 2021年12月16日)在厨房里,你将金属碗从柜面大力推向水槽,并因而发出砰的一声。在另一个房间里,听起来像是摇摇欲坠的木块终于倒塌,另外还出现了玩具汽车的巨大相撞声。尽管这个世界看似真实,但事实却并非如此。

在一项研究中,麻省理工学院(MIT)、MIT-IBM沃森人工智能实验室、哈佛大学和斯坦福大学的研究人员开发了一个名为ThreeDWorld(TDW)的平台,并希望创造一个类似于《黑客帝国》的丰富虚拟世界。TDW能够模拟室内和室外的高保真音频和视频环境,并允许用户像在现实生活中一样根据物理定律与对象进行交互。当发生相互作用时,系统能够计算并执行流体、柔体和刚体的对象方向、物理特征和速度,从而产生精确的碰撞和撞击声音。

值得一提的是,这种逼真3D世界可以结合虚拟现实,通过将人类被试放到由TDW生成的逼真场景中来进行各种社会行为学研究。

据介绍,TDW的独特之处在于其设计灵活且可泛化,可实时生成合成照片真实场景和音频渲染,可编译成视听数据集,通过场景内的交互进行修改,并适用于人类和神经网络学习和预测测试。另外,不同类型的机器人代理和虚拟化身可以在受控模拟中生成,从而执行任务规划和执行。例如,利用虚拟现实,人类注意力和游戏行为可以提供真实世界的数据。

研究人员指出:“我们正尝试构建一个通用模拟平台,为各种AI应用模拟现实世界中的丰富交互。”

1. 机遇

创造逼真虚拟世界来研究人类行为和训练机器人一直是人工智能和认知科学研究人员的梦想。尽管业界已经出现了类似的方案,但都是为特定应用而设计,缺乏泛化能力。

MIT-IBM沃森人工智能实验室项目负责人、脑与认知科学系副教授乔什·麦克德莫特(Josh McDermott)解释道:“目前大多数人工智能都是基于监督学习,而监督学习依赖于人类注释图像或声音的巨大数据集。相关的成本非常高,为研究造成了瓶颈。另外,对于物体的物理性质,比如说质量,人类观察者并不总是能够轻松发现。诸如TDW这样的模拟器能够生成所有参数和注释都为已知的场景,从而避免这个问题。实际上,业界大多数模拟都是出于这种考虑,但都是为特定的应用而设计,而具备灵活性的TDW则旨在支持大量的用例。”

麦克德莫特指出,TDW的另一个优点是,它为理解学习过程和促进人工智能机器人的改进提供了受控设置。依靠反复试验的机器人系统可以在不会造成损害的环境中进行学习。

另外,研究人员可以结合虚拟现实,将人类被试放到由TDW生成的逼真场景中,从而进行各种研究。麦克德莫特补充道:“我们中的许多人对这种虚拟世界为人类实验带来的可能性感到兴奋,它可以帮助我们了解人类的感知和认知。你可以创造非常丰富的感官场景,并依然能够完全控制和完全理解环境中发生的事情。”

2. 框架

这项研究始于麻省理工学院、斯坦福大学和IBM研究人员在听觉、视觉、认知和感知智能等方面的合作。TDW能够在一个平台上将所述一切结合在一起。

专注于研究人类和机器听觉的麦克德莫特指出:“我们都对构建一个虚拟世界的想法感兴趣。这个虚拟世界的目的是训练我们可以实际用作大脑模型的人工智能系统。在这种环境中,你可以让物体相互作用,然后从中呈现真实的感官数据。这将是一种有价值的研究方法。”

为了实现这一目标,研究人员在Unity3D引擎构建了TDW,并致力于在不使用任何动画的情况下结合视觉和听觉数据渲染。

模拟由两部分组成:the build和the controller。前者渲染图像、合成音频和运行物理模拟;后者是一个基于Python的界面,并允许用户向the build发送命令。

研究人员从广泛的三维模型库中提取对象(如家具、动物和车辆),从而构建和填充场景。模型能够准确地响应照明变化,而材质组成和方向决定了它们在空间中的物理行为。动态照明模型精确模拟场景照明,与一天中的适当时间和太阳角度相对应。

团队同时创建了虚拟平面布置图,从而允许使用代理和化身填充。

为了合成逼真的音频,TDW利用由碰撞或模拟中的其他对象交互触发的碰撞声音的生成模型。TDW同时根据空间的几何结构和其中的对象模拟噪声衰减和混响。

TDW中的两个物理引擎为交互对象之间的变形和反应提供动力:一个用于刚体,另一个用于柔体和流体。TDW执行有关质量、体积和密度、以及任何摩擦力或其他力的瞬时计算。这使得机器学习模型能够了解具有不同物理特性的对象的行为。

在实现中,研究人员可以通过the controller命令直接对物体施加力,这可以让虚拟球运动起来;虚拟化身可以在空间内以某种方式行动或行为;VR设备则允许用户与虚拟环境交互,并生成机器学习模型可以学习的人类行为数据。

3. 推进人工智能技术

为了试验和演示TDW的独特特性、功能和应用,团队运行了一系列测试来比较TDW和其他虚拟仿真生成的数据集。团队发现,在图像分类测试中,使用随机放置的TDW摄像机角度对场景图像快照进行训练的神经网络优于其他模拟,接近于在真实图像训练的系统。

研究人员同时根据TDW中掉落场景的音频片段生成并训练了一个材料分类模型,然后要求它识别相互作用的材料类型。实验结果表明,与竞争对手相比,TDW产生了显著的收益。物体跌落测试表明,将听觉和视觉结合起来是识别物体物理特性的最佳方法。

TDW对于设计和测试理解场景中的物理事件如何随时间演变的系统特别有用。这包括促进模型或算法在物理预测方面的基准测试,例如,物体堆叠的稳定性,或碰撞后物体的运动。

相关论文ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation

研究人员指出,所述应用只是冰山一角。通过扩展TDW的物理模拟能力,团队希望能够更准确地描述真实世界:“我们正尝试创建新的基准来推进AI技术,并利用基准来揭示许多迄今为止难以研究的新课题。”

本文链接https://news.nweon.com/92577
转载须知:转载摘编需注明来源映维网并保留本文链接
入行必读:AR/VR——计算机历史第二次大浪潮

更多阅读推荐......

资讯