苹果人工智能团队研发全新3D场景生成神经架构GAUDI
目前GAUDI生成的3D视频质量较低,并存在伪影,但这项技术为未来的可控生成AI系统,以及3D对象和场景渲染奠定了基础
(映维网Nweon 2022年08月05日)日前,苹果的人工智能团队亮相了全新的3D场景生成神经架构GAUDI(以西班牙著名建筑师安东尼奥·高迪/Antonio Gaudi的名字命名)。它可以捕捉复杂和逼真的3D场景分布,从移动camera执行沉浸式渲染,并基于文本提示创建3D场景。
将生成式人工智能扩展到完全无约束的3D场景依然是一个尚未解决的问题。其中一个原因是camera位置的限制。尽管对于单个对象来说,每一个可能的合理camera位置都可以映射到一个圆顶之上,但在3D场景中,camera位置会受到物体和墙壁等障碍物的限制。如果在场景生成过程中不考虑相关因素,生成的3D场景就无法使用。
苹果提出的GAUDI模型则通过三个专门的网络来解决这个问题:
-
一个camera姿势解码器对可能的camera位置进行预测,并确保输出是3D场景架构的有效位置。
-
场景解码器可以通过一种3D画布的形式对场景进行预测。
-
辐射场解码器在上面使用体三位渲染方程绘制后续图像。
苹果写道:“GAUDI是一种能够捕捉复杂和逼真3D场景分布的生成性模型,它可以从移动摄像头执行沉浸式渲染。我们采用一种可扩展但强大的方法来解决这一挑战性问题:首先优化latent表示,将辐射场和cameta姿势分离。然后,使用latent表示来学习一种支持无条件和有条件生成3D场景的动态模型。”
实验结果表明,GAUDI在多个数据集的无条件生成环境中实现了最先进的性能,并允许在给定条件变量情况下有条件生成3D场景。
尽管目前GAUDI生成的3D视频质量较低,并存在伪影,但这项技术为未来的可控生成AI系统,以及3D对象和场景渲染奠定了基础。
GAUDI的出现不仅会对许多计算机视觉任务产生影响,其3D场景生成能力也将有利于基于模型的强化学习和规划、SLAM和3D内容制作等研究领域。
值得一提的是,根据Patentlyapple,据称GAUDI有用于苹果的XR头显中,并用于生成数字化位置。
更多技术性细节请访问映维网的论文页面。