美国军方、加州大学等联合提出通过文本创建3D场景环境
通过简单的用户命令创建身临其境和逼真的3D环境
(映维网Nweon 2024年09月10日)对虚拟现实应用日益增长的需求凸显了制作沉浸式3D asset的重要性。在一项研究中,美国军方下属的DEVCOM Army Research Laboratory陆军研究实验室,加州大学和得州大学奥斯汀分校提出了一种从文本到3D的360度场景生成管道,而它可以在数分钟内为in-the-wild环境创建全面的360度场景。
文生3D在VR/MR等领域存在巨大潜在应用,并极大地推动了旨在开发大规模沉浸式场景内容创作可靠方法的研究工作。最近在2D领域的发展已经看到了使用大规模预训练扩散模型成功生成或编辑高质量和适应性强的图像/视频,允许用户按需生成定制内容。
在2D之外,3D内容的生成,特别是3D场景的生成,受到数据对有限可用性的限制。所以,3D内容创建的努力往往依赖于利用大规模2D模型。然而,相关方法往往存在渲染质量较低的问题,主要是因为2D模型的多视图不一致,并且难以扩展到具有精细细节纹理创建的场景尺度3D结构,特别是对于面向外的视点和无限场景规模的户外场景。
3D生成的另一种途径是从显式表示中获得见解,例如点云和网格。相关方法试图通过初始化明确的3D表示来弥合2D和3D生成之间的差距,然后逐步扩展学习的3D表示以涵盖更广泛的视场。然而,它们所利用的渐进式优化框架难以填补大量缺失区域,特别是在无约束条件下针对360度场景时会导致明显扭曲和脱节的结构。
另外,文本到图像生成中的快速工程问题在文本到3D生成框架中变得更加明显,导致大量的试错努力来实现所需的3D场景。
为了解决上述挑战,团队引入了DreamScene360。所述方法最初利用文本到全景扩散模型的生成能力来生成全方位360度全景图,从而提供场景的全面表示。然后,采用自细化机制增强图像,减轻提示工程,集成GPT-4V,并通过迭代质量评估和提示修订来提高视觉质量和文本-图像对齐。
尽管生成的全景图像克服了不同视点的视图一致性问题,但它们依然缺乏深度信息和无约束设置下的任何布局先验。为了解决这个问题,团队通过使用预训练的单目深度估计器以及可优化的几何场来初始化比例一致的场景几何,从而促进每个视角投影像素的可变形对齐。
由单视图观测产生的间隙可以通过创建一组具有合成多视图效果的伪视图,以及从2D模型提取伪几何和语义约束的伪视图来将高斯变形到未见区域来填充,从而减轻伪影。
相关论文:DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting
总的来说,框架DreamScene360可以通过简单的用户命令创建身临其境和逼真的3D环境,为高质量3D场景的迫切需求提供了一种新颖的解决方案。所述研究同时减少了对大量手动工作的依赖,为更易于访问和用户友好的3D场景生成铺平了道路。