OPPO与华盛顿大学研发PanoDreamer 3D场景生成框架
3D场景生成框架
(映维网Nweon 2025年07月18日)根据文本描述、参考图像或两者自动生成完整3D场景在虚拟现实等领域具有重要应用。然而,目前的方法经常产生低质量的纹理和不一致的3D结构。为了解决所述挑战,OPPO和圣路易斯华盛顿大学团队提出了PanoDreamer,一个具有灵活文本和图像控制的一致3D场景生成框架。
所述方法采用大型语言模型和warp-refine管道,首先生成一组初始图像,然后将它们合成成360度全景图。这个全景然后提升到3D,形成一个初始点云。接下来,使用数种方法从不同的角度生成与初始点云一致的附加图像,并扩展/细化初始点云。给定结果图像集,研究人员利用3D高斯飞溅来创建最终的3D场景,然后可以从不同的角度渲染。实验证明了PanoDreamer在生成高质量、几何一致的3D场景方面的有效性。
在VR/AR等行业中,文生3D的巨大潜力有望建立一种强大的沉浸式场景内容创作方法。扩散模型的最新发展使得从文本生成高质量、几何正确的图像成为可能,从而允许定制2D内容生成。基于2D文本到图像生成的最新进展,一系列的研究开始关注3D场景生成。有人首先基于参考图像生成初始点云,采用渐进式warp-and-refine方法完成3D场景重建。然而,由于摄像头的视场有限,相关方法需要多次迭代才能生成完整的场景,而且每次迭代都完全依赖于前一阶段的信息。所以,单目深度估计的误差积累和扩散产生的伪影阻碍了模型保持长期几何和外观一致性的能力。
为了克服所述挑战,最近的研究利用全景到3D场景生成来生成具有更大视场的场景。利用文本-全景生成技术的进步,相关方法使用全景图作为3D场景的中间表示,随后使用神经辐射场(NeRF)或3D高斯飞溅获得3D表示。然而,由于几何结构是基于单一全景,生成的3D场景具有有限的空间范围,并且受到遮挡的显著影响。所以,用户在场景中移动的自由受到限制,极大地限制了3D模型的实用性。
在一项研究中,OPPO和圣路易斯华盛顿大学团队提出了PanoDreamer。这个新颖的框架可以实现具有几何一致性的全局级场景生成,并允许定制的3D场景扩展。所提出方法采用多阶段管道:首先生成静态全景场景,然后根据用户定义的初始图像和camera轨迹动态扩展场景。
为了生成静态全景场景,给定文本提示和/或用户提供的参考图像,使用LLM引擎从初始视点合成图像,并将它们合成为完整的等矩形全景。这个全景然后提升到3D,以创建一个初始点云。接下来,从不同的角度生成一组额外的图像。研究人员使用视场条件视频扩散模型来生成基于用户指定的初始图像和轨迹的序列,从而实现连续的、几何一致的场景生成和对视点转换的灵活控制。使用深度对齐将生成的点云组成一个全局点云,然后使用3D高斯飞溅生成3D场景表示。
为了增强场景的完整性,团队提出了一种生成一组补充视图的策略,并使用语义保持的生成warp框架来绘制遮挡区域。补充视点,连同它们的图像用来细化3D高斯分布,从而减少伪影,增强场景的完整性。
为了评估3D场景生成的质量,研究人员将所提出方法与最先进的3D场景生成方法进行了比较:Text2Room采用迭代网格生成方法来表示基于手绘和单目深度估计的场景,LucidDreamer采用变形和细化策略来迭代生成新视图的点云,随后采用3D高斯飞溅来获得场景的高斯分布。
由于LucidDreamer不能直接从文本提示生成3D-GS,因此使用Stable Diffusion v2.1来生成初始条件反射图像,以确保一致性。对比如图3和表1所示。结果表明,Text2Room在包含样式描述时难以生成连贯的场景。由于渲染-细化-重复方案,当生成的图像之间存在显著差异时,Text2Room会遇到对齐问题,这阻碍了模型有效区分重叠区域。当提示符包含大量对象描述时,这个问题尤其明显。
另一方面,LucidDreamer只能在有限的camera运动下生成连贯的场景。由于其warp-and-inpaint生成方案固有的几何误差的积累,Text2Room和LucidDreamer都无法保持视图之间的一致性。所以,它们在相邻对象之间的交叉处表现出模糊的边界和伪影。
相反,方法在室内和室外场景中产生高质量的结果,边界光滑,伪影较少。另外,模型即便在大幅camera运动下都能实现鲁棒的几何一致性,使其与比较的方法区别开来。图4展示了与先前方法进行比较结果。MultiDiffusion使用校正扩散直接生成全景图,而MVDiffusion首先使用扩散模型生成透视图像,然后将其合成为全景图。
结果表明,在LLM的指导下,OPPO和圣路易斯华盛顿大学团队提出的模型有效地避免了重复对象的生成,显著提高了内容的多样性和生成质量。同时,图5给出了可视化定性结果。结果表明,渲染图像显示出精确的深度图,验证了渲染结果的精确几何形状。
另外,团队进行了烧蚀研究。如表2所示,相关方法增强了3D高斯飞溅的细化阶段,同时减少了渲染结果中的伪影。移除深度对齐模块会导致场景之间的混合问题,导致像素错位,并在3D高斯生成过程中增加几何偏差。由于3D-GS在很大程度上依赖于精确的点云初始化,因此结合深度对齐可以减少全景场景和运动场景之间的不对齐,最终提高渲染图像的质量。
表2进一步比较了其与其他方法的渲染质量。结果表明,排除辅助camera细化或深度对齐都会导致渲染质量的显著下降。相关发现强调了这两个组件在实现高质量场景重建中的重要性。
相关论文:PanoDreamer: Consistent Text to 360-Degree Scene Generation
总的来说,PanoDreamer是一个文本到360度场景生成框架。所述方法的核心思想是将场景生成分解为两个阶段:单视点场景生成和通过移动camera模拟进行场景扩展。第一阶段使用LLM来指导图像的合成,然后将其融合形成全景。在第二阶段,使用两种不同的生成策略对模型进行扩展和改进。
实验证明,所提出方法产生了高质量的,几何一致的场景,并允许用户能够沿着初始之外的定制轨迹自由导航,显著拓宽了潜在应用的范围。另外,所述方法在广泛的度量标准中始终优于强大的基线。展望未来,团队计划解决的一个关键挑战是随着场景规模变大而累积的误差。