香港中文大学团队提出单视图沉浸式3D场景重建新方法ExScene
仅使用单视图输入即可实现一致的沉浸式场景重建
(映维网Nweon 2025年07月11日)对增强现实和虚拟现实应用日益增长的需求凸显了从简单的单视图图像制作沉浸式3D场景的重要性。然而,由于单视图输入提供的部分先验,现有的方法往往局限于从单视图输入重建低一致性的窄视场3D场景。相关限制使它们无法泛化重建沉浸式场景。
为了解决这个问题,香港中文大学(深圳)未来智联网络研究院和香港中文大学(深圳)团队提出了ExScene。这是一个两阶段的管道,可以从任何给定的单视图图像重建沉浸式3D场景。ExScene设计了一种新的多模态扩散模型来生成高保真度和全局一致的全景图像。
然后,研究人员开发了一种全景深度估计方法,从全景中计算几何信息,并将几何信息与高保真全景图像结合起来训练初始三维高斯飞溅模型。以其作为基础,团队引入了一种具有二维稳定视频扩散先验的GS精细技术。他们在扩散去噪过程中加入camera轨迹一致性和颜色几何先验,以提高图像序列间的颜色和空间一致性,然后用于微调初始3DGS模型,从而获得更好的重建质量。
实验结果表明,ExScene仅使用单视图输入即可实现一致的沉浸式场景重建,大大超过了最先进的基线。
单视图3D重建技术对于增强现实/虚拟现实领域至关重要。但有限的场景先验、重建中的场景一致性差、伪影和空心区域等挑战极大地限制了它们在现实场景中的适用性。尽管神经辐射场NeRF和3DGS具有先进的新颖视图合成和3D场景构建,但它们依赖于在受控轨迹中拍摄的大量连续图像,而这对于现实世界的应用来说是不切实际的要求。
尽管最近扩散模型和自回归模型的突破使单视图重建取得了显著进展,但大多数现有方法主要局限于正面场景,并且仅限于实现小角度旋转或小视点外推。由于迭代过程中的错误、引入几何扭曲、不一致的颜色和伪影,它们无法生成沉浸式的360度重建。
简而言之,从单一视图生成沉浸式高保真3D重建依然是一个重大的未解决挑战。针对这个问题,香港中文大学(深圳)未来智联网络研究院和香港中文大学(深圳)团队引入了ExScene。如图1所示,所提出方法创新地融合了多模态全景图像生成技术和3DGS场景细化方法,在三维重建中实现了高保真的颜色表示和几何一致性。
首先,他们设计了一个具有全景先验的多模态扩散模型来解决全景图像生成中的语义不一致问题。这种特殊的模型将文本和图像特征融合到去噪过程中,以生成语义一致的高保真全景图。随后,提出了一种改进的全景深度估计方法,以克服现有全景深度估计方法中的投影失真。最后,使用精确的几何信息和高保真全景图像来训练初始3DGS模型。
在第二阶段,引入一个特殊的高斯补丁模块来解决初始3D模型中的视点遮挡伪影。补丁模块由一个特定的稳定视频扩散(SVD)模型驱动,而它融合了多视图维度感知能力和颜色几何先验。这确保了生成的2D图像序列的3D视图一致性,提高了3DGS模型的质量。
在不同的单视图数据集的实验表明,ExScene在定性和定量上都超过了最先进的方法。消融研究证实了多模态全景图像生成模块和高斯补丁模块在生成高保真全景图像和重建高质量和一致的3D场景方面的有效性。
值得一提的是,对于数据集,由于没有公开可用于沉浸式3D场景单视图重建的统一图像数据集。所以,团队使用基线方法和Stable Diffusion V2.1生成的62张单视图图像作为ExScene等方法的测试图像,涵盖各种室内和室外,真实和模拟场景。
然后,研究人员用4块Nvidia 3090 GPU进行了实验。对于单视图输入,使用LLaVA生成图像描述。将图像和描述合并到扩散模型的去噪过程中,生成全景图像。他们在一个新的视图合成数据集训练奇异值分解模型来学习轨迹先验。
接下来,他们将所提出方法与2种SOTA基线方法进行比较:ViewExtrapolator和VistaDream。ViewExtrapolator利用重新设计的SVD去噪过程和生成先验进行图像序列伪影修复。VistaDream使用扩散模型来细化3D支架,并通过多视图采样来提高视图一致性。
图3展示了所提出方法与在单视图图像数据集上评估的基线方法的定性结果。由于错误积累,VistaDream呈现颜色和样式不一致,如图3 (a)列所示。在图3 (b)列中,ViewExtrapolator的SVD模块中缺少camera轨迹先验导致合成的新视图失去3D一致性,导致渲染图像失真和伪影。
表1中的定量结果和图3中的定性示例都表明,所提出的ExScene使用多模态全景扩散模型,在扩展场景表示方面明显优于现有方法。这种增强为初始化和微调后续3D高斯模型提供了全景几何和颜色先验,确保了高质量的3D场景重建。另外,模型保证了场景优化过程中多视图的一致性,同时提高了整体重建质量。这最终导致准确和逼真的场景重建。
如表2所示,使用一致性指标评估生成的图像。在没有语义引导的情况下生成的图像显示出锯齿状的边缘和不一致的光线和颜色,突出了语义编码的有效性。另外,高斯补丁模块对于修复孔洞和消除伪影至关重要,这对最终质量有重大影响。当模块移除时,如表1所示(w/o patchching module),高斯模型在失去第二阶段的微调过程后,质量显著下降。相比之下,补丁补模块有效地消除了扭曲,增强了场景的真实感和质量。
相关论文:ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image
总的来说,ExScene这个两阶段框架可用于从单视图图像生成沉浸式360度3D场景。在第一阶段,使用具有全景先验的多模态扩散模型来生成高质量的全景图像,并使用全景深度估计模块来预测深度信息。然后将组合起来训练一个初始的三维高斯模型。
在第二阶段,使用一种维度感知的稳定视频扩散方法来修复从初始3D场景渲染的视频,产生高质量和一致的多视图图像。然后使用图像来改进初始模型以获得逼真的视觉效果。大量的实验结果表明,ExScene在沉浸式360度场景的单视图生成方面超越了最先进的性能。