澳大利亚国立大学提出单图像3D场景重建新方法FlashDreamer

查看引用/信息源请点击:映维网Nweon

一种从单个图像重建完整3D场景的新方法

映维网Nweon 2025年06月19日)3D场景重建对于虚拟现实等应用至关重要。传统的3DGS技术依赖于从多个视点捕获的图像来实现最佳性能,但这种依赖性限制了它们在只有单个图像可用的情况下的使用。在这项研究中,澳大利亚国立大学团队介绍了FlashDreamer,一种从单个图像重建完整3D场景的新方法,并大大减少了对多视图输入的需求。

所以出方法利用预训练的视觉语言模型为场景生成描述性提示,指导扩散模型从不同角度生成图像,然后将其融合形成有凝聚力的3D重建。大量的实验表明,所提出方法有效且稳健地将单图像输入扩展到全面的3D场景中,无需进一步训练即可扩展单目3D重建能力。

3D场景重建从多个输入图像生成场景的三维表示。这一计算机视觉中的基本任务为虚拟现实/增强现实等应用提供了空间表示。最近,3DGS作为一种3D表示方法得到了普及,它可以以最小的输入提供高质量的实时结果。然而,3DGS通常依赖于来自不同视点的多幅图像来获得最佳性能,这限制了其对单幅图像场景的适应性。

Flash3D通过支持从单个图像进行3D重建来解决这个问题。然而,当从其他角度观察这种重建时,由于原始图像中信息不足,通常会出现伪影。例如,旋转视点通常会显示沿边界的空白区域或工件,因为这些区域位于初始输入之外。为了解决所述限制,可以使用像扩散模型这样的生成模型来合成新的视点。然而,扩散模型在生成同一场景的多幅图像时经常面临一致性问题。例如,生成的图像之间的重叠区域可能不同,从而导致不一致。

针对所述问题,澳大利亚国立大学团队介绍了FlashDreamer,这种新颖的方法旨在完成场景的3DGS,用Flash3D初始化,并通过从预定义的角度生成视图。FlashDreamer通过使用中间3DGS表示对齐3D空间中的重叠区域来解决一致性问题。另外,视觉语言模型(VLM)为增强扩散过程提供了补充指导。

团队通过定性和定量分析检查了影响场景生成质量的因素。定性分析考虑了(i)旋转角度,(ii)扩散模型,以及(iii)提示多样性。定量地,使用Frechet ’ Inception Distance (FID)和CLIP Score在旋转角度评估质量,目标是阐明驱动高质量场景生成的关键参数。

他们使用Flash3D进行高效的场景重建,并结合预训练的Stable Diffusion-v2模型来扩展多个视点的场景图像。为了提高扩散模型的生成精度们在LLaMA-3.1-8B中输入了“请简要描述场景”的引导提示。然后,视觉语言模型生成描述,作为扩散模型的提示符。

最后,采用标准的3DGS管道对三维场景进行重构。由于时间限制,实验是在Replica数据集的一个子集进行。所述子集包含18个高度逼真的3D室内场景的图像帧,提供了对真实室内场景的多样化和全面的模拟。对于每张图像,研究人员选择6个新的视角,范围为-30°到30°,以10°为旋转单位。

为了确保高效的处理和最佳的性能,使用NVIDIA Tesla V100 GPU进行所有实验。PixelSynth是一个单目场景补全模型,它使用生成模型来完成输入图像之外的内容,并作为基线与团队模型进行比较。不同之处在于,它们没有使用场景的3D表示,而是训练GAN来生成像素内容。在团队的模型中,使用Flash3D来生成用于3D一致性维护的中间3DGS,并且使用预训练的扩散模型和VLM。

对于扩散模型之间的比较,即便使用相同的旋转角度和提示符,扩散模型都能表现出不同的视觉特征。在实验中,使用了Stable Diffusion-v2和Stable Diffusion-xl。如图5所示,与Stable Diffusion-xl相比,Stable Diffusion-v2获得了更多的摄影效果。这种质量对于在多个视图中优先考虑真实感的应用程序是有利的。相反,Stable Diffusion-xl虽然在产生多样化和艺术化的视觉风格方面更加灵活,但可能会引入与源图像在风格上偏离的元素。

Stable Diffusion-xl增加的艺术功能对于创意应用程序是有益的,但与原始图像相比,可能会导致风格不一致,特别是在需要一致性的场景中。

至于提示符之间的比较,现有强大的视觉语言模型可以很好地描述场景的特征。然而,当将这些提示输入扩散模型时,会遇到两个问题:(i)可以输入扩散模型的令牌长度是有限的,(ii)精心制作的描述性提示不一定能产生高质量的场景生成。

所以,他们在Stable Diffusionv2上进行实验,以确定最有效的场景生成提示类型。为了研究提示细节如何影响生成的结果,使用两种类型的扩散提示,在绿色框中标记为“短提示”和“长提示”。长提示描述了房间里的特定物品,它们的相对位置,以及额外的场景元素,为模型提供了更丰富的背景。短提示简短地描述了场景中的物品。

例如:

  • 提示:一个室内场景,一个窗户,两个沙发。

  • 长提示:房间里有一个白色的沙发和几个枕头。沙发的左边是一把带蓝色坐垫的扶手椅,沙发前面是一张小圆木桌子,花瓶里插着一株装饰性植物。在右边,有一张两层木制的圆桌,上面放着一盏小灯。灯在墙上投下温暖的光。沙发上方的墙上挂着一幅巨大的黑白相框,照片上是湖边或河边的独木舟,为空间增添了自然元素。墙壁漆成浅中性色,房间有一个带顶灯的吊顶天花板。

如图6所示,使用较长的提示生成的图像显示增强的细节,捕获额外的元素,如灯和装饰植物,这提高了纹理和对象的保真度。然而,图像往往缺乏结构一致性,并且包含更多的伪影。相比之下,使用较短提示生成的图像呈现更简单的布局,场景细节更少,但结构更一致。

定量的结果如表1所示,实验比较了PixelSynth和flashdream两种方法在不同旋转角度下的Frechet Inception Distance (FID)和CLIP分数。FID评估生成图像的质量,分数越低表示图像保真度越好,而CLIP评分衡量与文本提示的一致性,分数越高越好。随着旋转角度绝对值的减小,两种方法的FID评分逐渐降低,表明图像质量得到改善。同样,CLIP分数在这些较小的角度增加,表明更好的提示对齐。总的来说,结果突出了较小的旋转角度有助于更高质量的图像生成,而FlashDreamer在大多数评估角度上都优于PixelSynth。

相关论文Enhancing Monocular 3D Scene Completion with Diffusion Model

总的来说,FlashDreamer这种方法通过从单个图像创建完整的3D环境来推进单目3D场景重建,消除了传统3DGS所需的多视图图像。通过利用视觉语言模型来生成描述性提示,指导扩散模型产生多视角图像,FlashDreamer实现了准确和有凝聚力的3D重建。所提出方法不需要额外的培训,突出了其在虚拟现实应用中的效率和适应性。大量的实验证实,FlashDreamer可以将单图像输入转换为全面的3D场景,推动了单图像3D重建领域的发展。

本文链接https://news.nweon.com/130435
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯