FlowR突破3D重建瓶颈:稀疏视图生成高质量VR场景

查看引用/信息源请点击:映维网Nweon

3D重建

映维网Nweon 2025年07月16日)3D高斯飞溅可以在实时帧率下实现高质量的新颖视图合成(NVS)。但当我们偏离训练视图时,它的质量就会急剧下降。所以需要密集捕获来匹配特定应用的高质量期望,例如虚拟现实。然而,如此密集的捕获非常费力和昂贵。业界已经探索了使用2D生成模型通过蒸馏或生成额外的训练视图来减轻这一要求。但它们通常仅以少数参考输入视图为条件,因此不能充分利用可用的3D信息,从而导致不一致的生成结果和重建伪影。

为了解决这个问题,苏黎世联邦理工学院,Meta和卡内基梅隆大学团队提出了一个多视图流匹配(flow matching)模型。它学习一个流,将可能是稀疏重建的新视图渲染结果与期望的密集重建渲染结果连接起来。

这使得可以用新生成的视图来增强场景采集,从而提高重建质量。模型是在一个360万图像对的新数据集训练,可以在一张H100 GPU以540 × 960分辨率(91K令牌)处理多达45个视图。管道在稀疏和密集视图场景下不断改进NVS,从而在多个广泛使用的NVS基准测试中获得比以前更高质量的重建。

3D重建是从一组2D图像中估计3D场景的几何形状和外观的过程。给定一个足够大且足够密集的3D场景图像集,现代3D重建方法,如神经辐射场(NeRF)和3D高斯飞溅(3DGS),可以以如此高的质量重建3D场景,以至于所得到的3D表示可以渲染成几乎与现实无法区分的新视图。这是新视角合成(NVS)的任务,它可以实现各种应用,例如在逼真的真实场景中实现沉浸式VR体验。

然而,为了达到这样的结果,对于给定的3D场景,需要极其大量的捕获图像。捕获如此大量的图像十分费力的,而且并不总是可能。因此,3D重建和新视图合成的核心挑战之一是如何构建一种可以用更少图像获得同样好的结果,同时能够利用大量可用的图像集的算法。

在研究中,苏黎世联邦理工学院,Meta和卡内基梅隆大学团队提出了FlowR方法来解决这个问题。FlowR由两部分组成:

  • 基于3DGS的鲁棒初始重建管道,但设计用于稀疏和密集视图设置。他们使用MASt3R来估计追踪对应,然后将其用于三角测量初始点云;

  • 数据致密化过程,使用流匹配生成高质量的额外视图,并用于改进重建。团队不是对噪点和数据之间的速度场进行建模,而是对不正确的新视图渲染图和该视点各自的真实图像之间的速度场进行建模(见图1)。通过这种方式,如果已经有足够密集的输入图像,初始重建对于特定视图来说足够好,则流匹配模型可以简单地学习而不改变输入。这保证了生成模型不会产生与现有场景内容不一致和冲突的不必要新细节,而是产生清晰的场景细节,避免了不一致代的平均值模糊。

流匹配模型使用单个多视图扩散转换器同时生成N张图像,以确保所有生成的图像彼此一致,同时将这N张图像的生成与初始重建的M张输入图像进行调节,以确保新生成的视图与输入视图一致。为了训练模型,研究人员使用鲁棒初始重建方法创建了一个包含10.3万个重建场景的数据集,从中获得了360万对具有相应ground truth图像的新视图重建。

他们利用流匹配来提高初始重建的新视图渲染的质量,并作为辅助训练数据来适应改进的3D表示。所述方法可能适用于不同的场景表示,而采用高斯基元非常方便,因为它们可以快速训练。事实上,由于这一解决方案属于数据驱动,团队需要构建不同稀疏度级别下的重建数据集,高斯飞溅确保了为此目的更好的可扩展性。

如图所示,给定一组源输入图像(蓝色),使用鲁棒重建方法创建一个初始重建结果,而结果可以在不同的角度(灰色)进行渲染。他们使用渲染图作为流匹配模型的源样本,模型将渲染图像映射到目标分布,即ground truth图像。然后使用生成的视图(橙色)来提高重建的质量。

相关论文FlowR: Flowing from Sparse to Dense 3D Reconstructions

https://arxiv.org/pdf/2504.01647

总的来说,FlowR这种新颖管道可以在稀疏和密集的3D重建之间架起桥梁。所提出方法通过学习将不正确的渲染图匹配到相应的真实图像来增强NVS。通过对360万对图像的大规模数据集进行训练,FlowR在稀疏和密集视图场景下都显著提高了3DGS的性能,优于之前仅依赖2D条件合成的生成方法。

本文链接https://news.nweon.com/131053
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯