根特大学与邓迪大学联合提出极稀疏视角下360度场景新视角合成框架
从极稀疏输入视角实现360度场景的新视角合成
(映维网Nweon 2025年09月17日)从极稀疏输入视角实现360度场景的新视角合成对于虚拟现实和增强现实等应用至关重要。在一项研究中,比利时根特大学和英国邓迪大学团队提出一种针对极稀疏视角情况的新视角合成框架。
由于传统SfM方法在极稀疏视角下无法有效估计camera位姿,研究人员采用DUSt3R进行camera位姿估计并生成稠密点云。利用估计的camera位姿,从场景上半球空间密集采样额外视角,并结合点云渲染合成图像。通过将稀疏视角的参考图像与密集采样的合成图像相结合来训练3DGS模型,可扩大三维空间的场景覆盖范围,从而解决稀疏视角情况下因输入有限导致的过拟合问题。
基于自建数据集重训练扩散模型驱动的图像增强模型,并通过去除伪影进一步提升了点云渲染图像的质量。在仅使用四个输入视角的极端条件下,团队将所提出框架与基准方法进行比较,而结果表明其在360度场景的极稀疏视角新视角合成方面具有显著提升。
新视角合成(NVS)是计算机视觉领域的核心挑战,侧重于从未观测视角渲染图像。神经辐射场NeRF和3DGS等最新进展已证明利用场景的密集采集图像生成新视角的强大能力。然而,获取数百至数千张高度重叠的场景图像通常耗时且不切实际,尤其对于需要随时重新采集的大规模场景。
所以,开发从稀疏视角高效重建三维场景的方法日益受到关注。在稀疏视角情况下,NeRF和3DGS常因输入有限而过拟合,导致严重视觉伪影和结构失准。为解决此问题,现有方法提出将基于扩散模型的方法融入NVS流程,以利用其生成能力。
这些方法可分为三类:第一类使用预训练扩散模型知识并通过分数蒸馏采样损失指导NVS训练,但其在极稀疏视角下效果仍不理想;第二类通过在大规模多视角数据集上训练二维扩散模型生成新视角合成图像,并将合成图像与参考图像联合训练三维模型。这类方法需基于大规模数据集从头训练,成本高昂且生成图像可能包含场景原有内容之外的元素;第三类通过微调扩散模型提升NVS渲染图像质量,并将其作为额外训练数据。这类方法依赖真实相机位姿,而在极稀疏视角下传统SfM方法难以准确估计位姿。
在一项研究中,比利时根特大学和英国邓迪大学团队提出一种专为极稀疏视角(仅四个输入)重建360度场景的新框架。他们采用训练和渲染高效的3DGS作为核心三维表示方法。为解决极稀疏视角下的位姿估计问题,使用DUSt3R估计camera位姿并生成场景稠密点云。
通过从上半球空间密集采样视角,利用采样camera位姿和生成的点云渲染额外训练图像,从而扩展三维空间的视角覆盖范围。与现有方法沿输入camera轨迹采样不同,所提出方法从三维空间提供更全面的场景外观与几何信息以训练3DGS模型。随后,使用基于扩散模型的图像增强模型去除点云渲染图像中的伪影。
通过在团队构建的数据集上重训练模型,所述方法利用扩散模型的生成能力提升图像质量,且不引入新内容。3DGS模型结合稀疏视角参考图像与密集采样合成图像进行训练,能够利用更多场景外观与几何信息,从而提升极稀疏视角下的性能。
团队将所提方法与两种最先进的稀疏视角免位姿方法InstantSplatCOGS进行比较,同时对比了使用COLMAP真实位姿的扩散式NVS技术DiffusioNeRF。定量对比结果(表1)表明所提出方法在所有指标上均优于基准方法:相较InstantSplat,PSNR提升0.98,SSIM提升0.08,LPIPS微增0.01。
定性对比结果(图2)显示:DiffusioNeRF因广角图像间难以建立对应关系导致几何模糊,无法有效重建极稀疏视角下的360度场景;COGS因无法准确估计360度场景的相机位姿,导致测试图像渲染视角错误;InstantSplat与所提出方法均利用DUSt3R生成位姿和点云,能有效处理360度场景,而所提出方法通过上半球采样合成图像引入更多场景几何与外观信息,性能更优。尽管点云未覆盖的大面积背景区域导致结果中存在空白,但所提出方法仍超越所有基准方法。
研究人员通过消融研究评估各组件的贡献(表2报告各场景平均指标)。以仅使用参考图像训练的InstantSplat为基线,添加合成图像训练使PSNR显著提升0.54;结合感知损失LP和距离加权λ(π)后,PSNR和SSIM进一步分别提升0.19和0.02;增加图像增强步骤后PSNR再提升0.25。对比沿camera轨迹采样视角的方法(表3),上半球采样策略使PSNR和SSIM分别提升0.18和0.01。在DiffBIR框架内重训练SwinIR模型时(表4),采用MSE损失与上下文损失组合比单用MSE损失显著提升所有指标(PSNR+0.53,SSIM+0.02,LPIPS-0.01),证明上下文损失能有效处理点云渲染图像与参考图像间的错位问题。
总的来说,团队提出了一个提升3DGS在极稀疏视角360度场景中性能的框架,其通过结合参考图像与基于上半球采样位姿和DUSt3R点云生成的合成图像进行训练,并采用重训练扩散模型去除合成图像伪影。实验证明该方法优于现有基准方法。未来工作将集中于提升输入点云的完整性与质量,优化点云几何信息对NVS性能的影响,并探索基于扩散模型的修复技术以增强点云渲染图像质量。