4D高斯+物理渲染实现可调光体三维视频,提升逼真视觉效果
在不同的照明条件下提供逼真、逼真的视觉效果
(映维网Nweon 2025年06月11日)体三维视频通过捕获动态3D场景实现身临其境的体验,从而支持虚拟现实等各种应用。然而,传统的方法在固定的照明条件下挣扎,而神经方法在效率、质量或可照明场景的适应性方面面临权衡。为了解决所述限制,上海科技大学,NeuDim和DGene团队提出了BEAM。
这个新颖的管道将4D高斯表示与基于物理的渲染(PBR)连接起来,从多视图RGB素材中生成高质量,可调光的体三维视频。BEAM通过一系列基于高斯的技术恢复详细的几何形状和PBR属性。它首先将基于高斯的性能跟踪与几何感知光栅化结合在一个coarse-to-fine优化框架中,以恢复空间和时间一致的几何形状。
团队通过逐步整合PBR属性进一步增强高斯属性,并利用多视图条件扩散模型生成粗糙度,然后使用2D到3D策略导出AO和基色,并结合定制的基高斯光追器进行有效的可见性计算。一旦恢复,动态的,可照明的资产无缝集成到传统的CG管道中,支持延迟着色的实时渲染和光线追踪的离线渲染。
体三维视频从多个角度捕获动态3D场景,允许从任何角度进行交互式观看。这项技术对于在虚拟和增强现实中创造身临其境的体验,通过逼真的互动内容增强故事讲述、教育、文化保护和远程呈现至关重要。
然而,传统的体三维视频通常受到录制期间捕获的固定照明条件的限制,这可能与动态或虚拟环境发生冲突,降低真实感和灵活性。可重照明体三维视频通过启用捕获后重照明克服了这一限制。
这允许无缝集成到动态照明环境中,并提供对视觉美学的创造性控制。行业中用于制作可重照明体三维视频的主流工作流程依然依赖于追踪的网格序列和纹理视频。视频可以无缝集成到标准CG管道中,以支持各种照明条件下的重照明。然而,复杂的重建过程经常会引入诸如孔洞和噪点之类的伪影,并且重照明的质量受到限制,经常导致可见的缺陷。
神经学方面的进展侧重于在隐式MLP表示中使用神经分解实现重照明功能。然而,相关方法经常面临平衡训练效率、渲染速度和输出质量的挑战,最终无法提供令人满意的结果。
最近,3DGS以前所未有的帧率实现了逼真的渲染。尽管动态变体可以生成高质量的体三维视频,但它们无法生成重照明等基本操作所需的详细几何形状。业界已经努力将基于物理的渲染集成到3DGS管道中,不过它们通常计算成本很高,并且仅限于静态场景。
相关问题严重限制了它们在工业工作流程中的适用性,阻碍了4D内容的高效生产。在一项研究中,上海科技大学,NeuDim和DGene团队介绍了BEAM。这种新颖的管道将4D高斯函数与精确的PBR连接起来,用于从多视图RGB素材中生成可重照明的体三维视频。
关键思想是稳健地恢复详细的几何形状和解耦PBR属性(例如环境遮挡,粗糙度和基色),并使用一套精心选择的技术,即,栅格化,性能跟踪和光追,而所有这一切都在基于高斯的范式中。
所以,BEAM实现了逼真的动态场景,可以在不同的照明下无缝地、CG友好地集成到各种平台中。他们首先从多视点视频输入中恢复详细且时空一致的几何形状,将基于高斯的性能跟踪与几何感知的高斯光栅化有机地结合在一起。前者擅长运动跟踪,后者擅长静态几何恢复,研究人员将它们统一在一个coarse-to-fine优化框架中。
具体来说,使用粗略关节高斯函数来追踪非刚性运动,使用密集蒙皮高斯函数来保留复杂的几何细节。团队采用了一种鲁棒优化过程,集成了法向一致性、光度一致性和时间正则化,以提高几何精度和平滑度。这使得使用几何感知光栅器从密集高斯中获得准确的深度和正常恢复,为材质分解和重照明提供了坚实的基础。
研究人员进一步解耦密集的4D高斯函数,以恢复详细的材质属性,实现高质量的物理渲染。他们专注于准确地将粗糙度,环境遮挡(AO)和基色属性与高斯函数关联起来,确保在不同照明条件下的逼真和适应性渲染。为了实现这一目标,采用循序渐进的方法来解开属性。
具体来说,首先使用材质扩散模块与多视图条件生成粗略纹理。然后,对于AO和基色,采用2D-to-3D策略,在输入视图中估计属性来烘烤2D材质贴图,然后在3D空间中优化成相应的密集高斯分布。
所述策略有效地降低了噪点,平滑了解纠缠,提高了重照明质量。对于进一步的2D AO和基色分解,可以使用现成的工具估计捕获过程中的照明环境,而几何属性和粗糙度则在前一阶段获得。因此,通过仔细地重新检查和简化渲染方程,团队确定了一个关键的见解:在光追过程中,可以通过积累的特定方向上特定点的可见性信息准确地导出2D AO和基色。
团队定制了基于高斯的追踪器来计算这种可见性,并采用了一种基于密集高斯的alpha blending策略。这有效地捕获了可见性信息,为估计输入视点中的AO和基色图奠定了基础。
一旦材质属性烘烤到密集动态高斯,4D资产与传统的CG引擎无缝集成,以支持灵活的渲染工作流程。对于实时渲染,采用延迟着色来提供沉浸式和高效的可视化,而离线渲染则利用光追来精确捕获复杂的阴影和遮挡。
团队进一步开发了一个Unity插件,以将4D资产无缝集成到各种平台中,从而在不同的照明条件下进行实时,逼真的交互。
团队进行了用户研究。他们在捕获的数据集评估了所提出方法,将其与R-3DGS, GS-IR和D-2DGS进行比较,并要求30个用户选择最佳选项。
对于GS-IR和R3DGS,分别训练了200帧的高斯模型,并将每帧的法线贴图连接起来。对于所提出方法和D-2DGS,从一个200帧的动态高斯序列光栅化一个法线贴图序列。在时间重建质量方面,95.65%的用户更喜欢团队的方法。偏好结果清楚地表明,所提出方法比竞争方法有显著的优势,证明了它在这两个方面的优越性能。
当然,尽管实现了高质量的沉浸式渲染,但所提出方案存在一定的局限性。首先,将新属性集成到原始高斯中会导致动态高斯序列的大量存储需求,所以未来的研究将考虑压缩相关序列。其次,他们近似渲染方程来获得二维材质贴图,这在解耦的材质结果中引入了误差,并且不能准确地反映真实的物理世界,所以未来的工作可能会通过结合大模型来解决这个问题。
相关论文:BEAM: Bridging Physically-based Rendering and Gaussian Modeling for Relightable Volumetric Video
不过,所述方法与传统CG引擎高度兼容,为增强渲染真实感和灵活性提供了巨大的潜力。