基于高斯飞溅交互渲染用于创建可照明可动画的Avatar
以更快的速度渲染更高质量的结果
(映维网Nweon 2025年01月20日)从多视角或单目视频中创建可照明和可动画Avatar是数字人类创作和虚拟现实应用的一项挑战。以前的方法依赖于神经辐射场或光追,导致训练和渲染过程缓慢。
通过利用高斯飞溅,浙江大学,伦敦大学学院,犹他大学团队提出了一种简单有效的方法,可以将身体材质和照明从稀疏视图或单目视频中分离出来,这样Avatar就可以在新的视点、姿势和照明下以交互帧率同时渲染。
具体而言,首先使用SDF获得规范体三维网格,并为每个网格顶点分配属性。然后,规范空间中的高斯函数从附近的体网格顶点进行插值以获得属性。随后,使用前向蒙皮将高斯属性变形到posed空间,并将可学习的环境照明与高斯属性结合起来进行阴影计算。
为了实现快速的阴影建模,研究人员从密集的视点对人体网格进行栅格化,以获得可见性。团队指出,所述方法不仅简单,而且足够快,可以在环境光线变化的情况下进行角色动画的交互渲染。实验表明,与以往的研究相比,所提出方案可以在合成数据集和真实数据集上以更快的速度渲染更高质量的结果。
创建逼真人类化身是一个挑战。为了实现高度的视觉真实感,Avatar应该能够在各种姿势和照明下动画。现有的高质量创建方法需要昂贵且复杂的设备,从而限制了推广。
通过从多视图RGB视频中学习,一系列的研究已经成功地使用NeRF或3DGS建模高质量的Avatar,但它们未能泛化到未知照明条件。这个关键的限制是由于它们将依赖于视图的颜色烘烤到高斯或神经场,没有考虑材质的固有属性。
最近有研究尝试将身体材质与未知照明下拍摄的视频分离,从而在新的环境光下实现重新照明。相关方法通常基于神经体三维渲染,在规范空间中定义,并通过神经网络的推断得到材质的属性。阴影是通过从camera投射光线,采样空间点,并将它们反向包裹到规范空间以获得材质属性来计算,然后通过渲染方程进行评估。
尽管这种神经渲染技术取得了很好的渲染效果,但其设计本身在训练和渲染方面都比较慢。这是因为管道使用多层感知器(MLP)网络对场景信息进行编码,需要多次推断以获得密度和颜色,而这需要花费相当多的时间。尽管特定方法采用了基于iNGP的特征编码来加速推理过程,但渲染图像依然需要对每个像素进行多次采样,使得获得渲染结果的时间过长。
团队提出的方案可以从多视角或单目视频中创建一个可照明和可动画的Avatar。
3DGS已经成功地以实时帧率建模高质量的可动画Avatar。然而,结合3DGS以有效地构建可照明Avatar并非易事。首先,在重照明任务中,需要对每个高斯的信息进行编码,以便在不同的光照条件下计算阴影颜色。其次,需要解决的问题是如何有效地渲染可照明的人体,特别是当存在身体自遮挡造成的阴影时。
为了解决上述问题,团队提出了一种新的高斯表示,用于在动画期间重照亮角色。他们首先在规范空间中定义一个体三维网格和高斯函数,网格顶点和高斯函数可以通过SMPL动画到posed空间。
高斯属性由网格顶点属性插值而来,包括基本高斯属性和材质属性。在高斯优化中,研究人员同时优化了基本高斯属性、材质属性和环境光,以便在新的照明条件下计算新的阴影颜色。
具体来说,首先训练一个SDF来获得规范的身体网格,并初始化身体网格附近的高斯原语。身体网格顶点包含属性,包括基本的高斯属性和材质属性,LBS权重,法线和位置位移。对于每个高斯函数,其属性都是从附近网格顶点的属性中插值出来。
在动画过程中,高斯函数首先添加位置位移,然后通过前向LBS变形到posed空间。在posed空间中,通过显式积分渲染方程计算高斯的阴影颜色,然后将其输入高斯渲染器输出最终图像。
整个过程可微分,允许通过基于梯度的优化直接优化材质属性和环境映射。在训练过程中,团队提出了一种额外的密度化方法来控制网格表面上的高斯密度,防止新视图合成中的孔洞,并添加尺度损失以避免由拉伸高斯引起的伪影。
对于可见性计算,将身体网格变形到posed空间,并从密集的视图方向对网格进行栅格化,以计算给定姿态和视图方向下网格顶点的可见性。由于硬件加速栅格化用于快速可见性计算,它允许在交互帧速率下进行重照明计算。
另外,研究人员通过优化属性实现了外观的单视图编辑,允许用户轻松地自定义Avatar的外观。团队使用合成和真实数据集定量和定性地评估方法。
结果显示,与以往的先进技术相比,所提出方法可以在新的姿态合成和新的照明下提供更好的渲染质量。消融研究已经证明了设计在增强照明效果方面的有效性。他们同时证明了渲染速度足够快,可以交互式地可视化重照明结果。
相关论文:Interactive Rendering of Relightable and Animatable Gaussian Avatars
总的来说,给定一个人在未知光照下的稀疏视图或单目视频,团队提出的方案可以创建一个可照明和可动画的人体。基于3DGS的渲染框架、基于K近邻的属性获取和基于网格栅格化的可见性计算,所述方法实现了高质量的重照明和交互渲染速度,为数字人类和虚拟现实提供了更广泛的应用。