牛津大学与苏黎世联邦理工联合开发实时虚拟角色重照明技术
为实时照明铺平了道路
(映维网Nweon 2025年07月29日)从单目视频中创建可照明和可动画的人类化身是一个新兴的研究课题,具有广泛的应用,例如虚拟现实。以前的研究利用神经场和基于物理的渲染(PBR)来估计人类化身的几何形状和分离外观属性。然而,相关方法的一个缺点是由于昂贵的Monte Carlo光追而导致渲染速度慢。
为了解决这一问题,英国牛津大学和瑞士苏黎世联邦理工学院团队提出将隐式神经场(teacher)的知识提取为显式二维高斯飞溅(student)表示,以利用高斯飞溅的快速光栅化特性。
为了避免光追,对PBR外观采用分割和近似。研究人员同时提出了新的局部环境遮挡探测用于阴影计算。阴影预测是通过每像素查询一次探针来实现,而这为虚拟角色的实时照明铺平了道路。相关技术结合起来可以提供高质量的重照明结果与逼真的阴影效果。
实验表明,所提出的student模型与teacher模型取得了相当甚至更好的重照明结果,而在推理时间快了370倍,达到67 FPS的渲染速度。
在计算机视觉和计算机图形学领域,重建具有可照明外观的可动画人物是一个新兴的研究课题。它有广泛的应用,如虚拟现实。传统的方法需要密集的多视图捕获系统,但这是昂贵的,不可扩展的。为了实现可照明的外观,你同时需要控制照明条件,这进一步使捕获过程复杂化。总的来说,传统的方法由于其高成本和复杂性而无法为公众所接受。
近年来,研究人员提出了使用神经场和人体先验模型来创建可动画人类化身的方法。神经场的鲁棒性允许从单目视频中估计几何和外观属性。然而,相关方法的一个缺点是由于底层神经辐射场(NeRF)表示和基于物理的渲染(PBR)的使用而导致渲染速度慢。
为了实现PBR,现有的方法采用Monte Carlo光追,这种方法是准确的,但通常需要追踪大量的二次射线来获得高质量的PBR结果,而典型的NeRF模型只需要追踪单个主射线来渲染一个像素。所以,即便使用NeRF的各种加速技术,渲染最先进的可照明的人类化身依然效率低下,渲染一帧需要几秒钟。
随着3DGS和2DGS的出现和发展,大量的研究表明,高斯飞溅结合人体先验模型可以实现对人体化身的实时渲染。然而,相关工作大多集中在新颖性合成任务上,没有考虑到可照明的外观。
将高斯飞溅扩展到可重照明的人类头像有两个主要挑战:首先,与基于NeRF的方法相比,vanilla 3DGS不能产生高质量的几何细节,而这一点对于重照明至关重要;第二,Monte Carlo估计的PBR会产生显著的计算开销,这抵消了高斯飞溅技术实时渲染的优势。
最近的方法通过使用高效的预训练/缓存可见性模型来避免昂贵的光追。然而,它们依然需要对每个像素的可见性模型进行多次查询,从而影响了实时性能。
为了解决第一个挑战,英国牛津大学和瑞士苏黎世联邦理工学院团队使用了最近提出的2DGS表示,因为与普通3DGS相比,它可以实现更好的几何重建。研究人员注意到,在训练过程中,基于高斯飞溅的方法比基于NeRF的方法鲁棒性差,特别是当输入视图的数量有限时。
所以,他们建议将正常预测从预训练的基于神经场的teacher模型提取到明确的基于2DGS的student模型,以实现高质量的几何重建。
为了解决第二个挑战,对镜面外观使用分割和近似。研究人员同时引入了新的局部环境遮挡探针,以实现关节体的有效阴影计算。它通过对探测的单个查询实现阴影预测,而这对最终的实时渲染性能至关重要。
最后,与基于光追的PBR相比,分割和近似在物理上不太可信。因此,利用基于光追的teacher模型,在训练过程中进一步规范student模型的材质预测。
相关技术结合在一起,使得能够实现高质量的重照明结果与逼真的阴影效果,同时避免了PBR中耗时的光追,从而在任意新颖的姿势下实现实时重照明(67 FPS)。
定性结果如图3所示。R4D未能产生合理的结果,由于其无法泛化到新的姿势。因为使用了iNGP, IA往往会在特定区域(红色边界框)产生高频噪点。另外,与基于表面的student模型相比,基于体积散射的teacher模型可能会在表面内采样二次射线,从而导致更暗的阴影效果。同时,IA的有限样本计数可能导致噪点或错误估计材质。图3中的橙色边界框证实了这一点。
图4展示了真实数据集的结果。同样,IA受到iNGP和Monte Carlo估计引起的噪点影响,导致面部重照明结果模糊和有噪点。相反,由于2DGS,团队提出的模型产生了更平滑的几何形状,而基于分裂求和的外观模型不会受到Monte Carlo估计中常见的噪点影响。
如表3所示,知识蒸馏作为一种有效的正则化项,极大地提高了重照明质量。图5的定性结果证实了这一点,仅优化显式表示本身不能产生令人满意的几何形状,容易陷入局部最优,导致重照明结果有噪点。另外,如表3第二行所示,从采样姿态呈现的附加蒸馏化身成功地将teacher隐式模型的归纳偏差提炼为显式模型,使student模型能够很好地泛化到分布外的新姿态。图7证实了这一点。
另外,如果我们关闭部分遮挡探针,重照明质量会下降,如表3第二行所定量表示。图6中的橙色边界框作为视觉证据,证明了所提出的探针的必要性。遮挡探针捕获前臂和腿部上下部分之间的阴影,从而产生与ground truth图像更一致的重照明结果。
相关论文:DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting
总的来说,团队提出的DNF-Avatar可以从单目视频中重建可照明的人类化身,支持实时渲染。研究人员将人类表示为2DGS,并采用近似的PBR来计算阴影颜色。实验证明了新的局部环境遮挡探针是实现具有实时性能的逼真阴影的曲线。
他们同时证明了有必要用基于光追的teacher模型来提炼和规范模型,以获得高质量的结果。在实验中,模型达到了与teacher模型相当的结果,同时在推理上快了数百倍,在新环境照明和新姿势下实现了67帧/秒的渲染速度。