马克斯·普朗克研究所提出EVA框架实现高保真可驱动数字人
富有表现力的虚拟化身
(映维网Nweon 2025年09月15日)随着神经渲染和运动捕捉算法的最新进展,逼真的人类虚拟化身建模已取得显著进步,为虚拟现实和增强现实等行业应用释放了巨大潜力。然而,现有方法由于对面部表情和身体运动采用纠缠式表征,无法提供对虚拟化身完整、忠实且富有表现力的控制。
在一项研究中,马克斯·普朗克信息学研究所团队提出了EVA,一个完全可控且富有表现力的人类虚拟化身框架。它能够实现高保真度的实时逼真渲染,同时支持对面部表情、身体运动和手势的独立控制。具体而言,所提出方法将人类虚拟化身设计为一个双层模型:一个富有表现力的模板几何层和一个3D高斯外观层。
首先,他们提出了一种富有表现力的模板跟踪算法,利用由粗到精的优化策略,从多视角视频中准确恢复身体运动、面部表情和非刚性变形参数。接着,研究人员提出了一种新颖的解耦式3D高斯外观模型,旨在有效分离身体和面部的视觉外观。与统一的高斯参数估计方法不同,苏提出方法采用两个专门且独立的模块来分别建模身体和面部。
实验结果表明,EVA在渲染质量和表现力方面超越了最先进的方法,验证了其在创建全身虚拟化身方面的有效性。这项研究代表着向完全可驱动的数字人体模型迈出了重要一步,使得创建能够忠实复制人体几何形状和外观的逼真数字化身成为可能。
在快速发展的数字领域,创建逼真的虚拟人类化身对于虚拟现实和增强现实等应用变得越来越重要。化身弥合了现实世界交互与数字空间之间的鸿沟,实现了逼真的远程临场感和沉浸式虚拟体验。然而,现有方法要么仅提供身体层面的控制,要么无法准确捕获身体动力学。这促使业界努力开发富有表现力的化身:提供对身体、手部和面部的完全且解耦的控制;呈现动态运动和表情的逼真渲染;实现实时推理。
研究人员已经探索了各种人体表征方法,以从多视角视频或3D扫描创建可动画的化身。早期方法使用带纹理贴图的模板网格进行新视角渲染,但缺乏照片级的真实感。近期工作将神经渲染与人体模板相结合,以实现具有控制能力的逼真渲染。例如,使用规范神经辐射场NeRF结合神经混合权重场进行骨架驱动的变形,但它们难以处理衣物褶皱,且模型推理速度慢。
其他方法则从UV或正交空间中的位置或法线图预测3D高斯分布,实现了实时的逼真渲染,但受限于基础模板,无法实现精细的面部控制。
为了改进这一点,人们引入了如SMPLX等富有表现力的模板。ExAvatar在SMPL-X上预测姿态相关的高斯偏移量,但未能捕获动态的衣物外观。同样,DEGAS从身体姿态和视觉表情编码器DPE估计高斯参数,但仅限于基于图像的面部表情控制。
为了应对相关挑战,马克斯·普朗克信息学研究所团队提出了EVA,一个完全富有表现力且解耦的可动画化身框架,能够根据身体运动、表情参数和任意视角生成实时、逼真的人体渲染(见图1)。
与先前要么依赖于受限于骨骼变换和简单蒙皮的网格模板,要么使用像SMPL-X这样缺乏精确衣物动力学的参数化模型的方法不同,EVA使用了一个可变形且完全可控的模板层作为更具表现力的几何代理。在此基础上,团队提出了一个解耦的高斯外观层,它在实现逼真渲染的同时,提供了对身体、手部和面部的细粒度控制。
所提出方法在训练过程中利用了演员的密集多视角视频及相应的运动跟踪结果。这一方法始于一个富有表现力的模板几何层,构建并跟踪一个完全可控且可变形的模板。受前人启发,团队提出一个渐进式变形过程来初始化个性化的头部化身,并使用基于缝合的方法将其与运动驱动的可变形模板集成。接着,他们引入一个多阶段跟踪流程,将模板配准到多视角视频。
为了提高表情精度,利用多视角面部关键点和逐帧3D重建来优化身体运动。然后,专门从多视角图像中恢复面部表情参数。随后,采用基于运动的变形学习方法来恢复粗略的衣物变形。
为了实现照片级逼真的渲染,在模板的2D UV空间中构建了一个3D高斯外观层。与先前的3D高斯化身模型不同,解耦高斯外观层分离了身体姿态和面部表情,允许独立的参数控制。具体来说,身体和面部的3D高斯分布分别由两个2D U-Net预测,它们分别由以根节点为中心的身体运动和面部表情驱动。由于现有数据集没有同时捕获多样化的面部表情、手势和身体运动,团队引入了一个包含广泛身体运动、详细的面部表情和变化手势的全新数据集,以验证所提出方法并解决现有数据集的局限性。
他们将EVA与两种在多视角数据上训练且仅依赖运动参数进行角色动画的实时人体渲染方法进行比较:(1) DDC,这种基于网格的方法的几何通过学习的图变换和顶点位移建模,外观通过学习到的动态纹理表示;(2) ASH,这种混合方法利用DDC生成的可动画模板网格建模几何,并用高斯飞溅建模动态外观,但它缺乏对面部表情的显式控制。并行研究DEGAS的代码未公开,无法比较。尽管如此,DEGAS在推理时需要面部图像来驱动表情,这与团队所提出方法(仅需面部表情参数即可驱动面部)形成鲜明对比。
如表1所示,EVA在新视角合成以及新视角、新姿态和新表情合成方面均定量优于竞争方法,但DDC在新视角合成上获得了略高的PSNR——这可能是因为它使用了所有帧而非采样帧进行训练。尽管面部仅出现在部分评估图像中且在2K帧中占据较小区域,但他们显式地使用面部表情信息、解耦的模型结构和训练策略共同作用,在渲染质量以及对未见过的姿态和表情的泛化能力上都带来了显著提升。
图6中定性地比较了EVA与ASH和DDC在新视角合成以及新视角、新姿态和新表情合成方面的效果。EVA捕获到了详细的面部表情,而ASH和DDC未能准确再现它们。ASH从身体姿态推断表情,导致不正确的面部外观。DDC由于缺乏3D高斯分布且依赖动态纹理,产生的结果真实感较低,并遗漏了动态细节。两种方法都因缺乏面部表情建模而产生带有伪影的模糊结果。最后,ASH容易过拟合,而团队的方法通过解耦和有效的正则化克服了这一限制。
他们进行了多项消融研究,以评估关键设计选择和训练组件的贡献。消融设置包括:(1) 不含IDMRF损失的模型;(2) 不含运动相关DDC变形(仅由蒙皮模板网格驱动)的模型;(3) 纹理嵌入尺寸更小的版本(面部64×64,身体128×128);(4) 未显式解耦头部和身体的模型;(5) 不以表情参数作为输入的变体;(6) 为头部外观预测添加额外身体特征作为输入的变体;(7) 未分离几何和外观U-Net的版本。
表2使用LPIPS和PSNR指标,对这些消融设置在新视角合成以及新视角、新姿态和新表情合成方面进行了定量比较。EVA在所有消融变体上表现最优。值得注意的是,未解耦的变体以及添加了额外身体特征的变体在定量性能上有所下降,因为网络常常学习面部表情与身体运动之间错误的相关性,而非正确的解耦行为。另外,缺少IDMRF损失会导致感知质量显著下降。
图7展示了消融研究的定性结果。完整的EVA模型比缺乏解耦或在头部外观预测中引入额外身体特征的变体产生了更高质量的结果。同时,模型能够独立改变面部表情和身体姿态而不影响另一方,突显了所提出方法的表达能力。相比之下,没有面部表情输入的消融设置无法准确重建面部外观,而纹理嵌入尺寸较小或缺少IDMRF损失的变体产生了明显更模糊的结果,进一步强调了这些设计选择的重要性。重要的是,缺少学习到的DDC变形的变体无法重建宽松的衣物。
当然,EVA在富有表现力人体的逼真渲染方面迈出了重要一步,但依然存在一定的局限性。首先,其基于网格的表征无法处理拓扑结构变化。未来的研究可以探索分层表示(如可学习的衣物层)以获得更大的灵活性。EVA同时固定了描述身体的高斯数量,限制了多尺度渲染。分层高斯模型可能同时提供全局结构和精细细节。为头部和身体使用分离的高斯纹理可能在颈部造成轻微的视觉不一致。在边界添加一致性损失可能有帮助。而且,当前的独立预测无法建模跨区域的照明或阴影。光照通过潜在表示建模,受限于训练时工作室的照明条件。未来可能受益于将基于物理的渲染与富有表现力的全身化身相结合。
总的来说,EVA是一种用于实时、高质量且富有表现力的人类化身渲染的新方法。EVA在实现卓越真实感的同时,提供了对化身表情和骨骼运动的完全控制。其核心在于,EVA利用了一个富有表现力的人体模板:它集成了面部、手部和身体控制,并结合了分布在化身表面的3D高斯分布。为了确保对面部表情和身体姿态的精确且独立的控制,团队引入了对身体和头部的3D高斯预测进行显式解耦。研究人员相信,EVA为XR环境等用例的未来研究和创新奠定了坚实的基础。