清华大学与字节跳动团队提出参数化高斯人体模型PGHM
旨在从单目视频中进行快速且高保真的化身重建
(映维网Nweon 2025年10月20日)逼真且可动画化的人体化身是虚拟现实/增强现实的关键使能技术。尽管3DGS的最新进展极大地提升了渲染质量和效率,现有方法依然面临根本性挑战,包括耗时的逐主体优化以及在稀疏单目输入下的泛化能力差。
在一项研究中,清华大学和字节跳动团队提出了参数化高斯人体模型PGHM。这是一个可泛化且高效的框架,它将人体先验知识整合到3DGS中,旨在从单目视频中进行快速且高保真的化身重建。
PGHM引入了两个核心组件:
(1) 一个UV-Aligned Latent Identity Map,它将特定主体的几何和外观紧凑地编码到一个可学习的特征张量中;
(2) 一个Disentangled Multi-Head U-Net,它通过条件解码器分解静态、姿态相关和视角相关的成分来预测高斯属性。
这种设计能够在具有挑战性的姿态和视角下实现鲁棒的渲染质量,同时允许高效的主体适应,而无需多视图捕获或漫长的优化时间。实验表明,PGHM比从零开始的优化方法效率显著更高,每个主体仅需约20分钟即可产生视觉质量相当的化身,从而证明了其在实际单目化身创建中的应用潜力。
逼真且可动画化的人体化身是2D和3D视觉中的一个关键研究方向,赋能虚拟现实/增强现实等应用。传统的基于网格或基于点的人体化身分别存在根本局限性——预定义的拓扑结构和非结构化的表示——这阻碍了逼真化身的创建。近年来,尽管NeRF的出现显著提升了人体化身的质量,但其固有的渲染速度慢和优化成本高仍然是根本性瓶颈。
最近,显式的3DGS表示已成为一项突破性技术,它结合了加速的渲染速度和卓越的视觉质量,从而极大地促进了逼真人体化身的创建。
然而,当前的高斯化身方法依然面临根本性挑战。一方面,基于多视图视频输入的人体化身(例如Animatable Gaussians)通过引入姿态相关的高斯图,实现了高质量的渲染结果和姿态相关的动态效果,但每个主体需要1-2天的训练时间。同时,多视图输入需要复杂的数据捕获设备。
另一方面,基于单目输入的化身将3DGS与SMPL-UV或SMPL-X几何模型结合来学习姿态相关效应,但存在模糊和缺乏外观细节的问题,因为单目输入由于观测不完整和训练数据固有的局限性,往往难以泛化到多样或未见过的姿态。
因此,要实现从单目输入高效且高质量的人体化身,关键在于开发一个可泛化的参数化模型,能够从大规模数据中学习人体先验,同时保持3D高斯的表示优势。清华大学和字节跳动团队认为,将参数化人体先验融入基于高斯的人体化身至关重要,因为它能够通过学得的先验实现快速的主体特定适应,并在具有挑战性的输入条件下实现更鲁棒的性能。
在研究中,他们提出了参数化高斯人体模型Parametric Gaussian Human Model/PGHM,它从大规模数据中学习可泛化的化身先验,同时能够快速适应新主体。模型通过两个关键设计实现这一点:
首先,引入了UV-Aligned Latent Identity Map,它将身份特定属性(如面部特征和衣物几何)编码到一个紧凑的、可学习的特征张量中。这种方法不同于GaussianAvata仅依赖UV位置图获取姿态信息。这一设计通过利用UV-Aligned Latent Identity Map作为身份的控制信号来增强原始框架。在微调阶段,可以仅优化此图来有效捕获个性化特征。这一方法有助于快速微调和改进的身份控制。
其次,为了更好地学习高斯属性,提出了Disentangled Multi-Head U-Net,它通过姿态/视角条件解码器显式地建模静态、动态和视角相关效应,从而在未见过的身份、多样姿态和具有挑战性的视角下实现一致的性能。
综合起来,通过从结合了精选的MVHumanNet和DNA-Rendering 数据集的大型人体数据集中学习到的参数化高斯先验,实现了鲁棒且高保真的人体化身,使得能够从单目视频快速适应个性化化身。与同期工作Vid2Avatar-Pro 相比,所提出方法在单目输入个性化化身的优化时间上达到了相当的水平,而Vid2Avatar-Pro每个身份还需要额外36-48小时进行网格模板重建。实验证明,所以出方法实现了SOTA 化身渲染质量和化身训练效率。
研究人员主要将所述方法与GaussianAvatar和ExAvatar进行了比较,后两者都是基于3DGS构建人体化身的方法。为定量评估性能,采用了成熟的图像质量指标,包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似度(LPIPS)。所有指标均在整张图像上计算,背景设置为白色。在两个基准数据集展示了定量评估结果。
如表1和表2总结所示,所提出方法在一系列综合指标上超越所有现有基线,展示了在恢复细粒度动态外观细节和更合理的衣物运动方面具有卓越能力。图7和图4所示的定性比较证明了所述方法相对于基线方法的优势,产生的重建结果具有显著增强的细节保真度和准确的姿态相关动态纹理信息。
在NeuMan数据集上,ExAvatar保持了合理的细节水平,但在THuman4.0数据集上表现不佳,其性能受到复杂的正则化约束限制,导致结果过度平滑和细节模糊。相比之下,GaussianAvatar方法未能有效解耦光照和运动,导致不真实的光照伪影。所提出方法通过两个关键创新解决了这些局限性:引入学习到的先验以减少对重度正则化的依赖,有效解耦姿态和光照信息,从而产生更准确和富有表现力的重建结果。
为了进一步验证提出的先验和架构有效性,团队进行了一系列消融实验,以系统分析每个组件对我们框架整体性能的贡献。
学习先验的有效性:图5全面分析了学习先验的影响。子图(a)-(d)对应于在预训练了不同数量身份(具体为0、6、60和600个ID)的身份图上进行微调的模型。子图(e)展示了联合微调身份图和多头U-Net后的结果。结果清楚地表明,扩大先验训练中使用的身份数量显著增强了身份图的表示能力。随着预训练身份数量的增加,身份图对未见个体表现出更强的泛化能力,并在微调期间实现更快的收敛。
另外,即使只微调身份图,重建的几何和纹理细节也明显更丰富、更合理,突显了我们先验学习策略的好处。然而,由于可用训练数据多样性和规模的固有局限性,需要进一步联合微调身份图和多头U-Net以实现纹理和几何的更高保真度。重要的是,可以观察到两阶段微调方法极大地提高了训练效率:与从头开始训练模型相比,所述方法使用少一个数量级的优化步数(例如,2,000步 vs 20,000步)即可获得优异结果。
Multi-Head U-Net架构的有效性:图6评估了Multi-Head U-Net设计在解耦姿态和光照效应方面的功效。在每组结果中,子图(a)和(d)描绘了真ground truth;(b)和(e)显示了单头U-Net的输出;而(c)和(f)展示了我们Multi-Head U-Net模型的结果。比较表明,Multi-Head U-Net显著增强了合成输出的真实感和准确性。具体来说,解耦外观和光照在(c)中产生了更合理的光照,而(f)中更好地保留了更精细的动态细节(如衣物褶皱),与真实图像非常接近。相比之下,单头U-Net的结果(b, e)明显更暗且缺乏关键的动态纹理细节,突显了其在建模光照和精细外观方面的局限性。这些结果强调了Multi-Head U-Net架构在生成详细、物理一致的重建方面的优越性。
总体而言,消融研究表明,学习到的先验和Multi-Head U-Net架构都在我们方法的成功中扮演着关键角色。学习到的先验增强了身份泛化并加速了收敛,而Multi-Head U-Net则实现了姿态和光照的有效解耦,从而产生更真实、更详细的人体重建。
总的来说,PGHM是一个新颖的框架,它将参数化人体先验集成到3D高斯飞溅中,以实现高效且高保真的单目人体化身重建。通过引UV-Aligned Latent Identity Map和Disentangled Multi-Head U-Net,PGHM能够在具有挑战性的姿态和视角下实现快速的主体特定适应和鲁棒的渲染。与现有方法相比,所提出方法实现了高效训练,每个主体仅需约20分钟,同时保持有竞争力的视觉质量。
当然,所述方法目前存在两个主要局限性。首先,它依赖于输入视频序列来优化身份图,这限制了其在主体数据有限的情况下的使用。未来的工作将探索端到端的前馈架构,能够直接从更少的图像推断身份特征,减少逐主体优化的需求。其次,所述方法对于穿着宽松或飘逸衣物(如裙子或长袍)的主体效果较差,这是由于建模大的非刚性变形存在挑战。解决所述问题将使系统更加鲁棒和广泛适用。