清华与字节跳动团队提出单图像3D化身生成新方法SEGA

查看引用/信息源请点击:映维网Nweon

基于单图像的3D可驱动高斯化身创建方法

映维网Nweon 2025年07月31日)在虚拟现实等应用中,从有限的输入创建逼真的3D化身已经变得越来越重要。尽管神经渲染和3D高斯飞溅等进步已经令高质量的数字人类化身创建和动画成为可能,但大多数方法依赖于多图像或多视图输入,限制了它们在现实世界中的实用性。

在一项研究中,清华大学深圳国际研究生院和字节跳动团队提出了SEGA。这种基于单图像的3D可驱动高斯化身创建的新方法将广义先验模型与新分层UV空间高斯飞溅框架相结合,把从大规模2D数据集获得的先验知识与从多视图、多表情和多ID数据中学习到的3D先验知识无缝结合,实现了对未见身份的强大泛化能力,同时确保了新视点和表情之间的3D一致性。

研究人员进一步提出了一个分层的UV空间高斯飞溅框架,利用FLAME-based结构先验,并采用双分支架构来有效地分离动态和静态面部成分。动态分支对表情驱动的精细细节进行编码,而静态分支对表情无关区域进行编码,从而实现高效的参数推理和预计算。本设计最大限度地利用有限的3D数据,实现动画和渲染的实时性。

另外,SEGA执行个人特定的微调,以进一步提高生成化身的保真度和真实感。实验表明,所提出方法在泛化能力、身份保存和表情真实感方面优于最先进的方法。

清华与字节跳动团队提出单图像3D化身生成新方法SEGA

逼真3D人脸化身的创建对于虚拟现实等应用具有巨大的价值。由于高效率和高渲染质量,三维高斯飞溅已广泛用于创建逼真的三维化身。然而,相关方法通常需要视频序列甚至校准的多视图图像作为输入,而这对于普通用户来说过于繁琐或不可能实现。

在各种输入选项中,单个图像是最容易访问和用户友好的方法,使其成为广泛采用的理想选择。但由于问题固有的不适定性质,从单个图像生成高保真的3D化身依然是一项具有挑战性的任务。它需要从有限的2D观测推断复杂的3D几何和纹理信息,这往往导致深度,遮挡和精细细节的模糊性。

近年来,业内提出了数种从单幅图像或稀疏视图图像生成3D化身的方法。GPAvatar、GAGAvatar、Portrait4D和Portrait4Dv2等方法利用大规模2D数据集来增强视觉保真度,提高不同身份的泛化能力。同时,HeadGAP和One2Avatar等方法采用了可归纳的3D先验来获得高质量的结果,但需要多视图数据来获得高质量的个性化化身。

尽管有了所述进步,现有的方法依然难以同时泛化到新视点、表情和身份。这一挑战的出现是因为依赖于2D数据集的方法在从新视点和表情呈现时很容易无法保持3D一致性。另外,依赖于包含有限数量身份的3D数据集的方法往往难以泛化到未见主题。

为了解决这一限制,清华大学深圳国际研究生院和字节跳动团队提出了SEGA,它可以从单个图像中创建高质量,可驱动的3D面部化身。所提出方法的核心思想是通过结合2D和3D先验来解开身份和表情信息的纠缠:使用从大规模2D数据集中学习的先验来编码单个输入图像的身份信息,并通过3D先验来实现多视图和表情的一致性。通过利用在大规模2D人脸数据集预训练的网络提取可泛化的2D先验,并在训练过程中进一步将其暴露于多表情和多视角的3D数据中,SEGA实现了对未见身份的鲁棒泛化,同时实现了准确和3D一致的化身个性化和动画。

具体来说,SEGA方法首先使用在具有不同身份的2D大规模人脸数据集预训练的VQ-VAE网络对身份信息进行编码,增强了对未见人脸的泛化能力。另外,通过位移VAE捕获细粒度的几何细节,预测FLAME-based驱动的面部表情的前顶点位移图。两个组件端到端使用3D数据进行联合训练,以确保VQ-VAE网络捕获的2D先验与位移VAE和FLAME模型捕获的3D先验的一致性和集成性。

清华与字节跳动团队提出单图像3D化身生成新方法SEGA

SEGA进一步在UV空间中使用分层框架生成高斯飞溅表示。分层框架包括两个专门的分支:动态分支将位移VAE的latent向量与身份码相结合,预测3D高斯参数,捕获表情驱动的细粒度面部特征;静态分支仅依赖于身份码,专注于与表情无关的区域,如前额和头皮。

这种设计允许静态区域的预计算,在动画期间实现实时角色性能。通过将网络分离为动态和静态分支,独立处理人类头部的不同区域,可以提高数据效率(考虑到3D数据集的稀缺性,这是一个至关重要的优势),同时增强了模型的性能和泛化能力。注意,SEGA方法将2D UV空间的逐像素3D高斯参数回归到变形的FLAME模型,有效地利用了人脸的结构先验。最后,为了进一步完善结果,对单个输入图像执行特定于个人的微调,然后可以使用高斯飞溅从任何视点渲染逼真的化身.

如图3所示,与其他最先进的方法相比,团队提出的方法始终能够获得更高的面部表情保真度。尽管GAGAvatar能产生更清晰的视觉效果,但它在准确的表情对应方面却遇到了困难。相比之下,团队提出的方法显示出精确的表情匹配和增强的视觉真实感。

清华与字节跳动团队提出单图像3D化身生成新方法SEGA

通过全面的跨身份再现实验,研究人员证明了所提出方法在跨不同数据源的身份表情解纠缠和泛化方面的优势。如图4所示,评估跨越了三个不同的数据源:受控的NeRSemble数据集(第1-4列)、高质量多视图工作室捕获的数据(第5-6列)和具有挑战性的in the wild图像(第7-8列)。

清华与字节跳动团队提出单图像3D化身生成新方法SEGA

对于跨身份再现,团队使用另一个人的表情参数来动画一个人的化身。所有数据源的结果都表明,在准确传递表情的同时,SEGA有效地保留了身份特征,这表明表情动态和身份特征之间存在强大的分离。

同时,团队评估了分层动态-静态框架:(1)全静态,仅使用静态分支;(2)全动态,仅依赖动态分支在1024 × 1024 UV图生成高斯参数。如表2和图5所示,在保留面部细节的同时,集成这两种先验将在所有度量中产生最佳性能。另外,通过在推理过程中在较小的UV图生成高斯参数,将计算时间从240ms(动态)减少到50ms。

相关论文SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

https://arxiv.org/pdf/2504.14373

总的来说,SEGA是一种从单个图像创建逼真3D头部化身的新方法。通过将广义先验与分层UV空间高斯飞溅框架相结合,SEGA确保了鲁棒的泛化,身份保存和表情真实感。分层架构有效地分离动态和静态面部组件,实现实时性能。大量的实验表明,SEGA超越了最先进的方法,为虚拟现实等领域的化身创建提供了实用的解决方案。

当然,所提出方法存在一定的局限性。首先,由于训练数据缺乏样本,它难以识别戴眼镜或面部配件的被试的虚拟化身。其次,复杂的头发和身体建模没有完全解决,而结合相关区域的专门方法将能增强真实感。最后,所提出方法假设均匀照明,限制了不同照明条件下的真实感。未来的研究将通过整合不同的训练数据,改进头发和身体建模,以及探索更可扩展的化身渲染的重照明技术来解决相关问题。

本文链接https://news.nweon.com/131370
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
资讯