雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

英伟达提出从单视图肖像图像重建动画3D化身头部

查看引用/信息源请点击:映维网Nweon

从单视图肖像图像重建和动画3D化身头部

映维网Nweon 2023年12月26日)利用目标图像运动(即姿势和表情)来动画化Avatar在AR/VR等领域得到了广泛的应用。然而,合成符合给定身份和动作的逼真化身提出了两个主要挑战:效率和高保真度。

针对这个问题,英伟达的研究人员提出了一种从单视图肖像图像重建和动画3D化身头部的方法。团队提出的框架不需要针对个人进行优化就可以基于单视图图像泛化到未见过的身份,而且能够捕获面部区域内外的特征细节。

利用目标图像运动来动画化源肖像图像是计算机视觉领域的一个长期课题。但如上所述的两个挑战一直困扰着行业的发展。

效率要求模型可以泛化到任意不可见的身份和运动而不需要在推理过程中进一步优化。高保真度则要求模型不仅忠实地保留输入图像中的复杂细节,而且在必要时能够产生所需的幻觉,例如当嘴巴从闭合到打开转换时生成牙齿。

基于3D Morphable Models(3DMM)的传统方法学习可以有效地预测任意来源人像图像的形状、表情、姿势和纹理的网络。然而,由于有限的网格分辨率和粗糙的纹理模型,相关方法在合成真实细节方面往往不足。另外,它们只关注面部区域,而忽略了其他个人特征,如发型或眼镜。

受生成式对抗网络显著进展的启发,其他方法开始将运动表示为一个扭曲场,将给定的源图像转换为匹配所需的姿势和表情。然而,如果没有对给定肖像图像的明确3D理解,它们只能在有限的角度内旋转头部,并会在不同的目标视图中显示扭曲伪影,非逼真的扭曲和非期望的身份变化。

最近,神经渲染在面部重建方面展示了令人印象深刻的结果。与具有固定和预定义拓扑的网格相比,隐式体积表示能够学习逼真的细节,包括面部区域以外的区域。然而,相关模型的能力有限,不能在推理过程中泛化到未见过的身份。所以,它们需要耗时的优化和特定于人员的大量训练数据来忠实地重建3D神经化身。

在名为《Generalizable One-shot Neural Head Avatar》的项目中,英伟达提出了一个框架来应对一个更实际但又更具挑战性的场景:给定一个未见过的单视图肖像图像,重建一个不仅可以捕获面部区域内外逼真细节,并且可以随时动画而无需在推理过程中进一步优化的隐式3D化身头部。

为此,团队提出了一个包含三个branch的框架,分别对肖像图像的粗糙几何、细节外观和表达进行分解和重构。

具体来说,给定一个源肖像图像,canonical branch通过生成一个具有中性表情和正面姿态的正则化三平面来重建其粗略的3D几何结构。

为了捕获输入图像的精细纹理和特征细节,团队引入了一个利用从canonical branch渲染的深度,通过将输入图像的像素值映射到正则化的3D空间中的相应位置来创建第二个三平面的appearance branch。

最后,研究人员构建了一个将具有目标表情和源身份的3DMM的正面渲染作为输入,然后根据需求修改重建表情来生成第三个三平面的expression branch。

在将三个三平面相加后,可以进行体三维渲染并生成具有源身份、目标姿态和表情的高保真人脸图像。

团队的模型在训练过程中使用大量不同身份和运动的人像图像进行学习。在推理时,它可以很容易地应用于未见过的单视图图像进行3D重建和动画化,从而消除了额外测试时间优化的需要。

英伟达提出的框架将源图像Is与目标图像It作为输入,并合成了结合源图像的身份和目标图像的运动(即表情和头部姿势)的图像Io。所提出方法的概述如图1所示。

图1

给定包含人类肖像的源图像,研究人员首先分别通过canonical branch和appearance branch重建粗略几何和细粒度的个人特定细节。为了将重建的3D神经化身头部与目标图像中的表情对齐,团队使用了现成的3DMM模型来生成将源图像中的身份与目标图像中的表情结合起来的正面视图渲染。

然后,expression branch将这个正面视图渲染作为输入,并输出一个将重建的3D角色与目标表情对齐的三平面。通过从目标摄像头视图进行体三维渲染并应用超分辨率block,团队合成了具有所需身份和运动的高保真图像。

通过canonical branch进行粗略重建

给定源图像Is描绘了从摄像头视图Cs中捕获的人体肖像,canonical branch预测一个表示为三平面Tc的粗略3D重建。为了为后续的细节外观和表情建模提供强大的几何先验,研究人员对粗略重建施加了两个关键属性。

首先,将从不同摄像头视图捕获的人脸图像的粗略重建在三维正则空间中对齐,使得模型能够泛化到从任意摄像头视图捕获的单视图人像图像。其次,强制粗略重建具有中性的表情(即睁眼闭嘴),这有利于expression branch有效地添加目标表情。

基于这两个目标,团队设计了一个编码器Ec。它将源图像像Is∈R3×512×512作为输入,并预测一个正则化的三平面Tc∈R3×32×256×256。

具体来说,他们微调了一个预训练的SegFormer型作为编码器,transformer设计可以有效地从2D输入映射到正则化3D空间。另外,为了确保Tc具有中性的表情,使用3DMM来渲染具有与源图像相同身份和摄像头姿势,但具有中性的表情的人脸。然后,通过计算L1损失和感知损失来鼓励Tc的渲染接近3DMM在面部区域的渲染:

通过在式1中设置α = αs,可以确保Ineu具有与Is相同的身份,但具有中性的表情。

如图2(c)所示,正则三平面Tc的渲染图像Ic确实具有睁眼闭口的中性表情,但缺乏细粒度的外观。这是因为将肖像从2D输入映射到正则化的3D空间是一个具有挑战性和整体性的过程。因此,编码器主要侧重于对齐来自不同摄像头视图的输入,而忽略了单个外观细节。为了解决上述问题,团队引入了一个将细节从输入图像转移到学习的粗略重建表面的appearance branch。

图2

通过appearance branch进行细节重建

appearance branch旨在捕获和重建输入图像中复杂的面部细节。其核心思想是利用规划三平面Tc渲染的深度图来计算图像中每个像素的3D位置,这样面部细节就可以准确地从2D输入图像“转移”到3D重建中。

具体来说,首先从源摄像头视图Cs中渲染Tc,得到深度图像Ds∈R128×128。基于所有像素的三维位置,研究人员构建了一个神经点云。他们没有直接使用每个像素的RGB颜色,而是使用编码器Ep从Is中提取2D特征,并将每个像素处的特征与其相应的3D位置关联起来。

因此,团队建立了一个由图像中所有可见像素组成的神经点云,并将每个点与32维特征向量相关联。这种从2D图像到3D空间的映射过程被称为“lifting”,如图1(b)所示。

为了将神经点云整合到正则三平面Tc中,团队提出了一个将神经点云转换为另一个三平面Tp的“Rasterization”过程(见图1(c)),这样它就可以直接添加到Tc中。对于Tp平面的每个位置,计算其在神经点云中的最近点,并将最近点的特征转移到平面的查询位置。图2(d)和图2(e)的对比揭示了Tp的贡献,它能够有效地将细粒度细节(例如帽子图案)从图像转移到3D重建中。

基于expression branch的表情建模

表情的重建和迁移是一项具有挑战性的任务。3DMM提供了一个可以有效地捕获常见人类表情的完善表情表示,但3DMM中的紧凑表情系数与表达基础高度相关,并且不包括空间变化的变形细节。因此,仅根据相关系数来调节网络以进行表情建模具有挑战性。

相反,英伟达提出了一个expression branch。它可以充分利用任何3DMM中的表情,并与其他两个branch无缝集成。其核心思想是使用来自3DMM的2D渲染而不是表情系数来为模型提供目标表情信息。

如图1(a)所示,给定源图像Is和目标图像It,使用3DMM预测网络分别预测其对应的形状和表情系数αs和βt。通过结合αs和βt,将正面面部图像渲染为Iexp = Rm(αs,βt, Cfront)。

然后编码器以Iexp作为输入,并产生一个三平面表情Te∈R3×32×256×256。团队通过直接将Te与Tc相加,将正则三平面Tc修改为目标表情。

请注意,他们总是在预定义的正面视图中渲染Iexp,以便表情编码器可以只关注建模表情变化,而忽略由头部旋转引起的运动变化。另外,表情编码器学习根据目标表情产生逼真的口内区域(例如牙齿),因为3DMM渲染Iexp不模拟口内区域。图2(d)显示了正则三平面和表情三平面结合绘制的图像,其中图2(b)中的目标表情通过表情三平面有效地转移到图2(a)中。

超分辨率模块

通过将源图像中的正则三平面和外观三平面与目标图像中的表情三平面相结合,可以对源图像中的人像进行重构和修改,使其与目标表情相匹配。通过体渲染,可以在期望的摄像头视图下获得人像图像。然而,体渲染的高内存和计算成本使得模型无法合成高分辨率的输出。

为了克服这一挑战,现有的研究利用超分辨率模块,将低分辨率的渲染图像或特征图作为输入来合成高分辨率的结果。英伟达团队遵循这一路线,并微调预训练的GFPGAN作为超分辨率模块。通过对二维人脸复原任务的预训练,GFPGAN学习到高保真人脸图像超分辨率的强先验。另外,其分层特征调节设计可防止模型偏离低分辨率输入,从而减轻时间或多视图不一致。

在模型训练期间,团队采用两阶段的训练计划来促进多视图一致性重建,并减少整体训练时间。在第一阶段,使用重建目标和中性表情损失来训练没有超分辨率模块的模型。在第二阶段,为了鼓励多视图一致性,只微调超分辨率模块并冻结模型的其他部分。

另外,团队使用单视图图像数据集(FFHQ)和两个视频数据集(CelebV-HQ和RAVDESS)来训练模型。

表1

表1显示的定量结果表明,英伟达的模型获得了明显更好的重建和保真度得分。所述结果突出了模型能够忠实地捕获输入图像中的细节并重建高保真3D化身头部的能力。

图3

图4

图3和图4则展示了在CelebA和HDFT数据集进行交叉身份再现的定性结果。与基线相比,英伟达的方法忠实地重建了输入人像图像中的复杂细节,如发型、耳环、眼镜等。另外,所述方法成功地合成了与目标运动相对应的逼真外观变化。

例如,模型能够在嘴巴从闭合转变为打开时合成可信的牙齿(图3中的第3行)。相比之下,基于网格的基线既不能捕获照片般的细节,同时不能幻觉出可信的口内区域。

表2

表3

表2和表3中提供了对交叉身份再现结果的定量评估。可以看到,英伟达的方法具有较好的保真度和身份保持分数,显示出较强的逼真肖像合成能力。值得注意的是,与英伟达模型训练的高保真图像相比,HDTF包含的图像清晰度较低,这可能是表2中FID分数略低的原因。

表4

在英伟达的模型中,团队的目标是通过强制canonical branch的粗略重建来消除源图像中的表情,使其具有中性表情。这确保了expression branch总是从canonical branch中激活一个完全“中性”的无表情人脸。如果不这样做,expression branch不能正确地将粗略重建修改为目标表情,如图5(e)和表4所示(即AED评分较差)。

相关论文Generalizable One-shot 3D Neural Head Avatar

总的来说,英伟达提出了一种基于单视图图像的一次性3D化身头部重建和动画框架。所述方法擅长于捕获输入人像图像中的逼真细节,同时泛化到未见过的图像,无需测试时间优化。通过对验证数据集的综合实验和评估,团队证明了所提出的方法在化身头部重建和动画方面取得了出色的性能。

本文链接https://news.nweon.com/116261
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯