斯坦福大学等团队提出生成人体可编辑辐射场3D感知GAN框架

查看引用/信息源请点击:映维网Nweon

美国斯坦福大学,荷兰代尔夫特理工大学,以及加拿大多伦多大学

映维网Nweon 2022年12月06日)使用非结构化单视图图像的大规模数据集对3D感知生成对抗网络(GAN)进行无监督学习是一个新兴的研究领域。最近,业界证明这种3D GAN能够实现照片真实感和多视图一致的人脸辐射场生成代。

但所述方法尚未证明对身体有效。一个原因是,由于身体的关节铰接与面部相比多样性明显更高,所以学习身体姿势分布更具挑战性。然而,照片真实感人类的生成3D模型在视觉效果、计算机视觉、虚拟现实/增强现实等广泛应用中具有重要的实用价值。在相关场景中,生成的人体必须可编辑,从而支持交互式应用程序。

现有的3D GAN并不一定支持。尽管线性混合蒙皮的变体已可用于阐明单个场景的辐射场,但尚不清楚如何将这种变形方法有效地应用于生成模型。

在名为《Generative Neural Articulated Radiance Fields》的研究中,由美国斯坦福大学,荷兰代尔夫特理工大学,以及加拿大多伦多大学组成的团队提出了一个生成神经铰接辐射场GNARF。

研究人员为针对上挑战提出了自己解决方案。首先,他们演示了在包含单视图图像的数据集上以无监督方式训练的GAN生成高质量3D人体。为此,团队采用了对于训练和渲染辐射场非常有效,同时与传统的基于2D CNN的生成器兼容的三平面特征表示。

其次,作为GAN训练过程的一环,团队通过引入显式辐射场变形步骤来解决生成辐射场的可编辑性。所述步骤确保生成器以标准身体姿势合成人的辐射场,然后根据训练数据的身体姿势分布显式扭曲辐射场。实验表明,这种新方法可以生成高质量、可编辑、多视图一致的人体,并且可以应用于编辑人脸,从而提高了现有生成模型的可控性。

 

如视频所示,GNARF能够生成不同的3D人体,并通过参数化模型(如SMPL骨架和网格)对人体进行动画化。

GNARF是一种新的通用框架,用于训练具有参数化模板网格的可变形对象3D感知GAN,例如人体和面部。它以生成的神经辐射场的有效三平面特征表示作为基础,但另外应用了显式变形,这减轻了生成器学习复杂关节分布的要求。因此,生成器自动学习以规范姿势生成对象的辐射场,然后显式扭曲辐射场,从而以完全可控和可解释的方式生成目标身体姿势和面部表情。

对于如何以直观的方式指定变形场,目前社区存在一系列可能的选择,线性混合蒙皮。尽管蒙皮在人体关节中非常受欢迎,但它无法解释由于面部表情变化而产生的细微变形。另一种选择是使用特定于对象的模板网格作为框架,并使用均值坐标(MVC)对整个体三维应用基于框架的变形。然而,在全分辨率网格评估MVC的高计算成本对于GAN训练而言难以接受,更重要的是,当模板网格(意外)包括自交集时,这种方法通常会导致严重的伪影。

为了缓解所述问题,团队使用了一种直观的曲面驱动变形方法:曲面场(SF)。所述方法只需要具有对应关系的规范模板网格和目标模板网格,而它们很容易用于面部和身体。反过来,模板形状可以使用骨架、手动编辑或使用可以在其他人的视频中检测到的关键点或Landmark来驱动。

所以,SF方法通常足以应用于不同的身体部位,并且可以通过多种方式直观地进行编辑,从而实现这类体三维模型的精确体三维变形。

3D GAN框架管道概述如图2所示。StyleGAN生成器、三平面表示、身体绘制、基于CNN的图像超分辨率模块和(双重)分辨等几个组件直接从EG3D框架中采用。然而,GNARF不是用目标身体姿势或面部表情直接生成辐射场,而是在以规范姿势生成辐射场,然后应用上述变形场来扭曲特征体三维。

研究人员同时移除了生成器的姿势条件,在鉴别器中仅使用camera姿势和身体姿势条件。这就消除了生成器在规范辐射场生成中结合关于最终视图或姿势的任何knowledge的能力,确保生成的结果将具有强大的动画效果,而不仅仅是训练时渲染的图像。

因此,生成器仅依赖于输入StyleGAN2生成器的latent代码控制identity。这种架构选择利用最先进的2D生成模型架构来生成三平面3D表示。能够访问camera和身体姿势的鉴别器确保GAN学习生成精确到目标姿势的扭曲,而不仅仅是处于正确的分布中。最后,研究人员采用辐射场渲染策略,沿着扩展模板网格内的每条光线进行采样。这确保了在辐射场的区域中以最详细的方式获取积分采样,而不是在空白区域中获取,从而提高了生成结果的质量并加快了训练。

在实验中,团队首先通过对单个动态全身场景的单个表示进行过拟合来评估所提出的变形场。然后,将变形方法应用于两个身体(AIST++[和SURREAL)和面部(FFHQ)的GAN训练管道中。

AIST++是一个由10.1M张图像组成的大型数据集,捕捉了30名舞蹈演员的舞蹈动作。每一帧都配有ground truth摄像头和SMPL身体模型;SURREAL包含600万张使用SMPL身体模型创建的合成人类图像;FFHQ则是从Flickr收集的人脸高分辨率图像的大型数据集。

研究人员将所提出的曲面驱动变形方法SF与两种备选方法MVC和蒙皮进行了比较。MVC要求针对每个采样点的目标网格MD的每个顶点计算一组权重。然后,通过将标准网格MC的顶点与计算的权重线性组合,将采样点变形为标准姿势。

在蒙皮中,采样点通过点到线段距离测量的最近骨骼的刚性变换变形为规范姿势。团队发现,如果起始姿势使两个拓扑上相距较远的身体部位(例如手和骨盆)接近几何位置,这种简化的蒙皮定义可以有效地避免它们之间的混合。他们从AIST++数据集中选择多视图视频序列,并使用视图和帧的子集来优化规范姿势中的三平面特征。然后,评估扭曲到训练视图和姿势中的估计辐射场的质量,并且评估扭曲到保持的测试视图和姿势。研究人员对三平面架构进行了一定的修改,以便减少过拟合。

为了加快MVC和SF计算,他们在Open3D库中使用Quadric Error Metric Decimation抽取源和变形的SMPL网格,同时追踪源和变形网格之间的对应关系。尽管如此,计算每个变形姿势的MVC对于在线训练而言依然成本高昂(每个示例3.7秒)。因此,研究人员在固定的网格预计算训练和测试身体姿势的变形,并使用三线性插值检索任意采样点的变形。

如表1所示,SF方法在训练和测试图像方面都优于其他方法。MVC表现最差,部分原因是网格近似,这在实践中至关重要。蒙皮方法在图像质量方面与SF相当,但速度慢3倍。另外,蒙皮无法充分变形细微的面部表情。因此,SF方法最灵活,它与不同的人体部位兼容,同时提供了计算和内存效率。

接下来,他们将SF方法作为GNARF生成的特征体三维的变形方法。所述方法在捕获的AIST++和合成SURREAL数据集上进行了训练和评估。对于这两个数据集,团队的方法生成了高质量的多视图一致人体,不同姿势与目标姿势密切匹配。

由于GNARF是学习表示身体的辐射场的生成模型的一种方法,团队提出了一种基线,使用未经变形训练的原始EG3D来生成特征体(不在标准姿势中),然后使用所提出的SF变形方法在推断期间将其扭曲为各种目标姿势。

没有特征体积变形,生成器被迫学习在latent空间中建模identity和姿势。因此,三平面特征不再以一致的标准姿势表示人体,而是与数据集中姿势的分布相匹配。生成的身体的动画与提出的方法类似,除了生成的(任意姿势的)人体用作规范姿势之外,研究人员通过应用人体形状重建方法SPIN获得了SMPL网格。

如上面的视频所示,与EG3D动画基线相比,团队的方法产生了明显更好的动画效果。

另外,与不支持动画的EG3D基线相比,团队的动画方法可以生成更好的图像。这可能是由于GNARF允许生成器专注于生成规范姿势中的特定identity,而不是学习组合latent空间中的identity和复杂姿势分布。

在图3中,团队的方法产生了比基线产生的结果更好的定性结果。使用重新扭曲的EG3D的基线结果显著降低,因为很难从生成的图像中准确估计SMPL网格。另外,存在于camera视图外的辐射场中且在传统渲染图像中没有差异的浮动伪影在扭曲后变得可见。在最上方的图1中,团队展示了这一方法可以生成具有不同identity的标准姿势身体。同时,通过改变SMPL参数,可以将每个辐射场驱动到所需的目标姿态,并在任意新颖的视图中进行渲染。

GNARF同时可以应用于3D人脸,并用于生成可设置动画的模型。实验表明,变形支持参数化模型驱动的表情编辑。

当然,团队坦诚这一方法并非没有限制。例如,生成身体中的细节级别相对较低。部分原因是由于SURREAL和AIST++数据集中训练数据的分辨率有限,但其他原因包括三平面表示为任何一个身体部位提供的分辨率有限。所以,未来团队探索的一个有趣途径包括探索人体的自适应辐射场分辨率,将更多分辨率分配给突出部分。另外,面部和头发中的细节无法通过纹理生成方法来处理。

值得一提的是,团队提出了道德考虑,因为GAN可能会被不法分子用于生成真实人物的编辑图像。这种对图像合成技术的滥用会构成社会威胁。

相关论文Generative Neural Articulated Radiance Fields

概括来说,团队提出了一个可用于生成人体的可编辑辐射场的3D感知GAN框架。这一框架为关节对象(包括身体和头部)引入了一种有效的神经表示,它将最近提出的三平面特征体三维表示与由模板形状引导的显式特征体三维变形相结合。在实验中,研究人员使用了SURREAL和AIST++数据集以及使用FFHQ数据集的人脸,并展示了高质量的生成结果。

团队认为,这一研究在朝着铰接式人体和面部的真实感3D感知图像合成迈出了重要的一步。

本文链接https://news.nweon.com/103163
转载须知:转载摘编需注明来源映维网并保留本文链接
入行必读AR/VR——计算机历史第二次大浪潮
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供

更多阅读推荐......

资讯