根据单张图像重建人体模型,Meta提出ARCH++
根据单张图像重建人体模型
(映维网 2021年11月17日)数字人类已经成为众多AR/VR应用的重要组成一环,如游戏和社交。为了获得真正的沉浸式体验,虚拟化身要实现超越恐怖谷效应的更高层次真实感。建立一个照片级真实感的虚拟化身需要美术的大量手工劳动或置于受控环境中的昂贵捕获系统,而这限制了普及性并增加了成本。所以,在未来的数字人体应用中,以最小的先决条件(如自拍)革新重建技术至关重要。
最近根据单张图像重建的人体模型结合了之前的特定类别数据和图像观察。其中,基于模板的方法依然缺乏保真度,难以支持服装变化。尽管非参数重建方法逼真度令人印象深刻,但无法提供直观的方法来为重建的虚拟化身制作动画。在最近的研究ARCH中,研究人员建议在canonical空间中使用像素对齐的隐式函数来重建非参数人体模型,其中所有重建的虚拟化身都转换为公共姿势。为此,利用参数化人体模型确定变换。通过转移蒙皮权重,重建结果可以设置动画。但是,参数化身体模型和像素对齐隐式函数的优势没有得到充分利用。
在名为《ARCH++: Animation-Ready Clothed Human Reconstruction Revisited》的论文中,Facebook和加利福尼亚大学提出了ARCH++。它回顾了从图像重建可动画虚拟化身的主要步骤,并解决了先前研究在公式和表示方面的局限性。首先,当前基于隐式函数的方法主要使用手动制作的特征作为三维空间表示,其存在深度模糊和缺乏人体语义信息的问题。
为了解决这个问题,团队提出了一种基于PointNet++的端到端几何编码器,用它来表达3D人体。其次,研究人员发现获得canonical空间监督的unposing过程会导致拓扑变化(如移除自交区域),所以铰接重建无法在原始姿势空间中获得相同的精度水平。所以,团队提出了一个共同监督框架,其中占用率在posed空间和canonical空间中联合预测,并对跨空间一致性施加额外的约束。
这种方式可以从两个方面受益:posed空间中的监督允许预测保留原始扫描的所有细节;而canonical空间重构可以保证重构化身的完整性。最后,基于图像的虚拟化身重建通常会受到遮挡区域几何和纹理退化的影响。为了使问题更易于处理,研究人员首先使用图像平移网络在图像域中推断出被遮挡区域的曲面法线和纹理,然后使用模塑修复方案对重建曲面进行细化。
所提出的框架ARCH++使用了一种coarse-tofine方案,即通过学习关节空间隐式曲面函数进行初始重建,然后在两个空间中进行网格细化。
对于关节空间隐式曲面的初始重建,团队使用了语义感知几何编码器,像素对齐外观编码器和联合空间占用估计器,然后再通过添加几何表面细节和真实感纹理来进一步细化关节空间中的重建网格。如图3所示,团队提出了一种利用图像空间中估计的正面和背面法线和纹理的绘制方案。这是基于这样的观察:使用深隐函数直接学习和推断密集的法线/颜色场通常会导致过平滑的模糊图案和块伪影。相比之下,法线贴图和纹理贴图的图像空间估计产生了具有精细比例细节的锐利结果,并且对人体姿势和形状变化具有鲁棒性。所述优势来自于精心设计的2D卷积深度网络和高级(对抗性)图像生成训练方案,如GAN。图像空间估计的法线(和纹理)贴图可以以两种不同的方式进行使用。
在实验中,团队对这两种方案进行了研究,并证明基于模制的细化更能在不同视图中保持精细的表面细节。
至于后续的训练过程,其涉及学习两个目标的深层网络:Lo的联合空间占用估计,Ln和Lt的法线/纹理估计。具体而言,Lo是联合空间深层隐函数的占用回归损失,Ln,Lt是法线纹理估计网络的图像平移损失。团队使用PyTorch来实现框架,并通过一个NVIDIA Tesla V100 GPU进行训练。所提出的深度神经网络使用RMSprop优化器进行训练。
团队使用相同的度量来定量评估重建网格,并主要比较了两种最先进的方法PIFuHD和ARCH。PIFuHD以滑动窗口方式摄取高分辨率图像,以获得丰富的曲面重建细节。ARCH利用基于最近邻的线性混合蒙皮权重和RBF函数在canonical空间中重建可设置动画的化身。除了这两种最相关的方法外,团队同时纳入了多种先前的方法,并报告了RenderPeople和BUFF数据集的基准测试结果。
团队对照片级真实感渲染的合成图像以及in-the-wild图像评估了ARCH++,并证明其优于ARCH++的结果要远超出第二好的方法ARCH。
相关论文:ARCH++: Animation-Ready Clothed Human Reconstruction Revisited
总的来说,ARCH++的贡献主要包括:
-
基于点的隐式几何编码器,它能够直接提取人体形状和姿势先验信息,效率高且无量化误差;
-
第一个指出并研究确定目标占有空间的基本问题:posed空间保真度与canonical空间完整性。尽管之前被忽略,但团队概述了不同空间的优缺点,并提出了联合空间中占用字段的共同监督框架;
-
发现基于图像的表面属性估计可以解决视点不一致重建质量的问题。所提出的表面细化策略可产生360度照片真实感3D虚拟化身。
-
所述方法在基于图像的可动画化身重建任务中表现出了更好的性能。