雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Meta研究两步合成分析方法估计Avatar高分辨率人脸纹理

查看引用/信息源请点击:映维网Nweon

重建面部

映维网Nweon 2023年04月18日)近年来,虚拟现实和混合现实取得了巨大的进展,而这导致了行业对创建Avatar和人脸逼真渲染的巨大兴趣。特别是,硬件的普及将为游戏、其他家庭娱乐应用或沉浸式电话会议系统的asset创建开辟巨大潜力。

然而,在照明条件变化的情况下,从任意视点逼真地渲染人脸是一个极其困难的问题。它涉及面部几何形状和皮肤纹理的精确重建,如漫反射率、镜面增益或皮肤粗糙度。传统上,这个问题需要在专家监督下,并通过昂贵且经过仔细校准的捕获装置记录数据来解决。

在名为《High-Res Facial Appearance Capture from Polarized Smartphone Images》的论文中,由慕尼黑工业大学、马克斯·普朗克智能系统研究所、以及Meta的研究人员希望简化这一捕获过程,允许个人用户能够重建自己的面部,同时将与光照阶段相比的质量下降减至最低。

人脸的几何形状和材质的解开是一个极其不适定的问题。目前的解决方案包括一种具有多个摄像头和光源,并具有毫米精度的校准的捕获抓给你之。将面部皮肤表面与皮下响应分离的一种常见方法是,将偏振滤光片与这种昂贵的捕获装置结合使用。给定这样一个精心校准的捕获装置,可以使用可微分渲染来估计分析合成方法中的单个皮肤参数。

尽管所述方法确实产生了令人印象深刻的结果,但它们仅限于高预算的制作工作室。在研究中,团队提出了一种仅由智能手机和廉价偏振箔组成的捕获装置。其中,用户捕捉两个人脸序列,一个是垂直对齐,另一个是平行对齐。这允许进行两阶段优化,首先从交叉偏振捕获中重建用户面部的高分辨率漫反照率纹理,然后从平行偏振视图中恢复镜面反照率、法线图和粗糙度。

数据是在暗室中捕获,从而避免需要预先计算环境映射。除了视觉上引人注目的新颖视图合成和重新照明结果外,所述方法同时可以生成可编辑的纹理和面部几何图形。

方法

他们提出了一种两步合成分析方法来估计高分辨率人脸纹理,如图2所示。用户使用智能手机在线性偏振点光照明下拍摄两个视频序列和一系列面部照片。第一个序列的偏振滤光片以垂直的方式定向,即覆盖摄像头的滤光片垂直于覆盖智能手机闪光灯的滤光片。他们将所所述序列表示为交叉极化序列。

第二视频序列具有平行定向滤光片,并且称为平行偏振序列。他们在所有捕获的帧上联合使用来自运动的结构和多视点立体来计算摄像头对准,并以三角形网格的形式重建粗略的几何结构。然后,将FLAME模型[非刚性地拟合到扫描中,并将其用作基本几何模型。

这种拟合有助于避免来自多视图立体声的噪点,并提供一致的UV参数化。基于这种几何结构,团队使用交叉偏振数据和测光优化来恢复漫反照率纹理。在保持漫射反照率固定的同时,他们根据平行偏振数据估计剩余的纹理。请注意,实验只使用照片来重建纹理,因为照片比视频帧捕捉更多的细节。

对于几何重建,使用所有捕获的数据,因为与只使用一小组照片相比,这会带来更稳健的结果。

用智能手机捕获偏振数据

他们在黑暗的房间里用智能手机拍摄一个交叉偏振和一个平行偏振的视频序列,智能手机的闪光灯是唯一的照明源。这种捕获装置的优点是不需要优化场景照明,从而实现外观和阴影的更好分离。

研究人员假设闪光灯与摄像头位于同一位置,并且其颜色为白色。他们在两个滤光片方向下捕获一个颜色检查器来对两个序列进行颜色校准。这一非常很重要,因为滤光片引入了波长相关的衰减,从而使光的颜色变暗。

团队使用仿射颜色校准方案只计算一次相应的颜色校正矩阵,并将其应用于所有后续序列。另外,由于任意智能手机闪光灯的行为不像理想的点光源,他们预先计算了一个每像素的光衰减图,并在优化过程中与最终渲染图像相乘。

为此,在平坦的白色表面放置标记,并记录表面的交叉极化序列。他们形成了一个优化问题,未知的是表面的漫反射纹理和每像素的光衰减图。然后,对于所有未来的面纹理优化,贴图将保持固定。

他们确保所有拍摄都有一致且固定的摄像头设置:焦距、曝光时间和白平衡。然后,以4K分辨率和30fps拍摄,并使用拉普拉斯算子的方差作为清晰度度量,从每10帧窗口中选择最清晰的帧。除了视频数据外,团队同拍摄了一组交叉偏振和一组平行偏振的照片,以获得更高质量的数据。

由于照片的闪光灯比视频的闪光灯亮得多,他们用较短的曝光时间和较低的ISO拍摄照片,以大致匹配视频帧的亮度。整个拍摄过程大约需要五分钟。

几何重建

研究人员在所有帧上联合使用Agisoft Metashape来获得初始网格重建。他们为Metashape提供了估计的掩模,以使重建对头部的刚性运动更加稳健。然后,将FLAME模型拟合到扫描的几何体,首先通过优化FLAME面空间的形状参数,然后通过基于ICP的尽可能刚性的变形方法。

对于非刚性变形,对面区域的三角形进行细分,从而获得详细的几何图形。生成的网格将用作后续纹理优化的基础网格。

渲染方程和BRDF

他们用空间变化的双向反射分布函数(SV-BRDF)对皮肤进行建模。假设点光源l处于黑暗环境中,定义出射辐射Lo(x,ω)的渲染方程具有以下简化形式:

请注意,使用漫散射模型进行优化与最先进的基于物理的次表面散射皮肤着色相兼容,如图1所示。生产就绪的皮下散射模型通常包括反照率反演阶段,其以漫反射率为输入,并将其转换为体三维渲染随机行走的消光系数。

在优化中,光度优化步骤的目的是最大限度地减少渲染图像的差异。他们基于各自的mip level和观看方向与法线之间的角度应用每像素损失权重,从而提高清晰度。

为了考虑交叉和平行偏振滤光片设置中潜在的不同光衰减,他们同时优化了漫反射纹理的每通道缩放因子。优化完全在纹理空间中执行。在每一步中,都采用a four-level coarse-to-fine的优化策略,从512×512的纹理分辨率开始,在每一个level收敛后将大小增加两倍,直到4096×4096的最终分辨率。

研究人员在PyTorch中实现了优化框架,使用nvdiffrast作为可微分渲染器。他们将FLAME网格缩放为单位大小,并将光强度设置为10。总优化时间约为90分钟。

结果

图5显示了不同肤色演员的纹理重建。团队提出的方法能够在漫反射、镜面反射和法线贴图中重建hole级别的细节。另外,他们通过从新颖的视图和在新颖的照明下渲染网格来评估重建纹理的质量。

图6显示,所述方法在新颖的视图和照明下忠实地重建了皮肤的外观。

在优化过程中,他们提出了一个验证框架,并在所述框架计算图像度量。

  • 神经光传输是一种基于深度学习的方法,以预先计算的漫射base、光余弦和视图余弦uv space图作为输入。漫射base计算为所有观测值的平均值。余弦贴图包含法线向量和照明或视图向量之间的角度的每纹理余弦。基于所述输入以及最近邻观测,神经网络学习预测最终的阴影图像。由于所述方法不考虑光强度和衰减,因此在计算渲染误差之前,团队会优化渲染的验证图像的亮度,以尽可能接近目标。
  • NextFace首先将可变形的人脸模型拟合到输入帧,然后通过最小化目标图像和光追估计之间的照片一致性损失来估计人脸形状、姿势、照明、统计漫射和镜面反照率。在最后一步中,统计反照率在每个纹素的基础上进行细化。

如表1所示,团队提出的方法实现了良好的图像度量。图6将所述方法与NLT在新颖照明和视点方面进行了比较。NLT通过使用附近的camera视图与目标紧密匹配,但镜面高光通常是模糊的,并且训练视图的数量较少,导致模型在阴影区域产生伪影。

在使用覆盖整个面部区域的三个框架进行均匀照明的实验中,团队获得了最佳的NextFace结果。如图7所示,人脸模型拟合的不准确会导致纹理有点模糊。添加更多的帧会加剧这一问题。使用较少的帧会降低漫反射纹理和镜面反射纹理的分离度。研究人员的方法能够通过将几何模型精确地拟合到输入数据,并使用偏振来分离单个纹理来克服所述问题。

证明选择捕获装置和训练参数的合理性,他们进行了消融研究。图8显示,考虑到智能手机闪光灯的方向相关光衰减,重新渲染的图像中的误差总体较低。图8同时展示了在重建漫反射纹理时考虑菲涅耳效应的重要性。

图9展示了在没有交叉偏振的情况下优化纹理会将镜面反射信息泄漏到漫反射纹理中。

实验表示,团队提出的方法需要大约2.5个小时来重建人脸。在Nvidia RTX A6000上,照片测量皮肤纹理重建需要大约90分钟。他们使用平均420个视频帧和70张照片,用Metashape重建面部几何形状。在4096×4096的纹理分辨率和3840×2160的目标图像分辨率下,照片度量优化需要30GB的GPU内存。相比之下,在相同帧数的情况下,NLT需要大约10小时,而NextFace需要大约6小时。

当然,团队指出了所述方法的局限。尽管这一方法通过低成本的捕获手段来重建高质量的人脸纹理。但它仅限于静态表达式,即不处理动态变化的面几何体和纹理。所以,未来研究的一个途径是通过将具有一致网格拓扑的参数模型拟合到每个框架,并在整个非刚性序列上进行优化,从而重建动态表达式。

另外,所述方法没有明确处理全局照明。同时,当我们假设一张闭着嘴、闭着眼睛的静态脸时,所述方法只能恢复脸的皮肤区域。所以,眼睛、口腔内部和头发是未来研究的主题。

相关论文High-Res Facial Appearance Capture from Polarized Smartphone Images

总的来说,慕尼黑工业大学、马克斯·普朗克智能系统研究所和Meta提出了一种捕获高分辨率人脸纹理的实用且廉价方法。摄像头和光源的共同定位使团队能够降低问题的复杂性,并将材质与着色信息分离。

所以,他们获得了人脸皮肤区域的高分辨率纹理。团队表示:“我们相信,我们的研究是实现数字人脸asset创建普及的垫脚石,使其更容易支持小型制作工作室或个人用户。”

本文链接https://news.nweon.com/106983
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯