为逼真AR/VR手部渲染,Meta+南洋理工大学提出URHand
把图片真实感的双手带到VR
(映维网Nweon 2024年04月02日)Meta多年来一直在研究Codec Avatars,目标是实现与现实别无二致的虚拟化身。实现这个目标需要复刻人体的方方面面,包括双手。对于后者,这涉及构建逼真的可重照明手部。
构建逼真的可重照明手部模型主要有两种主要方法。一种是基于物理的渲染模型,它通过离线路径跟踪提供对各种照明的泛化,但通常缺乏实时的真实感,并且难以准确估计材质参数。另一种是神经重照明,它通过推断出的亮度直接实现实时真实感,但需要昂贵的数据增强,以泛化到自然照明。在这两种方法中,跨身份泛化都是一个挑战。
针对这个问题,Meta的Codec Avatars Lab和新加坡南洋理工大学提出了名为Universal Relightable Hands(URHand)的解决方案。大量的实验表明,所述方法在质量和泛化方面都优于现有的方法。
我们的手一整天都在做各种各样的事情,而且它们始终在我们的视野范围内。我们的眼睛可以经常看到我们的双手,这使得它们成为我们身体中最常被看到的部位之一,在自我具现中起着核心作用。
为了无缝地再现这种体验,理想数字媒介中的手部表现需要逼真和个性化,而且重要的是在任何环境中都可以轻松呈现连贯的外观。
团队的目标是能够为任何给定轻量级输入(如手机扫描)的个人快速创建这样的手部模型,并且这一切都无需提供工作室的昂贵捕获过程。
构建逼真的可重照明手部模型主要有两种主要方法。一种是基于物理的渲染模型,它通过离线路径跟踪提供对各种照明的泛化,但通常缺乏实时的真实感,并且难以准确估计材质参数。另一种是神经重照明,它通过推断出的亮度直接实现实时真实感,但需要昂贵的数据增强以泛化到自然照明。在这两种方法中,跨身份泛化都是一个挑战。
据介绍,URHand是第一个通用的可重照明手部模型,可以概括视点,姿势,照明和身份。所述模型允许使用手机捕获的图像进行few-shot个性化,然后可在新颖照明下进行逼真的渲染。为了在保留真实感的同时简化个性化过程,他们基于在具有数百个身份的Light Stage中捕获的手的多视图图像的神经重照明,构建了一个强大的通用可重照明先验。
为了实现泛化和保真度之间的最佳权衡,研究人员利用了基于物理的渲染和来自神经重光照的数据驱动外观建模。更具体地说,他们结合了已知的物理,如光传输的线性和神经重照明框架的感应偏置中的表面反射。
团队将由姿态和身份决定的非线性层与由空间变化的基物阴影决定的线性层进行调制。这显式确保了输入照明特性和输出亮度之间的线性关系。因此,它可以实现环境地图的重新照明,不需要现有模型中常用的昂贵两阶段teacher-student distillation过程。
研究人员的单阶段训练支持线性保持,使交叉同一性训练更具可扩展性,可以更好地泛化到新照明。另外,他们观察到输入阴影特征的质量直接影响最终神经重照明输出的泛化和保真度。
受最近的反向渲染技术的启发,团队引入了一个额外的物理分支,通过反向渲染来估计材质参数和高分辨率几何形状,从中产生输入照明特征到神经分支。物理分支通过减少hallucinations来防止神经分支过度拟合,并且神经分支补偿物理分支无法很好地捕获的复杂全局光传输效应,例如次表面散射。
另外,所提出的基物改进提高了跟踪几何形状的精度。将其与新颖的照明感知对抗损失相结合,所述方法在任何姿势下都可以实现高度详细的重新照明。
研究人员进行了广泛的消融研究,并与基线方法进行了比较。实验结果表明,所述方法在定量和定性上都优于其他方法。他们同时演示了URHand基于手机扫描的快速个性化,以及任意自然照明的重新照明。
团队指出,这是第一种学习一个可泛化到新视点,姿势,照明和身份的通用可重照明手部模型的方法。另外,他们提出了一个空间变化的线性照明模型,可泛化到连续照明而无需昂贵的distillation,实现了高保真的神经渲染和可扩展的多身份训练。同时,研究人员提出了一个充分利用两种方法的优点,同时实现高保真度和泛化的混合神经-物理重照明框架。