Meta推出通用面部编码技术:实时逼真Avatar动画实现自然VR对话
通过消费者头显的摄像头实时动画化逼真Avatar
(映维网Nweon 2025年01月08日)忠实的实时面部动画是VR真实感的重要条件。为了模拟真实的交流,Avatar动画需要高效和准确:能够在数毫秒内捕获极端和微妙的表情,以保持自然对话的节奏。
面部的倾斜和不完整视图,头显按佩戴的可变性以及环境引起的照明变化是挑战。在一项研究中,Meta提出了一种可通过消费者头显的摄像头实时动画化逼真Avatar的方法。
团队提出了一种基于交叉视图重建目标的自监督学习方法,并可以将其泛化到新用户。同时,他们提出了一种轻量级的表情校准机制,它可以以最小的额外成本来提高准确性,并降低运行时效率。
另外,研究人员提出了一种改进的参数化方法以用于精确的ground truth值生成,并提供对环境变化的鲁棒性。由此产生的系统可为新用户实时生成准确的面部动画。
与先前的面部编码方法比较显示,所述方案在定量指标和定性结果方面都有显著改进。
团队的目标是建立一个使用逼真Avatar模拟面对面对话的VR呼叫服务。理想的VR呼叫系统可通过最小化信号失真来忠实地再现呼叫者的行为,通过最小化延迟来模拟面对面对话的即时性,并通过最小化头显对呼叫者行为的干扰来提供自然对话的支持。
最根本的挑战是以一种普遍的方式将失真、延迟和干扰最小化,并适用于人类多样性和各种环境。每个目标都是相互权衡。
减少失真通常会增加延迟,因为高保真度的Avatar需要更多的计算和增加的带宽;更薄的VR头显干扰更小,但面部和身体的视角倾角更大,从而导致更大的失真。
在研究中,Meta希望利用消费者VR头显的摄像头生成第一个用于逼真Avatar的通用编码器。
对于通用Avatar解码器,研究人员以通用先验模型(UPM)作为基础,并使用显式眼球模型(EEMs)和纹理分支对其进行增强。Avatar编码器和解码器通过面部编码在跨身份共享的表情空间中进行通信。
团队将相关的编码器和解码器称为Codec Avatars,并在消费者VR头显的实时3D呼叫系统中进行了演示并评估。
为了实现编码器的通用性,研究人员主要提出了三个技术贡献。
首先,他们提出了一种自监督学习(SSL)方案。他们引入了一个新视角重建pretext objective,利用来自HMC的不同摄像头视点的同步,驱动跨身份面部表情特征的学习。这一objective使得能够预训练面部编码器以学习鲁棒的自监督表情特征,然后使用与高保真度3D面部模型配对的HMC数据对编码器进行微调。
其次,团队提出了一种算法,以目标编码的形式建立跨身份和环境的HMC输入的ground truth值监督。由于VR头戴设备对上面部的遮挡,建立准确的目标编码变得复杂。为了建立这一监督数据,研究人员泛化了Schwartz等人[2020]提出的对应算法,将其扩展到考虑不同环境中引入的光照变化。
他们将风格传递函数设计为通过输入照明条件进行调制,并采用机制防止使用增加的容量来补偿表情错误。
最后,给定目标编码,训练一个端到端的通用Avatar编码器。在运行时,用户将经历一个轻量级的校准步骤,并执行预定义的锚表情。由于锚定图像是在与实际VR调用相同的会话中收集,所以它们具有与传入帧相似的成像因素,因此为约束编码提供了有用的上下文。
他们进一步引入了一个特征级校准架构,在推理时几乎没有额外的计算成本同时最大限度地减少了失真。
增强的参数化能够通过显式建模光代码来解决极端光照变化带来的限制。这能够提供更精确的HMCavatar对应。另外,轻量级的多表情校准架构在插值准确的面部运动方面取得了实质性的进展。在多个锚定表情的帮助下,团队证明了端到端面部编码系统(直接接收原始图像)在捕获个体特质和解决沉默表情问题方面有显著提高。
为了验证这些创新,他们将所提出方法与先前的方法进行了比较。研究结果表明,微调的面部编码模型可以以高保真度实时动画逼真的Avatar,并在多个指标实现最佳定量结果(例如比现有方法提高20%以上)。定性地说,所述方法可以很好捕获捉极端和微妙的表情变化,同时对特定非分布输入变化(例如戴眼镜)具有鲁棒性。
相关论文:Universal Facial Encoding of Codec Avatars from VR Headsets
总的来说,研究人员提出了一个通用的、准确的、实时的通用面部编码解决方案,适用于现成的消费者VR头显。所述编码系统能够利用大规模的自我监督预训练,并且产生的结果明显优于任何先前的方法。