腾讯+上交大团队提出音频驱动的多情感3D面部动画生成方法
音频驱动的情感3D面部动画
(映维网Nweon 2025年01月09日)音频驱动的情感3D面部动画旨在生成具有同步嘴唇运动的情感表达Avatar。然而,之前的研究往往忽视了不同情绪对面部表情的影响。
针对这一不足,上海交通大学和腾讯团队提出了一种新颖的音频驱动方法EmoFace,并旨在用于创建具有生动情感动态的面部动画。
所述方法可以产生多种情绪的面部表情,并且能够产生随机而自然的眨眼和眼球运动,同时保持精确的嘴唇同步。独立的语音编码器和情绪编码器可以学习音频、情绪和相应面部控制器之间的关系,并最终映射到控制器值的序列中。
另外,团队介绍了致力于提高动画真实性的两种后处理技术,特别是在眨眼和眼球运动方面。
团队表示,所提出的方法可用于在虚拟现实环境中驱动Avatar。定量和定性实验,所述方法在驱动3D面部模型方面表现出优异的效果。
上海交通大学和腾讯团队指出,随着虚拟现实技术的不断发展,Avatar的创作需求日益增长。通过创造Avatar,我们可以将自己置身于虚拟世界中,并通过Avatar进行交流。这种方式带来了多个优势,包括更高级别的匿名性和隐私性。
然而,即便是最小的缺陷都会在Avatar中引发恐怖谷效应,从而大大降低接受度。传统而言,Avatar可以通过基于视觉的方法生成。但当用户戴上头显时,面部表情的捕获变得不太可行。
在这种情况下,使用音频输入作为生成Avatar是一种更合适的方法。一般来说,现有的音频驱动面部动画生成研究主要可以归纳为三类:
-
基于视频的生成:通过编辑目标人物的视频,实现音视频同步
-
基于图像的生成:使用一个或多个面部图像作为原型进行生成,并在动画中作为帧进行编辑
-
基于模型的生成:使用控制器rig或面部网格来驱动模型或渲染面部动画
以往的研究大多集中在基于视频和图像的生成方法方面,很少有研究关注基于模型的生成方法。对于VR而言,使用基于模型的方法更为合适,因为目标角色是以3D模型的形式出现。
这项任务的主要挑战源于语音音频不仅仅包含口语文本的音素,而且包含与面部表情相关的线索。所以,说话人头不仅要与讲话同步,而且要通过表情传达说话人的情绪状态。
尽管业界在音频驱动的面部动画研究方面取得了显著的成功,但在多情绪生成领域的探索相对有限。另外,相当大比例的现有数据集主要基于英语记录,缺乏中文记录的数据集。
汉语和英语在语音方面存在非常大的差异,使用英语数据训练的模型来制作中文音频片段可能会导致面部动画不准确。同时,当前数据集以音频和视频对的形式出现,视频和rig控制器值之间复杂的映射关系驱动3D模型很难学习。
所以,现有的数据集不能直接用于模型训练。为了解决这个问题,团队提出了一个包含七种不同情绪的中文视听数据集。通过后处理,他们提取了视频中每一帧对应的控制器值。
除了构建数据集外,研究人员同时提出了一个针对数据集的基本人脸生成模型。模型可用于多种情绪下的人脸生成。它以音频剪辑和期望的情感作为输入,为每一帧生成相应的控制器值来驱动MetaHuman模型。
然而,考虑到每次记录的持续时间相对较短,数据集包含的眨眼和眼球运动实例很少。所以,学习眨眼、眼睛注视和说话之间的强大相关性变得具有挑战性,这可能会导致生成的说话人头出现不自然的细节。
为了解决这个问题,研究人员引入了独立的眨眼和眼睛注视控制模块。眨眼控制器从其他数据集中获取眨眼频率数据,并学习控制眨眼行为的随机规则。
另外,注视控制器产生微妙的眼球运动,增强面部动画的自然度。同时,他们将音频和情感信息作为输入,并产生驱动MetaHuman模型的控制器值,从而提高面部动画生成的精度。
总的来说,研究人员介绍了一种新方法来生成由音频输入驱动的多情感3D面部动画。所提出的EmoFace模型采用预先训练的音频编码器来提取必要的音频特征,然后将其与情感编码相结合,通过Audio2Rig模块生成面部控制器值。
另外,在系统中加入了辅助眨眼和眼睛注视控制器,以确保更逼真的效果。为了训练模型,团队提出了一个情感视听数据集,并推导出每帧的控制器rig。从本质上讲,EmoFace擅长于用情感音频输入为MetaHuman模型动画,并产生具有卓越嘴唇同步和情感表达面部表情的结果。