研究员提出Emo3D数据集及指标推动三维面部表情生成研究
在虚拟现实和情感人机交互等方面有着广泛的应用
(映维网Nweon 2025年03月05日)现有的三维面部情绪建模受限于有限的情绪类别和不足的数据集。针对这个问题,伊朗谢里夫理工大学和卡塔尔计算研究所团队介绍了一个广泛的“文本-图像-表情数据集”“Emo3D”,涵盖了广泛的人类情感,每个数据集都与图像和3D混合形状配对。
利用大型语言模型,团队生成了各种各样的文本描述,促进了广泛的情感表达的捕获。使用这个独特的数据集,他们对基于语言的模型的微调和视觉语言模型进行了全面的评估,同时该任务引入了一种新的评价指标,以更直接地衡量所传达的情感。
在评估与人类情感相关的3D面部表情的视觉文本对齐和语义丰富度方面,新评估指标Emo3D证明了其优于均方误差(MSE)指标。团队指出,“Emo3D”在虚拟现实和情感人机交互等方面有着广泛的应用。
将角色情绪自动转换为3D面部表情是数字媒体中的一项重要任务,因为它有可能增强用户体验和真实感。面部表情生成(FEG)在各个行业都有广泛的应用,包括虚拟现实。
之前的研究主要集中在为2D或3D角色生成面部表情,并通常依赖于一组有限的预定义类或由音频线索驱动。然而,人们越来越需要更好地控制复杂多样的人类面部表情的产生。
近期研究通过使用文本提示在这一领域取得了显著进展,提供了一种更直接的方法来解决早期研究中普遍存在的有限控制挑战。然而,使用文本提示的的主要问题是它们对情感的文本描述的关注有限。
大多数研究没有深入探讨情感背景,并没有提供一个综合文本描述和3D FEG的解决方案。另外,缺乏包含情感文本和相应3D面部表情的数据集,阻碍了实际应用的FEG模型的开发和训练。同时,这一研究领域缺乏可靠的基准和标准化的评估指标,进一步使FEG模型的评估复杂化。
针对所述问题,伊朗谢里夫理工大学和卡塔尔计算研究所团队提出了将情感描述转换为3D面部表情的数个基线模型。这包括预训练语言模型的微调;基于CLIP的方法,以及Emotion-XLM(这个架构用于增强语言模型的功能)。
FEG模型性能如表2所示。很明显,当使用团队提出的Emo3D指标进行评估时,带有回归单元的CLIP模型显示出优越的性能。
研究结果表明,MSE和Emo3D指标并不一致。当检查3D模型输出时,可以观察到根据Emo3D指标表现更好的样本同时表现出更接近输入提示的视觉相似性。这可能是因为在度量中,Emo3D优先考虑视觉文本对齐和接近性,倾向于在使用MSE的3D空间中捕获比距离度量更丰富的语义信息。
相关论文:Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description
总的来说,团队介绍了一个综合的“文本-图像-表达数据集Emo3D,涵盖了广泛的人类情感及其文本描述,并与图像和3D混合形状配对。他们使用语言模型来生成提示,捕获了各种情感表情和描述。
“Emo3D”是一个全面的FEG数据集,包含了足够多样化和复杂的情绪描述。另外,团队开发了一个有效的评估指标,从而为三维图像合成模型提供了一个可靠的基准。在整个工作过程中,研究人员测试了数种单模态和多模态模型作为基线。
“Emo3D”的意义在于它有可能推进3D面部表情合成,在虚拟现实和情感人机交互等方面具有前景。
当然,团队表示未来有必要增强数据集,包括寻求与熟练的动画师合作。