上海交通大学发布AI生成3D人脸质量评估数据集Gen3DHF
评估AI生成3D人脸的质量
(映维网Nweon 2025年08月15日)生成式人工智能的快速发展使得创建3D人脸成为可能,并可为虚拟现实等领域带来帮助。然而,由于人类感知的主观性以及对面部特征固有的感知敏感性,评估AI生成3D人脸的质量和真实感依然是一项重大挑战。所以,上海交通大学团队开展了一项关于AI生成3D人脸质量评估的综合研究。
团队首先介绍了Gen3DHF,这是一个大规模基准数据集,包含2000个AI生成的3D人脸视频,以及从质量和真实感两个维度收集的4000个平均意见得分(MOS)、2000个失真感知显著图和失真描述。基于Gen3DHF,团队进一步提出了LMME3DHF,这是一个基于大型多模态模型LMM的3DHF评估指标,能够进行质量和真实感得分预测、失真感知视觉问答(VQA)以及失真感知显著性预测。
实验结果表明,LMME3DHF在准确预测AI生成3D人脸的质量得分、有效识别失真感知显著区域和失真类型方面均取得了最先进的性能,超越了现有方法,同时与人类感知判断保持了高度一致。
随着数字通信的持续扩展,传达诸如语气、情感和个性等微妙的人类属性变得越来越重要。为应对挑战,由开创性的生成对抗网络(GANs)和扩散模型驱动的数字人已成为一种有前景的解决方案。其中,AI生成的3D人脸因其在虚拟现实和远程呈现等应用中实现逼真化身的潜力而受到特别关注。
尽管生成能力取得了显著提升,但最先进的3D人脸生成模型依然可能产生存在感知失真和非真实感伪影的输出,无法满足人类的质量期望。
人类评估能提供有价值的见解,但对于大规模评估而言,其成本依然过高且效率低下。因此,开发一种能够准确反映人类对AI生成3D人脸的感知和偏好的客观质量度量标准至关重要。然而,由于面部失真本质上不同于一般AI生成图像或常见物体的失真,现有的质量评估方法在评估AI生成的3D人脸方面存在不足。
近年来,AI生成内容质量评估研究势头强劲,业界已提出了多个用于图像质量评估(IQA)和视频质量评估(VQA)的数据集。尽管相关数据集做出了贡献,但它们主要针对通用物体和场景设计,因此不太适合评估呈现独特失真模式的AI生成3D人脸,且均未明确针对3D人脸质量评估而设计。
传统的量化指标如初始分数(IS)和 Fréchet Inception距离(FID)为整体模型性能提供了有用见解,但在评估单个生成样本的感知真实性方面存在根本性局限。传统的IQA方法虽能有效评估具有常见失真的单个自然图像,却忽略了AI生成人脸上的独特失真。
同样,现有的VQA方法忽视了3D人脸评估的专业要求。另外,相关研究仅关注质量评估,而忽视了失真区域定位这一关键需求。传统的显著图预测方法仅识别视觉显著区域,无法区分自然显著的面部区域和包含严重质量退化的区域。
在研究中,上海交通大学团队介绍了Gen3DHF。这是一个综合性的数据集和基准,包含由五个不同模型生成的2000个多样化3D HF视频样本。如图1所示,他们收集了90,000个人工标注,独立评估质量和真实感,得到4,000个平均意见得分(MOS)。另外,研究人员收集了失真标记及相应的失真描述,总计得到2,000个失真感知显著图及对应的失真描述。
基于Gen3DHF,他们进一步提出了LMME3DHF。这是一种基于LMM的度量标准,不仅旨在从质量和真实感两个维度评估3D人脸内容,而且能预测并输出显著的失真区域及其相应的文本描述。LMME3DHF利用指令微调和LoRA自适应技术来微调语言模型。大量实验结果表明,LMME3DHF取得了最先进的性能,不仅在准确预测AI生成3D HF的质量得分方面超越了现有质量评估方法,而且在有效识别失真感知显著区域和判断失真类型方面也表现出色。
如表1所示,传统手工设计的IQA指标(如BRISQUE和NIQE)在场景中表现不佳,这表明其手工设计的特征主要针对自然图像失真,无法很好地泛化到AI生成的3D人脸。另一方面,尽管基于LLM的指标因其先进的视觉理解和视觉问答能力而广受认可,但它们在准确评估感知视频质量方面存在不足。
相比之下,基于深度学习的指标(无论最初是为IQA还是VQA设计)均显著优于手工设计和基于LLM的方法。然而,尽管模型在感知质量评估方面取得了中等至较高的性能,但它们普遍缺乏视觉问答能力,而这对于提高AI生成内容评估的可解释性和诊断反馈至关重要。
团队提出的方法LMME3DHF在质量和真实感两个角度均取得了最佳性能,这证实了模型在从多角度评估AI生成3D人脸的人类视觉体验方面的有效性。
为评估模型在视觉问答任务上的性能,团队进一步比较了提出的LMME3DHF与各种基于LMM的指标的视觉问答性能,如表2所示。模型被要求识别和分类视频内容中存在的失真类型,并从预失真类别中选择。结果显示,LMME3DHF显著优于所有其他基线,在失真类型预测上达到高准确率,突显了其在感知理解和详细诊断能力上的优势。
为评估失真感知显著图预测任务的性能,团队将LMME3DHF与当前最先进的显著图预测模型(包括传统方法和基于深度学习的方法)进行比较。如表3所示,LMME3DHF在各种评估指标上均显著优于所有基线模型。这种卓越性能可归因于任务的特性,它不同于传统的显著图预测。与关注广泛视觉注意力的通用显著检测不同,任务针对稀疏的、失真感知的显著性,识别与视觉失真相关的精确区域。因此,常用的显著图预测模型并不适合这一专门任务,导致其性能受限。
图8所示的视觉比较以及图9中对Gen3DHF数据集样本图像的预测结果进一步表明,LMME3DHF优于其他显著图预测模型,清晰地展示了其在准确定位失真感知显著区域方面的卓越能力。
团队进行了消融实验以验证所提LMME3DHF框架中关键组件的贡献。表4展示了失真感知显著解码器的结果。实验(1)表明,移除来自语言解码器的特征会导致性能显著下降。实验(2)通过设置空提示进一步强调了这一情况,从而证明了文本引导的关键作用。
实验(3)表明,仅使用融合的多模态特征增强了模型预测失真感知显著性的能力。实验(4)展示了我们结合了视觉和多模态特征的方法取得了最高性能,证实了整合两种特征类型的有效性。得分预测和视觉问答的结果总结在表5中。实验(1)仅微调视觉编码器(vision encoder),在两个任务上均表现最弱。实验(2)表明微调LLM显著提升了性能,在本质上基于文本的视觉问答任务中改进尤为显著。实验(3)在得分预测任务上显示出显著改进,突显了质量回归模块(quality regression module)的有效性。实验(4)与实验(2)表现相当,表明视觉编码器在改进评估结果中作用较小。最终,实验(5)和(6)实现了最佳整体性能。其中,选择实验(5)的配置作为LMME3DHF的默认设置,因其在强劲性能和计算效率之间取得了平衡。
相关论文:LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs
总的来说,团队研究了AI生成3D人脸的人类视觉偏好评估问题。研究人员引入了Gen3DHF,它包含由五个不同模型生成的2000个3D HF视频,从质量和真实感两个维度进行评估,并标注了MOS以及失真标记-描述对。利用Gen3DHF,他们评估了最先进的质量评估模型,并为任务建立了新的基准。
基于数据集,团队进一步提出了LMME3DHF。这是一种基于LMM的评估模型,它利用指令微调和LoRA技术来执行感知质量评估,并预测失真感知显著图以及描述性解释。大量实验证明,LMME3DHF在Gen3DHF的质量评估和失真感知显著图预测任务上均实现了最先进的性能。
团队希望LMME3DHF能成为推动AI生成3D人脸生成与评估研究的有价值工具。