腾讯优图+复旦大学提出SVP框架:基于风格增强的生动说话人头视频生成
说话人头生成
(映维网Nweon 2025年02月12日)说话人头生成THG (Talking Head Generation)是一项重要而富有挑战性的任务,它主要由音频驱动,并在虚拟现实和电影制作等各个领域都有广泛的应用前景。尽管基于扩散模型的THG方法提供了高质量和稳定的内容生成,但它们往往忽略了包含个性化特征(如说话习惯和面部表情)的内在风格。所以生成的视频内容缺乏多样性和生动性,在现实生活场景中受到限制。
为了解决所述问题,复旦大学和腾讯团队提出了一种新的框架Style-Enhanced Vivid Portrait (SVP)。具体来说,研究人员首先引入了新的概率风格先验学习,利用面部表情和音频嵌入将内在风格建模为高斯分布。通过“定制”对比目标学习分布,有效捕获每个视频中的动态风格信息。
然后,对一个预训练的稳定扩散(SD)模型进行微调,通过交叉注意注入学习到的固有风格作为控制信号。实验表明,模型可以生成多样、生动、高质量的视频,并且可以灵活地控制内在风格,优于现有的最先进的方法。
生成式模型的最新进展揭示了在各种控制条件下生成高质量和逼真的视频等。在视频生成的所有子任务中,THG的目标是在语音和图像等条件的指导下生成说话头人视频,并由于其在虚拟现实和电影制作等场景中的广泛应用而成为了一个重要的问题。
尽管重要,但这是视频生成中最具挑战性的任务之一,因为它对伪影的容忍度一般较低,并且对唇形、面部表情和头部运动的高保真度要求很高。
继常用的生成模型之后,基于GAN的THG方法通过生成器和鉴别器之间的对抗性训练,在生成高分辨率视频方面取得了显著的效果,特别是在视觉质量和口型精度方面。
另一方面,基于扩散模型的THG方法在生成高质量、高分辨率的图像和视频方面表现突出,在生成内容的稳定性和一致性方面优于GAN,并成为了THG的主流方法。
所述方法通过强化面部关键点和头部运动序列等显式控制条件,极大地促进了THG的实现。然而,它们通常忽略了说话人头视频的重要事实。从本质上讲,当不同的人在现实生活中发表演讲时,他们在不同情况下的习惯和情绪可能会有很大的差异。
这样的事实反过来又导致了不同的属性,包括表情。所以,习惯和情感作为内在风格嵌入到说话人头视频中。这种内在风格很难从先前方法广泛采用的面部关键点等条件中推断出来。
所以,当参考面孔与风格参考视频的说话者在内在风格方面存在较大差距时,以往的方法难以准确再现真实情况。
针对这个问题,复旦大学和腾讯优图实验室团队提出了一种新的框架SVP,它可以通过自监督的方法在音频信息的辅助下有效地提取内在风格特征,并以适合扩散模型的方式将其应用于说话人头视频的生成。
这种方法不仅提高了生成视频的整体质量,确保了更好的同步和控制,而且准确地将面部表情和个性化细节转移到新面孔之上。
具体来说,SVP主要关注两个问题,即从风格参考视频中提取内在风格嵌入,并利用相关嵌入控制扩散模型。对于内在风格提取,一个简单的解决方案是遵循StyleTalk,它将风格参考视频的3D变形模型(3DMM)表情系数映射到与风格相关的特征。然而,由于视觉和表情等属性随着视频帧的变化而变化,确定性嵌入将无法对内在风格的latent多样性进行建模。
另外,作为视频的主要组成之一,在StyleTalk中没有对包含丰富内在风格信息的对应音频的使用进行探讨,导致风格嵌入不具有代表性。
为了解决所述问题,研究人员提出了一种新的基于transformer backbone的概率式先验学习方法。具体来说,每个视频的音频和视觉信息在transformer编码器中相互作用,以将视频的内在风格建模为具有预测均值和标准差的高斯分布。
通过对比学习,提取出的特征在不同身份和情绪之间呈现出显著的聚类,这不仅有助于模型更好地理解视频内容,而且为捕获和表达个体的内在风格提供了有效的方法。
在实现内在风格后,通过额外的交叉注意,以及其他条件,包括头部运动的简化面部关键点和唇形和嘴周围运动的音频,将其集成到目标视频的去噪过程中。由于设计了概率风格先验,可以从预测分布中重新采样,为风格相关信息提供足够的变化,从而使训练模型具有较强的泛化能力。
为了验证所提出方法的有效性,团队在MEAD和HDTF数据集上进行了大量的实验和比较。所述方法在多个指标方面明显优于其他竞品,包括FVD、FID、PSNR、SSIM、SyncNet和StyleSim。除了定量评估外,全面的定性评估表明,所述方法可以生成高度自然和富有表现力的手滑人头视频,并且可以根据用户需求在同一视频中产生不同的情绪甚至多种表情变化,达到满意的视觉效果。
相关论文:SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model
总的来说,通过对内在风格提取器的设计和训练,团队获得了能够充分代表风格参考视频的情感和习惯的内在风格先验。通过从风格先验和渐进式训练中采样,他们成功地将内在风格转移到新面孔。实验结果表明,SVP不仅传递了内在风格,而且提高了生成视频的整体质量,为更高级、更全面的说话人头视频生成提供了新的见解。