北航等团队提出LaDTalk框架,合成高保真的说话人头
合成照片逼真的说话人头
(映维网Nweon 2025年03月04日)音频驱动的说话人头生成是虚拟现实等领域的关键技术。尽管现有方法在端到端范式方面取得了重大进展,但它们在制作高频细节视频方面依然面临挑战。
这一限制促使北航大学,北京微芯区块链与边缘计算研究院,Psyche AI和阿拉巴马大学伯明翰分校团队探索一种有效的后处理方法来合成照片逼真的说话人头:LaDTalk。
具体来说,他们采用预训练的Wav2Lip模型作为基础模型,以使用其强大的音频唇对准功能。然后,利用Lipschitz Continuity理论,研究人员建立了矢量量化自编码器的噪点鲁棒性。
实验证明,引入的空间优化矢量量化自动编码器(SOVQAE)可以暂时一致地恢复基础模型的高频纹理缺陷,从而促进了真实说话人头的创建。测试结果表明,LaDTalk实现了最新的视频质量和域外唇同步性能。
合成高保真的说话人头,包括精确的音唇同步和大量的精细高频细节(毛发和睫毛等),对于增强真实感至关重要。
尽管目前的同步技术已经取得了重大进展,但容易在视频帧中产生不一致的身份,表现为牙齿闪烁和嘴唇厚度变化。这种不一致性源于严重依赖于大规模语料库的多ID训练范式。为了解决相关限制,业界已经推出了基于NeRF的方法,并在保持高保真身份方面显示了令人印象深刻的结果。
然而,这种主要基于多层感知器的方法在捕获高频细节方面遇到了挑战,这是由于“频谱偏差”的现象。另外,除了静态场景中高频区域的收敛困难外,在动态场景生成过程中保持时间一致性是NeRF模型面临的一个显著挑战。
考虑到Wav2Lip的主要缺点,即轻微模糊,北航大学,北京微芯区块链与边缘计算研究院,Psyche AI和阿拉巴马大学伯明翰分校团队提出以下问题:通过建立在Wav2Lip基础之上的有效后处理方法,是否可以获得卓越的音频驱动效果?调查证实,这确实有可能。
在研究中,他们将Wav2Lip的输出概念化为理想输出的模糊近似值,从而将任务重新定义为暂时一致的面部去模糊之一。为了解决这个问题,研究人员首先展示了矢量量化自动编码器(VQAE)在latent空间中的噪点鲁棒性。随后,引入了码本正则化损失来增强这种噪点鲁棒性,从而促进了人脸的时间一致性去模糊。
具体来说,团队介绍了一个新的框架LaDTalk。如图所示,LaDTalk利用了由Wav2Lip生成的低分辨率音频驱动视频作为中间表示,并进行了增强,从上采样视频Vup中恢复纹理细节,采用空间优化矢量量化自动编码器(SOVQAE)来产生高质量的视频Vhigh。
SOVQAE模型旨在从特定身份的高质量说话人头中学习,熟练地捕获和保留离散码本内的高频纹理信息。在框架中,团队认为Vup是Vhigh的噪点近似值。利用卷积神经网络中的Lipschitz Continuity理论,他们提出了相关的理论和经验证据,证明Vup的latent嵌入可以在离散码本空间内进行鲁棒去噪,从而准确地重建Vhigh。
另外,研究人员策划了一个原始的高频说话人头数据集HFTK,其中包括具有丰富纹理细节的视频。利用这个数据集,他们说明了框架在渲染高频面部细节方面的优势,它在保留复杂的高频纹理的同时,能够合成超高分辨率的面部图像。
对公开数据集和专有HFTK数据集进行的综合实验评估表明,LaDTalk框架在唇部同步精度和视频清晰度以及其他质量属性方面超越了现有的最先进方法。
相关论文:LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details
总的来说,团队介绍了一种利用预训练的Wav2Lip模型生成说话人头的新型后处理方法LaDTalk。利用Lipschitz Continuity理论理论,他们从理论上建立了VQAE中噪点鲁棒性的存在,然后提出了一种旨在增强这种鲁棒性的正则化损失,从而从Wav2Lip的低质量输出中实现高频纹理的暂时一致恢复。
通过广泛的实验验证,研究人员证明LaDTalk达到了新的最先进的视频质量和域外唇同步性能。