北航等团队提出LaDTalk框架,合成高保真的说话人头
合成照片逼真的说话人头
(映维网Nweon 2025年03月04日)音频驱动的说话人头生成是虚拟现实等领域的关键技术。尽管现有方法在端到端范式方面取得了重大进展,但它们在制作高频细节视频方面依然面临挑战。
这一限制促使北航大学,北京微芯区块链与边缘计算研究院,Psyche AI和阿拉巴马大学伯明翰分校团队探索一种有效的后处理方法来合成照片逼真的说话人头:LaDTalk。
具体来说,他们采用预训练的Wav2Lip模型作为基础模型,以使用其强大的音频唇对准功能。然后,利用Lipschitz Continuity理论,研究人员建立了矢量量化自编码器的噪点鲁棒性。
实验证明,引入的空间优化矢量量化自动编码器(SOVQAE)可以暂时一致地恢复基础模型的高频纹理缺陷,从而促进了真实说话人头的创建。测试结果表明,LaDTalk实现了最新的视频质量和域外唇同步性能。
......(全文 1301 字,剩余 995 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限