腾讯优图+复旦大学提出SVP框架:基于风格增强的生动说话人头视频生成

查看引用/信息源请点击:映维网Nweon

说话人头生成

映维网Nweon 2025年02月12日)说话人头生成THG (Talking Head Generation)是一项重要而富有挑战性的任务,它主要由音频驱动,并在虚拟现实和电影制作等各个领域都有广泛的应用前景。尽管基于扩散模型的THG方法提供了高质量和稳定的内容生成,但它们往往忽略了包含个性化特征(如说话习惯和面部表情)的内在风格。所以生成的视频内容缺乏多样性和生动性,在现实生活场景中受到限制。

为了解决所述问题,复旦大学和腾讯团队提出了一种新的框架Style-Enhanced Vivid Portrait (SVP)。具体来说,研究人员首先引入了新的概率风格先验学习,利用面部表情和音频嵌入将内在风格建模为高斯分布。通过“定制”对比目标学习分布,有效捕获每个视频中的动态风格信息。

然后,对一个预训练的稳定扩散(SD)模型进行微调,通过交叉注意注入学习到的固有风格作为控制信号。实验表明,模型可以生成多样、生动、高质量的视频,并且可以灵活地控制内在风格,优于现有的最先进的方法。

......(全文 1773 字,剩余 1412 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/127671
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯