Meta提出一种全新的环境感知音频生成模型AV-LDM
区分前景场景声音和环境背景
(映维网Nweon 2024年12月11日)为人类行为生成逼真的音频对于XR非常重要。现有的方法隐含地假设训练过程中视频和音频之间的完全对应,但一系列的声音发生在屏幕之外,与视觉效果的对应关系十分弱,甚至没有关系,从而导致测试时不受控制的环境声音或幻觉。
针对这个问题,美国得克萨斯大学奥斯汀分校和Meta提出了一种全新的环境感知音频生成模型AV-LDM。他们设计了一种新的音频调节机制来学习在in the wild训练视频中区分前景场景声音和环境背景声音。
给定一个新的无声视频,模型使用检索增强生成来创建在语义和时间上都与视觉内容匹配的音频。研究人员在两个in the wild自中心视频数据集Ego4D和EPIC-KITCHENS训练和评估模型,并且引入了Ego4D-Sounds。
实验测试表明,模型优于一系列现有的方法,并可以控制环境声音的产生。
......(全文 1535 字,剩余 1215 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限