西北工业大学团队开发DualSpec系统实现文本生成空间音频

查看引用/信息源请点击:映维网Nweon

文本到空间音频生成框架

映维网Nweon 2025年06月23日)文本到音频(TTA)是一种由文本描述生成音频信号的技术,并在近年受到了广泛的关注。然而,最近的研究主要集中在文本到单耳音频。正如我们所知,空间音频提供了比单声音频更身临其境的听觉体验,例如在虚拟现实中。

为了解决这个问题,西北工业大学团队提出了一个名为DualSpec的文本到空间音频(TTSA)生成框架。具体来说,它首先训练变分自编码器(VAEs)从声音事件音频中提取latent声学表征。然后,给定描述声音事件和事件方向的文本,使用预训练的大型语言模型的编码器将文本转换为文本特征。最后,利用latent声音表征和文本特征训练扩散模型,以用于空间音频生成。

在推理阶段,只需要文本描述就可以生成空间音频。特别地,为了同时提高空间声事件的合成质量和方位精度,研究人员提出使用两种声学特征。一种是有利于提高合成质量的梅尔谱图,另一种是有利于提高方位精度的短时傅立叶变换谱图。

他们提供了一个构建带有文本提示的空间音频数据集的管道,以用于VAEs和扩散模型的训练。团队同时引入了新的空间感知评估指标来量化生成的空间录音的方位角误差。实验结果表明,所提出方法可以生成具有高度方向性和事件一致性的空间音频。

......(全文 2072 字,剩余 1606 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/130534
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯