西北工业大学团队开发DualSpec系统实现文本生成空间音频

编辑：刘余欣 | 分类：论文 | 2025年6月23日

AI 摘要

西北工业大学研究团队提出名为DualSpec的创新性文本到空间音频（TTSA）生成框架，通过双谱图引导扩散模型实现高质量空间音频合成。该系统采用变分自编码器提取梅尔谱图（保证音质）和STFT谱图（确保方位精度）的双重声学特征，结合预训练语言模型将文本描述转换为空间音频。研究团队建立了首个空间音频数据集生成管道，并开发了专门的空间感知评估指标。实验表明，DualSpec无需单声道音频参考即可生成具有精确方向性的空间音频，解决了传统方法在音质与方位精度上的权衡问题，为虚拟现实等沉浸式应用提供了新的音频生成解决方案。相关研究成果已发表在学术论文中。

本摘要由 AI 自动生成，可能与原文存在偏差。

查看引用/信息源请点击：映维网Nweon

文本到空间音频生成框架

（映维网Nweon 2025年06月23日）文本到音频（TTA）是一种由文本描述生成音频信号的技术，并在近年受到了广泛的关注。然而，最近的研究主要集中在文本到单耳音频。正如我们所知，空间音频提供了比单声音频更身临其境的听觉体验，例如在虚拟现实中。

为了解决这个问题，西北工业大学团队提出了一个名为DualSpec的文本到空间音频（TTSA）生成框架。具体来说，它首先训练变分自编码器（VAEs）从声音事件音频中提取latent声学表征。然后，给定描述声音事件和事件方向的文本，使用预训练的大型语言模型的编码器将文本转换为文本特征。最后，利用latent声音表征和文本特征训练扩散模型，以用于空间音频生成。

在推理阶段，只需要文本描述就可以生成空间音频。特别地，为了同时提高空间声事件的合成质量和方位精度，研究人员提出使用两种声学特征。一种是有利于提高合成质量的梅尔谱图，另一种是有利于提高方位精度的短时傅立叶变换谱图。

他们提供了一个构建带有文本提示的空间音频数据集的管道，以用于VAEs和扩散模型的训练。团队同时引入了新的空间感知评估指标来量化生成的空间录音的方位角误差。实验结果表明，所提出方法可以生成具有高度方向性和事件一致性的空间音频。

......（全文 2072 字，剩余 1606 字）

wx_mp