诺基亚与坦佩雷大学提出基于DNN的立体声编码方法,优化不规则麦克风阵列音频捕获
种利用深度神经网络估计从麦克风输入到双声信号的信号变换
(映维网Nweon 2025年03月20日)麦克风阵列信号的立体声编码可以实现各种空间音频应用,如虚拟现实。但它通常是为均匀间隔的球形麦克风阵列设计。
针对这个问题,诺基亚和芬兰坦佩雷大学团队提出了一种利用深度神经网络(DNN)估计从麦克风输入到双声信号的信号变换的方法。其中,使用由U-Net结构组成的深度神经网络,以及由平均误差、空间相关和能量保存组成的损失函数。
在多声源的模拟混响场景中,对具有规则和不规则形状的四个传声器阵列进行了验证。结果表明,所述方法在特定误差指标可以达到或超过传统的双声编码器的性能。
Ambisonics是一种独立于设备的空间音频捕获和再现表示,并广泛应用于VR/AR/XR应用。但它通常是为均匀间隔的球形麦克风阵列设计,不是主要为空间音频设计的,而且它们的形状不允许在一个球体均匀地放置麦克风。
所以,提供可以从具有任何麦克风阵列形状的设备中传递立体声信号,从而更灵活地将其用于各种空间音频应用的解决方案是有价值的。
在最小二乘意义上,Ambisonic通常视为阵列的方向响应与双声信号的方向响应,即球面谐波(SHs)之间的最优匹配问题。对于不规则数组可以采用类似的最小二乘解,得到滤波器的编码矩阵。
随着XR设备可穿戴阵列的兴起,有望提供沉浸式音频捕获,Ambisonic编码问题引起了越来越多的关注。
先前有研究人员使用卷积神经网络提高高阶SMAs的编码性能。另外,有人提出了一种基于DNN的双耳双声解码器,它基于U-Net模型,并结合了训练中的时域和频域损失。同时,有的解决方案使用模型匹配原理设计了一个可学习的基于U-Net的编码器-解码器,将麦克风阵列记录呈现为双耳信号。
诺基亚和芬兰坦佩雷大学团队则提出了一种利用深度神经网络(DNN)估计从麦克风输入到双声信号的信号变换的方法。其中,使用由U-Net结构组成的深度神经网络,以及由平均误差、空间相关和能量保存组成的损失函数。
对于这种不受特殊几何约束的基于深度学习的双声编码方法,它使用U-Net结构来估计复杂的编码矩阵,并添加了频率特定的预处理层。与仅使用U-Net相比,预处理层提高了模型性能。
团队同时提出了一种新的损失函数,引入了能量守恒和相干分量来调节模型。
团队在变声源数量和不同混响程度的条件下评估了模型,使问题更具现实性和挑战性。对由时不变滤波器矩阵组成的传统双声编码器进行评估的结果表明,所提出的方法是一种有前途的方法,在选定的指标方面,其性能达到或超过了基线方法。
相关论文:Neural Ambisonics encoding for compact irregular microphone arrays
总的来说,团队提出了一种机器学习解决方案,并用于在小型且可能不规则的麦克风阵列进行立体声捕获。
通过添加可学习的预处理和结合MAE、相干性和能量保存组件的新型损失函数,并采用U-Net架构来解决问题。对线性双声编码器的测试表明,所述方法在空间混叠频率下,特别是在不规则形状阵列上可以获得较小的幅度频谱误差,而在空间混叠频率上可以获得稍好的相干性。