Facebook研究为空间音频进行更好的信号增强
语音处理
(映维网 2021年11月04日)近年来,使用空间处理算法从干扰扬声器、混响和/或环境噪声所造成的噪点环境中提取清晰语音的能力一直备受追捧。从仅提取感兴趣信号中获益的常见用例包括自动语音识别、助听器信号增强、在线语音聊天、视频会议及其他众多应用,例如在嘈杂的餐厅中实时增强语音。
业内认为,跨数据方法是降低信号噪点的稳健解决方案。例如,在空间信号增强领域,人们已经广泛研究了波束形成器的算法(如延迟和求和算法)和超定向算法(如最大方向性和差分麦克风阵列)。
其他更为优化的方法需要源和非期望噪点的统计知识。最小方差无失真响应(MVDR)和线性约束最小方差(LCMV)等方法提供了分离两种类型信号的最佳滤波器系数,同时不会使所需信号失真。LCMV公式允许对多个传递函数(如果可用)进行线性约束。仅依赖于期望或非期望的推断以及两者的混合信息的替代公式称为最小功率无失真响应(MPDR)和线性约束最小功率(LCMP)方法。
尽管上述方法能够在已知信号参数的情况下提供最佳解决方案,但仅从信号估计参数依然具有挑战性。业内存在几种空间滤波器参数估计方法,但它们通常假设语音源信号,并通常考虑是否已经发生语音的时间活动和概率。它们通常分类为语音活动检测器或流行的单通道语音存在概率(SPP)。
SPP同时有用于多通道阵列研究,以利用空间域确定不同空间位置的语音概率。所述方法基于这样一个假设:语音要么是感兴趣的目标信号,要么两者兼而有之。这种假设限制了语音方法的能力,特别是当干扰源可能是音乐、交通工具、动物或在时间或频谱上与语音不相似的其他来源时。
其他技术使用长时间历史记录和统计数据来分离数据源,这可能导致实时应用程序中的长延迟。鉴于仅依赖语音信号的局限性,已改名为Meta的Facebook在名为《Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation》的论文中提出了一种空间信号增强方法。
所述方法独立于期望和非期望源信号的频谱和时间统计,仅利用空间域处理技术进行自适应参数估计。当存在非语音的空间噪声源时,算法对源信号类型的独立性尤为重要。团队假设每个源向接收样本贡献一部分信号,并且相对贡献与样本在估计空间源参数中的有用性相关。在所述假设下,研究人员从初始到达方向(DOA)估计开始,并跟踪以确定源的位置。所述位置用于播种LCMV过程,然后用于确定每个源对当前接收信号的相对源贡献估计(SCE)。SCE值用作自适应学习噪声混响环境中声源统计参数的权重,而所述统计参数同时用于计算最终一组MVDR滤波器的参数。最终滤波器用于执行空间信号增强,从而增强选定的期望声源。用于最终MVDR的参数反馈到第一个LCMV中,因此能够随着时间的推移自适应地细化。
在实验,团队模拟了在不同混响时间内记录语音。房间尺寸为6 m×7 m×3 m,使用Eyring公式调整墙壁吸收系数,使混响时间在0.15 s到0.9 s之间变化。总共有6个不同的RT60值。所述信号是用343ms −1的声速来模拟,采样频率16 kHz。带有6个等间距话筒的圆形话筒阵列的中心位置为(2,3.5,1.5)。在30 dB SPL的水平上,将高斯白噪声传感器噪声添加到所有接收信号中。三个语音源N=3随机放置在麦克风阵列周围,距离为1米到2米,角度间隔大于20度,方位角和仰角在±10度以内 。然后,团队从20组随机位置分析性能,处理接收到的信号。
当有清晰的语音片段时,空间自适应返回与真实活动密切相关的SCE。算法在混合源信号段中保持稳定性能。特定场景为算法确定正确的参数提供了明确的机会,从而使其能够实现与理想MVDR的紧密匹配。在更困难的场景中,只有一个源处于活动状态,从而限制了算法学习正确参数的能力。所述算法在阵列增益增加的情况下自适应地提高了性能。阵列增益的增加速度如图2所示,当L=8时,在不到2秒的时间内与性能匹配。值得注意的是,在图3中,无论L如何,30s后的值收敛于类似性能。阵列增益都在大约1s内超过“Max Directivity”波束形成器。
图4分析了阵列增益性能。对20组随机位置使用并重复与图2中的方法类似的方法。自适应在12秒后暂停,以确保分析反映了最大性能。所述方法的阵列增益略低于Oracle性能,但明显高于“Max Directivity”情况。所述方法的峰值性能平均达到17 dB,比“Oracle”方法的18 dB低1 dB。对于宽带语音范围,所述方法的平均性能仍比“Oracle”方法低1 dB至2 dB,且始终比“Max Directivity”方法的阵列增益高4 dB至9 dB。另外,作为RT60函数的性能显示了阵列增益和混响的反向相关性。对于所有混响级别,所述方法的最大性能与“Oracle”MVDR相似,因为它暴露于部分时间分离的源信号中。这一方法比等效的“Max Directivity”波束形成器(900毫秒的RT60)的阵列增益高7 dB以上。
总的来说,团队在这项研究中提出了一种方法来自动估计统计参数的空间滤波过程。所述方法估计环境中被跟踪源的空间能量贡献,并使用所述贡献乖离环境的统计表示。然后,研究人员从自适应行为、自适应速度和阵列增益收敛性能等方面对所述方法进行了分析。
相关论文:Adaptive Multi-Channel Signal Enhancement Based on Multi-Source Contribution Estimation
结果表明,所述方法能够正确地适应给定的一般初始化条件和噪点环境。自适应可以匹配理想空间滤波器的性能,并且当使用较小的缓冲区大小时,可以在不到两秒钟的时间内产生优于最大方向性波束形成器的阵列增益。由此产生的空间滤波器具有无失真约束,并且所述方法不限于语音源。