诺基亚与坦佩雷大学提出基于DNN的立体声编码方法,优化不规则麦克风阵列音频捕获

查看引用/信息源请点击:映维网Nweon

种利用深度神经网络估计从麦克风输入到双声信号的信号变换

映维网Nweon 2025年03月20日)麦克风阵列信号的立体声编码可以实现各种空间音频应用,如虚拟现实。但它通常是为均匀间隔的球形麦克风阵列设计。

针对这个问题,诺基亚和芬兰坦佩雷大学团队提出了一种利用深度神经网络(DNN)估计从麦克风输入到双声信号的信号变换的方法。其中,使用由U-Net结构组成的深度神经网络,以及由平均误差、空间相关和能量保存组成的损失函数。

在多声源的模拟混响场景中,对具有规则和不规则形状的四个传声器阵列进行了验证。结果表明,所述方法在特定误差指标可以达到或超过传统的双声编码器的性能。

Ambisonics是一种独立于设备的空间音频捕获和再现表示,并广泛应用于VR/AR/XR应用。但它通常是为均匀间隔的球形麦克风阵列设计,不是主要为空间音频设计的,而且它们的形状不允许在一个球体均匀地放置麦克风。

所以,提供可以从具有任何麦克风阵列形状的设备中传递立体声信号,从而更灵活地将其用于各种空间音频应用的解决方案是有价值的。

......(全文 1104 字,剩余 698 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/128522
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯