雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Bang & Olufsen提出基于对比学习的房间声学盲估计与生成方法

查看引用/信息源请点击:映维网Nweon

实验强调了这种方法在感知方面的可行性

映维网Nweon 2025年02月25日)对于AR中的音频,理解用户的真实声学环境对于呈现无缝融入环境的虚拟声音至关重要。由于声学测量在实际的AR应用中通常不可行,所以需要从可用的声源中推断房间的信息。然后,可以用相同的房间声学质量渲染额外的声源。至关重要的是,它们放置在不同的位置,而不是说可用的估计源。

对于这一点,Bang & Olufsen和芬兰阿尔托大学团队建议使用通过对比损失训练的编码器网络,将输入声音映射到仅表示房间特定信息的低维特征空间。然后,训练一个基于扩散的空间房间脉冲响应发生器,在给定新的源-接收位置时,利用latent空间产生新的响应。

对于AR远程呈现,声学的基本任务是渲染虚拟声源,无缝集成到真实的声学场景。要做到这一点,虚拟声源必须以双耳方式呈现,并结合用户房间的声学环境。由于不可能对每个用户的声环境进行专门的测量,所以必须根据真实场景中的音频信号盲估房间声学。所以,盲估感知有效的空间房间脉冲响应(SRIRs)最为重要,它包含了在给定房间中特定源和听者位置呈现虚拟源的时间和方向信息。

盲估脉冲响应的传统DSP方法通常使用交叉关系方法,采用多个分布式麦克风,或自适应滤波技术,如最小均二乘或频域最小二乘,以识别密切参考和更多混响目标之间的响应。这种一般思想同样应用于SRIR估计,其中所谓的伪参考是通过远场波束形成,去噪或两者的组合获得,并利用多个空间分布麦克风的信号作为目标。

另外,业界提出了用于盲估RIR的深度学习方法。它们通常具有从真实混响信号中提取房间声学信息的编码器和使用所述信息合成相应RIR的生成器。另外,盲估参数算法的目的不是生成完整的RIR,而是输出可以很好解释的房间声学参数,如混响时间(RT)和直接与混响能量比(DRR)。

业界已经开发了一系列的算法来解决这个问题,包括基于深度学习的方法。给定这样的参数估计,然后可以使用不同的生成器来创建RIR。先进的数据驱动生成器包括FAST-RIR等神经网络。但目前尚不清楚需要估计什么参数,以及需要多大的生成器复杂性才能达到给定应用的足够感知质量。

总之,研究员已经探索了数种基于不同编码器和生成器的盲估全RIR方法,要么对它们进行端到端训练,要么使用两种单独的算法进行参数估计和RIR生成。然而,现有的方法缺乏两个对现实世界的AR应用至关重要的特性。

首先,大多数方法(包括迄今为止引入的所有基于深度学习的方法)仅用于单通道RIR估计,不包含多通道的通道间关系中固有的声环境方向特征。尽管并非所有的空间细节都与获得优秀的感知质量有关,但至少正确的直接声音方向和早期反射的合理分布是双耳呈现所必需的要素。

其次,大多数方法的目的都是基于一个特定的真实声源重新合成一个特定的RIR,而声源需要隔离活动以实现最准确的估计。但在AR中,用户可以很容易地发现自己处于包含多个活动声源的声学场景中。同时,目标通常是将声源呈现在不同于实际声源所占据的新位置。

所以,Bang & Olufsen和芬兰阿尔托大学团队的目标是生成一个感知合理的新反应,确保渲染的声音可以感知到,就好像它位于同一个房间的一个新位置。因此,它应该包含所有特定房间和特定位置的基本特征。

在研究中,他们提出了基于编码器的Blind SRIR生成,编码器经过训练,仅编码特定于房间的信息,即相对于房间中源和接收的特定位置不变的特征。房间特定的特征是从整个声学场景中提取,而声学场景由多达三个声源组成,而不是单个声源。

编码器使用对比学习进行训练。然后,团队展示了编码器输出的房间特定特征如何与场景特定信息(即源和接收的位置)一起使用,以使用基于扩散的生成器生成SRIR。

他们使用四个通道进行空间分析和渲染,并研究了生成器架构的三种变体,突出了最相关的选择。然后,根据混响时间、产生的DRR和直接声音的到达方向(DoA)来分析产生的SRIR。

在线听力的示例强调了这种方法在感知方面的可行性。

相关论文Blind Spatial Impulse Response Generation from Separate Room- and Scene-Specific Information

总的来说,团队提出了一种Blind SRIR生成方法,首先从完整的声学场景中提取房间特定特征,然后在给定任意源和接收位置的未观测位置生成SRIR。

尽管生成的SRIR物理方面不准确,但客观指标表明,它们同时捕获了房间和位置的特定特征。考虑到AR应用程序,下一步需要进行听力实验。它应该确定当与使用ground truth值响应在不同位置呈现的其他声源进行比较时,听者是否无法检测到声源是否使用生成的响应进行渲染。

最后,模型的未来版本应该使用测量数据进行训练和测试,所以需要新的大规模SRIR数据集。

本文链接https://news.nweon.com/127978
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯