米兰比可卡大学发布PAN-AR数据集,助力XR声学研究与虚拟听觉环境构建
数据集
(映维网Nweon 2025年03月19日)在一项研究中,米兰比可卡大学团队提出了一个以HOA格式编码的空间房间脉冲响应数据集PAN-AR。它包含在四个不同环境中获得的测量结果:打印室、会议室、教室和地下停车场。
数据集已记录为发射和接收位置的不同配置,包括多达六个发射位置和两个接收位置。它包括在接收位置捕获的环境噪声和球形图像样本,以及其他元数据。相关特性使得PAN-AR非常适合扩展现实应用,因为它可以在听者周围的空间中动态模拟虚拟声源。
另外,数据集有利于创建生态虚拟听觉环境,因为它包含了工人和学生日常生活中常见的场景。同时,环境噪音记录和球形图片提供了更身临其境的体验。
在环境中发射的声波反射到遇到的表面,产生声音的时间持久性。这种现象称为混响,而它受到空间位置和表面材料的影响。所以混响声音存在特定特征,包括强度、时间持续时间、音色和空间分布。
人工混响是模拟声音混响效果的过程。自20世纪60年代以来,业界目的开发了一系列数字方法。基于卷积的技术假设一个LTI系统对混响环境进行建模。尽管卷积运算的计算量相当大,但得到的混响准确地模拟了在真实环境中感知到的效果。
出于这个原因,基于卷积的技术非常适合于听觉化目的,即通过模拟在建模空间中给定位置的听觉体验,在声学环境中渲染源声场。
为了实现逼真的听觉效果,在感兴趣环境中对声源的虚拟模拟应该考虑不同的方面。考虑发射和接收位置的不同配置,应在同一环境中测量多个房间脉冲响应RIR。
另外,用单声道麦克风测量RIR对于现实的听觉过程并不够。在现实世界中,听者感知到声波到达的不同方向。在基于卷积技术的背景下,使用球形麦克风阵列可以获取空间房间脉冲响应 SRIR,它可以捕获入射声波的方向特性,使得听觉化过程的动态模拟成为可能,所以空间音频渲染可以根据听者的旋转进行调整。
空间音频信号编码的主要格式之一是Ambisonics。在XR等一系列领域的研究中,RIR都是不可或缺的工具。
在XR中,SRIR特别有趣。如何设计尽可能真实的虚拟体验是一个研究热点。SRIR可用于调查听者能够区分参考声源和模拟声源的程度。所以可以使用数种标准,包括真实性和可信性等等。另外,相关标准可以在现实-虚拟连续体的不同设置下进行评估。
例如,音频增强现实涉及将虚拟声源无缝地叠加到现有声源,而音频增强虚拟则需要使用真实世界的听觉内容。RIR所包含的各种应用程序导致了大量数据集的发布,而每个数据集都指定用于处理特定的用例。
在一项研究中,米兰比可卡大学团队提出了PAN-AR。这个HOA SRIR数据集非常适合于XR应用。
在打印机室、会议室、教室和地下停车场四个房间中,研究人员记录了不同配置的接收和发射位置的SRIR。所选择的环境和位置是为了捕获生态有效的,代表了工人和学生在日常生活中的典型经历的场景。
另外,团队考虑在每个房间中至少一种配置中,接收和发射位置已经交换。数据集同时包括其他数据,如环境噪声样本、球形图片和其他与环境有关的元数据。提供所述附加数据的目的是获得捕获环境的更全面的表示。环境噪声允许在XR场景中进行更身临其境的模拟,而球形图像提供与听者在空间中的位置一致的视觉刺激。
PAN-AR数据集在Zenodo公开可用。
总的来说,PAN-AR这个SRIR数据集包括打印室、会议室、教室和地下停车场的测量值。对于每种环境,记录了发射和接收位置的六种配置。团队通过交换接收位置与发射位置之一来获得配置之一。
另外,PAN-AR包括环境噪声样本和为接收器位置捕获的球形图像,以及用于解释环境噪声测量的元数据。