Facebook AR/VR团队研究能够根据耳朵照片生成精确HRTF的可扩展解决方案
头相关传输函数对AR/VR非常重要
(映维网 2021年06月09日)Facebook Reality Labs Research(FRLR)早前曾分享了关于沉浸式音频研究方面的最新进展,并表示所述研究“与Facebook实现AR眼镜的工作直接相关”。概括而言,团队的目标是将相关技术应用到AR头显中,并允许你在嘈杂的环境中轻松地隔离人声,同时再现虚拟声音,使其听起来像是来自周围的真实世界。一个定制的头相关传输函数(HRTF)是提供这种体验的关键,但涉及过程耗时且昂贵。
所以,FRLR团队正在研究一种能够根据耳朵照片生成精确HRTF的可扩展解决方案。
日前,FRLR团队又公布了一份与所述领域的相关论文。但首先,我们先来看看为何头相关传输函数之于AR/VR的意义。
1. 什么是头相关传输函数
头相关传输函数(Head Related Transfer Function;HRTF)用于描述声波从声源到双耳的传输过程,是一种声音定位算法。当声音向我们传输而来时,HRTF将对应于我们头部的相位与频率响应。
HRTF是声音向我们传输而来时的头部相位与频率响应。其变化取决于头部与身体的构造:鼻子,耳廓,嘴巴,额头和骨头密度;肩膀,双臂,双脚…。声源发出的声波经头部,耳廓,躯干等散射后到达双耳,而这一过程声波接触的任何元素都将改变声音,令声波的频率与相位有所不同。
对于这一切,我们的大脑已经相当适应,并能够理解声音的来源方向。利用这一机制,当闭上双眼时,我们在一个安静的环境中依然可以辨别声音的来向。
总而言之,我们的双耳可充当声学定位传感器。对于头相关传输函数HRTF,它们描述了人类解剖结构对来自任何给定位置的声音所产生的影响。
HRTF取决于我们的声学解剖构造:耳朵。人类的头部与躯干构造不尽相同,耳朵形状同样如此。如果耳朵不同,声波散射的属性同样会有所不同。所以,个性化的HRTF对于构建引人入胜的沉浸式增强现实/虚拟现实系统而言非常有必要。
2. 先前方法的问题
原则上,我们可以通过声学方法测量HRTF,或者通过高分辨率3D扫描的数值模拟来合成HRTF。然而,这两种方法在逻辑和计算方面都是成本昂贵,对于大量用户来说不可扩展,这是AR/VR应用程序的一个障碍。另外,在过去的十年中,社区大量的尝试利用机器学习方法来估计HRTF个性化系统。
通常,HRTF预测模型使用耳朵人体测量特征或耳朵图像作为输入,从数据库中选择一个近似的HRTF,或者使用目标个体的特征合成个性化的HRTF。
尽管已经出现了多种预测模型,但一系列固有的问题依然未得到解决。首先,不同耳朵输入的表征能力尚不清楚。大多数以前的方法利用与耳朵相关的输入和欧氏损失函数。具体来说,人体测量的关键点通常是根据经验选择和手动标记,但目前没有令人信服的证据表明它们在预测HRTF方面具有高精度。
2D耳朵图像预测HRTF同样具有局限性。彩色图像通常受到视角和自遮挡的限制。最近的一项研究表明,HRTF中的某些信号不能从人体特征或耳朵图像中提取出来。
然后,机器学习模型(特别是深度学习)需要大量的数据,目前的HRTF数据库可能太小。
3. Facebook提出的解决方案
针对上述问题,Facebook Reality Labs的研究人员日前发表了一份名为《On the Predictability of HRTFs from Ear Shapes Using Deep Networks》的论文,其主要探讨了使用深度网络来根据耳朵形状预测HRTF。
团队的主要目标是探索与耳朵相关的输入表征对HRTF可预测性的限制。Facebook Reality Labs使用了一个更大的数据集,建立和评估具有三维点云耳朵表示的深度神经网络(DNN),从而在这种高信息量(和成本昂贵的)输入下建立HRTF估计误差的lower bound。
研究涉及645名被试,以及用于获取被试头部和上半身3D网格的Artec 3D扫描仪。团队进行了广泛的质量检查,以确保<1mm的网格代表性误差,并采用时域有限差分法(FDTD)对1米球体的左耳和右耳HRIR进行三维网格模拟。
然后,通过与声学测量结果的比较来验证模拟结果。每个网格将对应于一个三维张量,其大小沿每个维度相等。团队使用三种不同的三维张量大小:163、323和643,分别对应每个体素5.6mm、2.8mm和1.4mm。结果表明,约4mm的扫描精度足以维持模拟HRTF的整体光谱形状。
HRTF预测是一个回归问题。HRTF有360个方向和30个频率槽,而输入是3D张量。Facebook Reality Labs提出了两种不同的DNN结构来将3D耳张量映射到相应的HRTF:CNN-Reg和UNet-Reg。两个模型都允许跨方向的HRTF联合预测,并且它们在隐藏的表征空间方面有所不同。
-
CNN Reg:这个网络由一系列块组成,每个块包含卷积层、批处理规范化和ELU非线性层。团队不联合预测所有30个频率槽和360个方向,而是训练30个独立的网络,每个频率槽一个。在减小网络规模的同时,这允许团队检查频率相关模拟错误对模型性能的影响。
-
UNet-Reg:HRTF本质上是球形,即它们可以表示为跨方向的三维体积。作为CNN Reg的替代方案,团队提出了3D UNet,将3D输入映射到3D输出。与CNN Reg类似,团队同时训练了一个UNet Reg。与传统的UNet不同,由于HRTF值仅存在于球面,所以输入和输出之间没有直接的体素与体素对应关系。所以,团队在三维输出张量中定义了一个球面,然后从球体中选择360个值,并按照选定方位/高程来表示360个方向上的HRTF值。这种设计同时允许在不增加计算开销的情况下在更密集的空间网格上扩展HRTF预测。团队同时可以在三维输出张量中定义多个较小的同心球体,以包括近场HRTF预测。第二,UNet中的空间采样操作体现了耳朵和HRTF可以联合建模为超参数化隐藏表示的假设。这意味着,UNet Reg和CNN Reg中跨方向共享的信息将不同。
实验表明,用于预测HRTFs耳朵张量的DNN模型取得了最高的预测精度。另外,使用信息量大的耳形输入显示可实现误差的lower bound。当然,目前的模型依然存在改进的空间。团队表示,未来的工作包括使用知觉损失函数和改进模型设计。
更多关于论文的研究方法和实验过程请参阅《On the Predictability of HRTFs from Ear Shapes Using Deep Networks》。