得克萨斯大学为AR/VR提出有效估计和模拟环境声学的新方法ActiveRIR
查看引用/信息源请点击:techxplore
它利用了强化学习,仅依赖于少数声学样本来生成高质量的声学模型
(映维网Nweon 2024年06月03日)一系列的计算工具可以帮助创建VR或AR内容,使得工程师能够生成真实世界环境的逼真模型,包括旨在可靠地表示不同室内环境的物理特性如何转换声音的环境声学模型。
在得克萨斯大学奥斯汀分校,研究人员提出了一种有效估计和模拟环境声学的新方法ActiveRIR。其中,它利用了强化学习,仅依赖于少数声学样本来生成高质量的声学模型。
研究人员表示:“‘效率’是指在新的3D环境中使用有限的声学测量集来估计整个场景的声学。估计场景声学可以促进AR/VR应用,因为在AR/VR中,人们希望为3D场景呈现空间合适的声音。”
用于声学建模的传统方法只能在分析从环境中收集的大量音频样本之后进行可靠的估计。这使得它们不切实际,因为它们会耗尽VR/AR设备的电池,并且需要很长时间来进行估计。
团队解释道:“考虑到这一点,我们曾经提出过环境声学的few-shot视听学习,目标是使用其中的极少数视听样本来预测场景声学。然而,这项研究和其他并行研究的局限性在于,它随机选择场景中的几个点来收集样本,这可能是次优的,因为随机选择的点可能不是捕获整个场景声学的最佳样本集。另外,它们假设环境平面图的先验知识,这可能不适用于未曾见的环境,并忽略了物理覆盖所有随机选择的点所需的时间和精力,使其与现实世界的应用程序有点脱节。”
作为研究的一环,得克萨斯大学奥斯汀分校的团队开始使用一种所谓的主动声学采样的新方法来解决他们之前提出的环境声学建模方法的局限性。这项任务需要使用在未知3D环境中移动的具体代理,同时积极决定在哪里收集最有助于估计环境声学的视听样本。
他们指出:“代理的运营既有时间预算,也有样本预算。时间预算确保代理高效导航,样本预算确保代理不会收集没有提供环境声学重要信息的样本。这两个预算的结合通过限制任务所用的时间和能量来提高声学估计任务的效率。”
研究团队引入的ActiveRIR模型由两个相互补充的主要部分组成。第一个是视听采样策略,而第二个是声学估计模型。
他们解释道:“采样策略拍摄环境的第一人称视听快照,并做出两个重要决定:a)如何在场景中移动,以及b)在哪里收集样本以估计场景声学。然后,声学估计模型采用这些样本,并不断改进对整个场景声学的估计。这两个组成部分有着共生关系。”
ActiveRIR的两个组件紧密合作,并最终生成逼真的环境声学模型。采样策略与声学估计器共享信息量最大的视听样本,使其能够可靠地估计给定环境的声学。反过来,声学估计器帮助采样策略将具体代理引导到收集样本对声学预测最有利的地方。
研究人员在一系列测试中评估了他们的方法,并将其性能与其他声学估计技术进行了比较。他们发现,这一采样策略比许多现有的运动规划和声学样本采集方法表现得要好得多,包括学习在场景内新位置采集样本的最先进技术。
团队表示:“我们的框架是模块化的,具有足够的通用性,可以支持多种不同的声学估计模型,这表明它有可能用于提高你选择的任何现有现成模型的采样效率。”
研究团队引入的新方法很快就会在更广泛的环境中进行测试。最终,它可以帮助制作更多可以逼真地再现特定3D场景声音的VR和AR内容。
相关论文:ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling
团队补充道:“到目前为止,我们在一个高度逼真的室内场景模拟平台测试了我们的模型。但展望未来,通过评估ActiveRIR在真实室内空间中对物理机器人的作用,探索弥合模拟与现实世界之间的差距将是一件有趣的事情。”