韩国科研团队开发全景图像3D理解模型HUSH
查看引用/信息源请点击:techxplore
执行各种基于全景图像的3D感知任务
(映维网Nweon 2025年07月14日)在AR和MR技术中,将数字内容叠加到现实世界空间需要人工智能系统准确地解释和表示诸如墙壁和家具位置以及物体之间的距离等信息。传统上,达到这种程度的理解需要从不同角度获取多个图像或昂贵的设备,如深度传感器。
针对这个问题,韩国蔚山科学技术院的研究人员推出了一种能够同时从全景图像中提取空间结构和内部对象细节,且精度非常高的人工智能模型HUSH。简单来说,HUSH通过对每个任务使用与任务相关的几何对齐球面谐波基函数来执行各种基于全景图像的3D感知任务。
尽管全景图像可以在一次拍摄中捕获到广阔的场景,但它们的球面畸变令精确分析变得具有挑战性。传统方法试图通过分割图像和重复应用标准人工智能模型来缓解相关问题,但这通常会导致信息丢失或计算效率低下。
为了解决所述问题,研究小组采用了球面谐波(SH),一种精确模拟全景图像球形特性的数学技术。相关解决方案将场景分解为频率分量:低频分量有效地表示天花板和地板等宽阔平坦的区域,而高频分量则捕获家具和物体等详细结构,从而提高准确性。
研究人员解释道:“球面谐波通常用于虚拟视图合成,用于表示物体或场景的颜色和照明。认识到它们在球面上分析数据的能力,我们首次创新地将SH应用于基于全景图像的空间重建。”
为了实现这一点,首先估计SH系数,允许对每个场景特定的SH基础进行自适应配置。然后,HUSH采用分层关注模块,它使用SH base作为查询,通过将自适应场景的SH base与图像特征相结合,生成全面的场景特征。另外,团队引入了一个SH base索引模块,自适应地强调相关的SH base以产生与任务相关的特征,从而增强了HUSH在不同场景理解任务中的通用性。
最后,通过将场景特征与task-specific head的任务相关特征相结合,研究人员执行了各种场景理解任务,包括深度,表面法线和房间布局估计。
与现有的3D场景重建模型相比,HUSH模型在深度预测和其他空间理解任务方面表现出非常高的准确性。值得注意的是,它可以从一张图像中推断出多个空间细节,并提供高性能和计算效率。
相关论文:HUSH: Holistic Panoramic 3D Scene Understanding using Spherical Harmonics
团队强调:“这项技术在现实世界中具有广泛的应用潜力,例如AR和MR环境,或者创建仅通过一张图像就可以实现用户交互的沉浸式媒体。”