浙江大学和雷鸟团队提出一种高效的视觉定位方法SplatLoc
高效的视觉定位方法
(映维网Nweon 2025年02月25日)视觉定位在AR中起着重要的作用,它允许AR设备在预构建地图中获得六自由度的姿态,从而在真实场景中渲染虚拟内容。然而,大多数现有方法不能实现新视图渲染,并且需要大量的存储容量。
为了克服所述限制,浙江大学和RayNeo雷鸟团队提出了一种高效的视觉定位方法,能够用更少的参数实现高质量的渲染。具体来说,相关方案利用3D高斯原语作为场景表示。为了确保姿态估计的精确2D-3D对应,他们为高斯原语开发了一个无偏3D场景特定描述符解码器。
另外,研究人员引入了一种显著性3D Landmark选择算法,根据显著性评分选择合适的原语子集进行定位。他们进一步正则化关键高斯原语以防止各向异性效应,这同时提高了定位性能。在两个广泛使用的数据集进行的大量实验表明,所述方法与最先进的隐式视觉定位方法相比,具有优越或相当的渲染和定位性能。
视觉定位是一项关键技术,在AR中起着至关重要的作用。例如,视觉定位方法可以提供AR设备的全局六自由度姿态信息,并用于在真实环境中渲染虚拟内容,方便用户与物理空间的交互。
通常,经典的视觉定位方法可以分为两类:基于回归的方法和基于特征的方法。基于回归的方法通常使用卷积神经网络提取图像的高级上下文特征,并对重建环境的几何信息进行编码。PoseNet和SCRNet是从单幅图像提取特征中直接回归像素位姿或三维坐标的代表作。然而,由于缺乏几何约束,相关方法在精度方面往往落后于基于特征的方法。
基于特征的方法通常事先构建一个基于结构的场景地图(例如3D点云模型),并将每个地图原语与一个或多个3D描述符关联起来。3D一致的描述符通常是通过对从2D图像中检测到的手工特征或基于学习的关键点描述符进行多视图融合来获得。
将查询图像中检测到的2D点与3D描述符进行匹配,得到2D-3D对应关系,并用于鲁棒姿态估计]。基于特征方法的定位性能同时取决于提取的描述符的可重复性和判别能力。然而,经典的定位方法受到场景表示方式的限制,无法实现AR应用中必不可少的逼真渲染。
近年来,NeRF和3DGS已经成为神经隐式场景表示的新范式。它们使用隐式表示或显式原语来表示场景属性,并获得令人满意的高质量渲染和几何重建性能。得益于可微分的NeRF风格的体渲染和基于点的alpha-blending,基于神经的方法可以在没有3D监督的情况下以端到端方式进行参数优化。
有研究人员使用神经隐式表示来重建场景并进行姿态估计。iNeRF是首批通过最小化查询图像和预训练NeRF模型的渲染结果之间的光度误差来改进六自由度姿态的研究。NeRF-SCR和LENS则是将基于回归的视觉定位与神经辐射场相结合的代表作。它们训练一个场景特定的NeRF模型来合成高质量的新视图以覆盖整个场景空间,为优化场景坐标回归网络提供额外的训练数据。
但同样,由于缺乏几何约束,NeRF辅助式回归方法的定位性能不具有竞争力。为了施加几何约束,基于特征的方法PNeRFLoc用明确的结构表示场景,并将地图中的每个点与基于学习的描述符关联起来。
PNeRFLoc可以实现更好的定位性能和泛化能力,但与传统的基于特征的方法一样,它需要明确地存储逐点特征,这导致了大量的内存使用,使得它不适合存储空间有限的移动设备。
为了克服上述局限性,团队提出了一种高效新颖的视觉定位方法,以更少的模型参数获得更好的性能,既适合定位,又适合高质量的新颖视图渲染。
具体来说,为了减少模型参数,他们没有明确地存储逐点描述符,而是从多视图2D特征映射中构建特征体,并将其提取到特定场景的3D特征解码器中,从而避免了由alpha-blending引入的高斯原语的描述子偏差。
然后,团队提出了一种有效的显著性3D landmark选择算法,以减少由于大量高斯原语而导致的2D-3D匹配的计算开销。最后,对关键高斯基元进行位置和尺度正则化,以减少三维中心偏移。
在两个广泛使用的数据集进行的大量实验表明,所述方法与最先进的隐式视觉定位方法相比,具有优越或相当的渲染和定位性能。
相关论文:SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality
总的来说,团队提出了一种基于三维高斯原语的高效新视觉定位方法SplatLoc,而它比传统的定位方法更适合AR/VR。
当然,他们坦诚所提出方法目前有两个局限性。首先,需要深度信息或稀疏点云来重建场景。这个方法是基于3DGS,它需要点云来初始化每个高斯原语的位置。第二是不能用于大型户外场景,因为这会增加参数的数量。
在未来,团队将尝试使用视觉基础模型(例如DepthAnything)来估计RGB图像的深度。另外,考虑使用层次表示方法来将定位方法扩展到大型户外场景。