支持AR/VR等实时应用,印度团队介绍用于加速基于SfM的位姿估计的预处理技术

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

处理速度提升了1.5至14.48倍

映维网Nweon 2025年10月21日)在一项研究中,印度科学学院团队介绍了一种用于加速基于SfM的位姿估计的预处理技术,并可支持增强现实和虚拟现实等实时应用。所提出方法利用图论中的支配集概念对SfM模型进行预处理,在保持较高精度的同时显著提升了位姿估计的速度。

基于OnePose数据集,研究人员在多种SfM位姿估计技术上评估了本方法。实验结果表明:处理速度提升了1.5至14.48倍,参考图像数量和点云规模分别减少了17-23倍和2.27-4倍。这项研究为高效精准的3D位姿估计提供了创新解决方案,实现了实时应用中速度与精度的平衡。

支持AR/VR等实时应用,印度团队介绍用于加速基于SfM的位姿估计的预处理技术

新颖物体的精准位姿估计是计算机视觉领域的核心任务。这项任务需要精确识别物体的位置与朝向,对于准确操控物体或在增强现实的视频流中叠加虚拟对象至关重要。其核心挑战可简化为:给定物体的完整3D表征,如何精准定位其在图像中的位姿?

完整的3D表征无需依赖局部模型或单张2D图像即可实现精确位姿估计,从而提供更可靠的结果。物体表征方法包括RGB图像集、RGB-D图像集、3D模型以及SfM等。其中,基于单目摄像头图像重建3D结构的SfM方法以其高精度著称,但相比其他方法处理速度较慢,所以在需要快速决策的应用中成为瓶颈。鉴于SfM方法的高精度特性,探索其加速策略具有迫切需求。

印度科学学院团队提出了一种创新方法,利用图论中的”支配集”概念优化SfM表征。支配集概念常用于网络理论中的资源分配与通信优化,而他们将其应用于SfM以提升位姿估计速度。

为有效应用支配集概念(即图论中指代节点的子集,使得图中每个节点要么属于该子集,要么至少与该子集中的一个节点相邻),首先将SfM建模为图结构。图中每个节点代表一张参考图像,从参考图像𝑢到𝑣的有向边表示:在将𝑣视为查询图像时,𝑢可用于在特定定位误差阈值内精确估计𝑣的位姿。图4通过合成数据对此概念进行了可视化展示,呈现了支配集在SfM图表征中的形成方式,突出显示了支配集中的节点及展示位姿估计能力的有向边。

支持AR/VR等实时应用,印度团队介绍用于加速基于SfM的位姿估计的预处理技术

如图4所示,SfM表征的支配集可视化中:每个节点代表SfM表征中的参考图像,红框节点标识支配集。有向箭头表示一个参考节点能精准检测另一个节点位姿的能力。为清晰起见,仅显示源自支配集的边。采用力导向布局算法使参考图像基于定位精度聚集到最近支配图像周围,可见每个簇中的图像存在显著相似性。

OnePose将查询图像中的2D特征描述符与SfM表征中3D点对应的3D特征描述符匹配。使用SuperPoint特征提取器获取SfM构建和查询图像的特征描述符,3D描述符通过平均观测同一点的各参考SfM图像中的2D描述符计算得到。特征匹配采用提出的图注意力网络(GATs)实现,输出查询图像2D特征点与SfM表征3D点之间的2D-3D对应关系,再通过PnP算法计算查询图像中的物体位姿。

对于OnePose++,类似的2D-3D匹配方法,使用无检测器局部特征匹配器LoFTR寻找密集对应关系,据此构建粗糙SfM表征并细化生成用于2D点匹配的密集SfM表征。匹配器接收SfM点云和查询图像,输出2D-3D匹配对,再通过PnP算法计算位姿。

穷举匹配将每张参考图像的特征描述符与查询图像进行比对,虽全面但计算密集。使用参考图像匹配点对应的SfM 3D点作为PnP算法的物体点,查询图像中的对应2D点作为图像点。实验采用SuperPoint搭配SuperGlue或LightGlue作为匹配器。

支配集预处理通过最重要参考图像减少点云中的参考图像或点数。随机采样则是为验证支配集观测到的SfM点性能优于随机采样参考图像,对每个物体采样与支配集相同数量的参考图像,然后过滤SfM点和参考图像。结果明确显示:在相同参考图像数量下,支配集效果优于随机采样。

研究人员使用OnePose数据集的测试集(包含80个不同物体和301个验证视频)评估支配集方法及其他基线位姿估计方法。他们通过算法构建参考图像图,图中每条边通过阈值化参考图像对之间的位姿估计确定(通过将图像𝑥𝑗的2D关键点与图像𝑥𝑖的2D关键点对应的3D点匹配实现)。使用SuperPoint作为2D特征提取器,SuperGlue作为2D特征匹配器。为寻找最小支配集,迭代运行算法一千次以获得最优结果。确定最重要参考图像(支配集)后,将其应用于所有位姿估计方法进行评估。OnePose完整测试集的评估结果如表1所示,检测位姿的边界框可视化如图5所示。

支持AR/VR等实时应用,印度团队介绍用于加速基于SfM的位姿估计的预处理技术

在所有案例中,支配集方法以微小精度代价提升了帧率。尽管随机采样参考图像也提高了帧率,但未能达到支配集的性能。实验表明:支配集方法虽未获得最高精度,但其显著提升的帧率表明处理速度的大幅改善。这种精度与速度的平衡对需要基于位姿估计进行快速决策的实时应用至关重要。

研究中间像序列的支配集规模为1到35张图像,平均大小为3.9125。较大支配集主要源于某些序列的真值标注误差,因此提升真值标注精度有望改善结果。支配集与未过滤SfM模型中参考图像数量的平均比值为0.057(中位数0.043),相当于减少17至23倍参考图像。团队检测了经支配集过滤的SfM点与未过滤点的比率:OnePose的平均比率为0.44(中位数0.44),缩减倍数为2.27;OnePose++的平均比率为0.26(中位数0.25),实现四倍缩减。

当然,为获得更好效果,SfM构建的训练图像应覆盖物体所有区域。若训练图像仅覆盖物体半球面,支配集可能移除该半球边界图像(示例如图1)。当查询图像仅与已移除图像区域重叠时,精度会下降。

相关论文Accelerating SfM-based Pose Estimation with Dominating Set

https://arxiv.org/pdf/2506.03667

总的来说,团队探讨了借助支配集提升基于SfM的物体位姿估计速度。研究表明消除冗余图像可加速推理过程。通过将SfM表示为图并寻找近似最小参考图像支配集,他们实现了速度-精度权衡的优化。所提出方法将所需参考图像数量减少17-23倍,并将OnePose和OnePose++所需的点数减少2.27-4倍。未来的工作可将支配集应用扩展至更多基于SfM的位姿估计技术。尽管减少参考图像会轻微降低精度,但集成利用位姿估计历史和相关状态变化的跟踪模块可在保持实时性的前提下提升精度。

本文链接https://news.nweon.com/135283
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯