研究团队提出嵌入式GPU定向FAST特征检测加速方法

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

相较于广泛使用的GPU版OpenCV,平均加速比超过7.3倍

映维网Nweon 2025年10月23日)基于视觉的SLAM技术广泛应用于虚拟现实等领域,其核心是通过视觉图像检测特征点来构建未知环境地图并同时确定自身位置。这项技术通常对硬件功耗、处理速度和精度有着严格要求。当前基于ORB(定向FAST和旋转BRIEF)的SLAM系统在处理速度和鲁棒性方面表现出色,但仍无法满足移动平台实时处理需求。这主要是由于耗时的定向FAST计算约占整个SLAM系统一半处理时间。

在一项研究中,东京科学大学,大连理工大学,南京大学团队提出两种在低端嵌入式GPU上加速定向FAST特征检测的方法:通过二进制编码策略快速确定候选点,以及采用可分离哈里斯检测策略与底层GPU硬件指令优化最耗时的FAST特征点检测和哈里斯角点检测步骤。在Jetson TX2嵌入式GPU的实验表明,相较于广泛使用的GPU版OpenCV,平均加速比超过7.3倍,显著提升了移动资源受限环境下实时应用的潜力。

SLAM是一种构建未知环境地图并同时定位的算法。不同SLAM系统采用多种传感器模式,如声纳、激光雷达和摄像头。其中基于特征的视觉SLAM(VSLAM)因便捷性和成本效益而获得广泛研究。随着VSLAM发展,业界已提出包括SIFT、SURF、FAST、甚至基于学习方法在内的多种特征点提取方法。

当前主流SLAM系统多部署于移动应用,对实时性、计算资源和功耗有严格要求。尽管SIFT、SURF和基于学习的描述符能应对光照、尺度等图像变换因素并提取精确特征点,但计算开销大,往往无法满足SLAM系统性能需求。ORB(定向FAST和旋转BRIEF)作为轻量级特征描述方法,通过定向FAST(加速段测试特征)进行特征点检测,并通过旋转BRIEF(二进制鲁棒独立基本特征)进行特征描述,以牺牲部分精度和鲁棒性为代价提升计算速度,目前已成为SLAM系统主要特征点检测方法。

但随着图像分辨率持续提升,基于ORB的SLAM系统在多数移动平台上仍难以满足实时处理需求。主要原因在于:为提升精度,现代ORB算法的定向FAST检测步骤通常需要构建多级金字塔以检测不同尺度特征,还需对FAST算法识别的候选特征点进行哈里斯角点匹配以筛选更稳定的特征点。尽管FAST算法本身计算简单,但重复性高且相邻像素处理具有局部独立性,导致算法复杂度优化困难。因此定向FAST特征点检测通常约占ORB计算时间的50%,而ORB本身占SLAM系统总计算量的65%以上。

为增强SLAM系统实用性,众多研究者探索在移动平台上加速定向FAST处理的方法,主要途径是利用FPGA和GPU等高性能加速硬件。研究者成功在FPGA构建管道并设计可重用片上BRAM存储中间结果,从而加速定向FAST处理。尽管FPGA在大规模SLAM系统中具有能效优势,但存在设备成本高、开发周期长的问题,且定制化硬件设计难以在变化条件下保持稳定性能。相比之下,嵌入式GPU凭借卓越的并行处理能力和更灵活的软件计算方式成为移动智能系统的首选。

有研究人员提出采用嵌入式GPU进行目标检测的异步处理方法,利用CPU处理目标检测任务以抵消定向FAST特征点检测时的GPU开销,在Jetson Nano GPU实现了单层ORB系统近81 FPS的实时检测性能。另外有人采用GPU多通道流处理分解ORB流程并平衡GPU计算资源负载,从而加速系统处理,其方法显著提升了定向FAST算法在Jetson AGX Xavier GPU的执行效率。

同时,有研究人员通过CUDA利用Tesla K40c GPU架构的并行处理能力加速FAST检测,将GPU资源平均分配给每个像素,实现了各金字塔层级FAST特征检测任务的高效处理,速度较CPU提升6~10倍。所述方法虽利用GPU提升整体ORB处理流程,但未对定向FAST算法本身进行深度优化。

近期业界发布的CUDA_ORB框架通过GPU像素级处理实现ORB算法,在1920×1080图像的四层金字塔中检测超过3,000个特征点,在Jetson TX2 GPU达到57fps的处理速度,优于基于GPU的OpenCV库,但在特征点检测和内存使用方面仍有优化空间。图1展示了不同图像尺寸下各步骤运行时分布分析,结果表明FAST和哈里斯检测是定向FAST算法中最耗时的环节:FAST特征检测涉及大量分支指令,其并行执行效率比加减乘等基本算术操作低数倍至数十倍;哈里斯检测需频繁访问随机分布的特征点,导致嵌入式GPU因高内存访问延迟而产生显著开销。

所以,东京科学大学,大连理工大学,南京大学团队提出以下重要优化以进一步提升定向FAST性能并推动其在SLAM系统中的应用:

  • 优化FAST检测策略,采用二进制编码策略快速识别候选特征点,显著减少分支语句数量。PTX代码分析显示这一策略节省超35%的全局内存加载和分支语句,实现近1.2倍加速;

  • 半可分离Sobel算子,利用快速但容量受限的共享内存上的循环缓冲区加速哈里斯检测,平均提升检测速度7.3倍;

  • 利用共享内存整合FAST和哈里斯步骤,最小化像素和特征点数据的传输开销。并通过大量实验评估各优化方案,相比包括最流行OpenCV库在内的多种方法,所提出方法显著提升了定向FAST处理速度。

研究人员将提出的Semi-Sep_ORB方法与三种方法对比:以CUDA_ORB为基线,选取OpenCV库中最常用的两种ORB方法OPENCVCPU_ORB和OPENCVGPU_ORB。所选两种基于GPU的方法代表了当前定向FAST性能的先进水平。实验采用图5所示八种不同类型和尺寸的图像,构建单层和四层金字塔。为直观验证两种优化方法的有效性,分别对比FAST和哈里斯检测器与其他方法的性能。

研究团队提出嵌入式GPU定向FAST特征检测加速方法

图10和图11对比了不同图像上FAST检测性能:由于FAST检测仅取决于图像分辨率,OPENCVCPU_ORB运行时随图像尺寸增加而增长。

尽管基于GPU的方法通过并行处理缓解了线性增长,但因GPU资源有限导致线程块需顺序执行,运行时仍逐渐增加。与基线相比,OPENCVGPU性能优异但在小图像上表现不足,而Semi-Sep_ORB在所有图像上均呈现显著加速,加速比范围2.2~4.5倍。

研究团队提出嵌入式GPU定向FAST特征检测加速方法

图12和图13对比哈里斯检测器性能:与FAST检测器不同,哈里斯检测计算复杂度与FAST特征点数量成正比,因此OPENCVCPU_ORB运行时取决于点数。对于单层仅含3290个点的Fashion图像,所提出方法仅实现1.1倍加速,未完全发挥优化策略优势;但当点数超5000时,加速比高达13倍,显著优于其他方法。排除小图像后,优化后的FAST和哈里斯检测器在各种图像上均实现稳定加速, 显示了高鲁棒性,显著提高了面向快速处理器在GPU的执行效率。

除静态图像外,研究人员同时将评估扩展至视频处理:选取768×432分辨率、特征点较少的室内场景视频,以及1280×720分辨率、特征点数量显著的街道场景视频。另外,除Jetson TX2外,同时采用更先进的Jetson AGX Xavier GPU评估优化内核性能。

研究团队提出嵌入式GPU定向FAST特征检测加速方法

图14对比了两种GPU上Semi-Sep_ORB和CUDA_ORB的性能:在所有情况下,无论GPU类型、图像分辨率或检测特征点数量如何,Semi-Sep_ORB始终优于CUDA_ORB。对于室内场景,Jetson TX2达到约144 FPS,AGX则超过270 FPS;对于街道场景,Jetson TX2处理速度在CUDA_ORB下约40 FPS,Semi-Sep_ORB下约55 FPS,而AGX在Semi-Sep_ORB下超过80 FPS。

值得注意的是,在Jetson TX2上运行的Semi-Sep_ORB甚至优于在AGX上运行的CUDA_ORB,证明了优化方法的有效性。检测到的特征点用彩色圆圈标出。尽管两个场景特征点数量相差近60倍且图像分辨率不同,性能差异依然保持在三倍以内,进一步验证了方法的效率。

研究团队提出嵌入式GPU定向FAST特征检测加速方法

表5展示了不同平台上各种方法的功耗、能耗和效率分析,包含SYS_GPU、SYS_SOC、SYS_CPU、SYS_DDR、EC和EE六项指标。这些方法主要受GPU利用率、内存访问模式和数据量影响。如表所示,随着内核持续优化,SYS_GPU显著增加,表明所提出方法有效增强线程并行性从而提升GPU利用率。

另外,优化策略采用基于分块的方法将部分数据加载到共享内存,与基线相比数据传输量更大,导致SYS_DDR消耗增加。其余两项指标因优化未引入异构计算或额外外设而基本保持不变。

值得注意的是,AGX采用比Jetson TX2(四核Cortex-A57 CPU和LPDDR4内存)能效更高的ARM CPU和LPDDR4X内存,因此尽管SYS_GPU显著增加,AGX的SYS_CPU和SYS_SOC功耗仍较低。

研究人员同时在AGX上扩展了性能评估,包含使用四层金字塔结构处理Echeveria图像的情况:与Jetson TX2结果相似,所提出方法显著加速FAST和哈里斯特征检测,较基线性能提升超六倍。基于Echeveria评估的每帧能耗(EC)和每瓦处理帧数(EE)在两种平台上应用优化策略后均呈现正向增长趋势。由于各方法间功耗差异极小,能耗和效率主要受运行时影响,因此最快的方法SemiSep_ORB在Jetson TX2上达到0.037 J/F和26.78 FPS/W,在AGX上达到0.024 J/F和40.92 FPS/W,成为所有方法中EC最低、EE最高的方案。

相关论文Faster than Fast: Accelerating Oriented FAST Feature Detection on Low-end Embedded GPUs

https://arxiv.org/pdf/2506.07164

总的来说,团队分别针对定向FAST特征检测中计算最密集的FAST和哈里斯检测提出了两种GPU内核:为增强FAST检测,实现二进制编码策略优化连续像素变化判断;为哈里斯检测引入系列优化策略加速Sobel运算。通过使用Jetson TX2和Jetson AGX Xavier GPU对各内核步骤进行大量实验,所提出优化策略被证明显著提升了FAST和哈里斯检测性能。

另外,与各种常用方法相比,内核在Jetson TX2 GPU上实现FAST检测2.2~4.5倍加速、哈里斯检测1.1~13倍加速;在Jetson AGX Xavier上较原始GPU实现快6.21倍。未来工作计划将所提出方法集成到更先进SLAM应用系统中,并考虑移植至FPGA平台:相比GPU,FPGA可通过并行位操作、查找表和管道替代分支指令,有望显著提升FAST特征检测效率;其片上内存(如BRAM)可存储图像块,最小化外部DRAM访问频次,通过本地化图像处理、利用片上内存及数据流传输(而非批量传输),FPGA可大幅降低内存流量,从而实现更低延迟和功耗。

本文链接https://news.nweon.com/135362
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯