纽约大学与Meta合作开发注视点实例分割框架FovealSeg
利用注视点
(映维网Nweon 2025年07月04日)实例分割对于增强现实和虚拟现实至关重要,因为它可以实现精确的对象识别和交互,增强虚拟和现实元素的集成,帮助实现身临其境的体验。然而,分割的高计算开销限制了其在资源受限的AR/VR设备的应用,造成了较大的处理延迟,降低了用户体验。
与传统场景相比,AR/VR用户在转换视角之前通常只关注视场内的几个区域,所以可以将分割集中在特定的注视区域。这种洞察力推动了对高效分割方法的需求,优先处理感兴趣的实例,减少计算负载并增强实时性能。在一项研究中,纽约大学和Meta团队提出了一个注视点实例分割框架FovealSeg,利用实时用户注视数据专门针对感兴趣的实例执行实例分割,从而节省了大量的计算。评价结果表明,FSNet在ADE20K和LVIS的IoU分别为0.56和0.54,明显优于基线。
语义分割是计算机视觉的一项基本任务,涉及将图像划分为有意义的区域,以方便对其视觉内容的分析和解释。实例分割通过识别和描绘图像中的每个单独对象实例进一步实现了这一点,而这在增强现实中起着关键作用,因为它可以在现实世界场景中实现精确的对象识别和分离,允许更准确的交互,以实现身临其境和上下文感知的用户体验。
尽管分割任务非常重要,但它带来了大量的计算挑战,特别是在资源有限的AR/VR设备,主要是由于设备捕获的输入图像的高分辨率。例如,Meta Ray-Ban眼镜有一个1200万像素的摄像头,能够录制1440P的视频,这在实例分割过程中会导致大量的计算开销。如此高的数据量导致相当大的计算延迟,并可能严重限制性能和响应能力,最终通过阻碍实时交互和流动性降低整体用户体验。
与传统用例相比,AR/VR设备用户有一个独特的行为:他们倾向于只关注一个视图中的特定小区域,然后再切换到另一个视图。如图1所示,用户戴着AR眼镜站在卧室里。在图1 (a)的左边部分,用户看了几秒钟床,然后转过头去看衣柜,如图1 (a)的右边部分所示。
在这种情况下,连续的视频帧可以根据头部运动分为两段。在第一段中,帧高度相似,注视主要集中在床上,允许只在床上执行实例分割。同样,在第二段中,注视集中在衣柜。这种洞察力为AR/VR环境中的实例分割提供了一种固有的高效解决方案,通过根据用户的注视确定感兴趣实例(IOI)的处理优先级。
将计算资源集中在目标区域,可以显著减少处理工作量和计算成本,增强AR/VR应用程序的实时性能,并改善整体用户体验。这与注视点渲染的范例自然一致,通过仅在用户注视区域以全分辨率渲染图像来增强图形性能,同时减少周边视觉中的细节以节省计算资源。
在研究中,纽约大学和Meta团队提出了一种新的实例分割方法,注视点实例分割,通过采用注视点处理策略,仅在人类注视所在的实例上进行分割,从而消除了对整个图像进行处理的需要。尽管这种方法具有提高效率的巨大潜力,但它同时存在挑战。第一个挑战是设计一个深度神经网络(DNN)框架,只处理与注视位置相关的IOI。第二个挑战是利用人类注视的时间动态,进一步减少冗余计算,提高处理效率。
图5展示了FovealSeg框架的计算流程。在操作过程中,AR/VR设备的朝内传感器连续捕获用户眼睛的图像并将其发送给注视追踪器,注视追踪器在大约5-10毫秒内估计出高精度的注视方向。然后将估计的注视方向连同从前置摄像头捕获的高分辨率图像作为额外输入一起传递给FovealSeg。接下来,FovealSeg生成一个仅关注IOI的分割图,并在具有相似注视位置的帧之间重用。
如图6 (a)所示,注视点分割专注于仅为IOI生成实例分割掩码。因此,它需要创建一个二进制掩码来识别IOI区域及其相关的类标签。这与传统的分割方法不同。现有方法难以利用注视位置作为先验信息来指导分割,使得区分不同类别的前景和背景的任务变得复杂。另外,常用的分割损失函数,如标准关节损失和焦点损失,在目标实例特别小的情况下,往往无法进行微调。为了解决所述问题,团队引入了FSNet,它包含注视感知模型架构和优化的训练和微调策略。
图7中的结果突出了与基线相比,FovealSeg框架实现的增强计算效率。FovealSeg框架采用的高降采样率减少了实例分割任务所需的计算量。利用注视扫视和注视可以消除大量的冗余计算,实现高达1.96倍的FLOPs降低。与ND相比,FovealSeg可以减少高达75倍的计算量,强调了降采样对系统性能增强的重大贡献。
团队检查了FSNet中降采样率对性能的影响。表3给出了cityscape数据集降采样图像大小为F ’ 32×64时的FSNet性能。随着降采样率的增加,IoU和IoU’都呈现出明显的下降,其中基于deeplab的FSNet的IoU从0.52下降到0.36。这种趋势在所有基线方法中都是一致的。然而,即便在如此低的分辨率下,FSNet方法依然优于其他方法。
他们同时研究了高斯核大小如何影响性能,因为它在采样过程中起着至关重要的作用。表4给出了cityscape数据集上的结果。结果表明,由于更强调注视信息的显著区域影响,更大的核尺寸产生了更好的结果。在FSNet设计中,他们结合注视坐标(u, v)来指导FSNet对输入图像f进行采样。
在表5中,我们通过用随机噪点代替注视信息来评估FSNet在没有注视信息的cityscape数据集上的性能。结果显示IoU明显减少了0.3以上,突出了注视位置信息在FSNet中的关键作用。
为了评估FovealSeg框架在现实世界中的效率,他们比较了FSNet+Seg-B5和SegFormer-B5,以评估速度和精度之间的权衡。如图6所示,FSNet实现了84毫秒的延迟,比SegFormer-B5快20倍以上,后者需要1860毫秒。值得注意的是,FSNet同时提供了卓越的分割性能。它较低的延迟导致更好的时间对齐和更好的视觉体验。
总的来说,FovealSeg利用实时注视数据进行聚焦于IOI区域的实例分割。评估结果显示,在不同的数据集上,性能得到了增强,效率同样有了显著提高。团队表示,这为未来的研究奠定了基础。