纽约大学与Meta合作开发注视点实例分割框架FovealSeg

编辑：刘余欣 | 分类：论文 | 2025年7月4日

加入映维网会员

利用注视点

（映维网Nweon 2025年07月04日）实例分割对于增强现实和虚拟现实至关重要，因为它可以实现精确的对象识别和交互，增强虚拟和现实元素的集成，帮助实现身临其境的体验。然而，分割的高计算开销限制了其在资源受限的AR/VR设备的应用，造成了较大的处理延迟，降低了用户体验。

与传统场景相比，AR/VR用户在转换视角之前通常只关注视场内的几个区域，所以可以将分割集中在特定的注视区域。这种洞察力推动了对高效分割方法的需求，优先处理感兴趣的实例，减少计算负载并增强实时性能。在一项研究中，纽约大学和Meta团队提出了一个注视点实例分割框架FovealSeg，利用实时用户注视数据专门针对感兴趣的实例执行实例分割，从而节省了大量的计算。评价结果表明，FSNet在ADE20K和LVIS的IoU分别为0.56和0.54，明显优于基线。

语义分割是计算机视觉的一项基本任务，涉及将图像划分为有意义的区域，以方便对其视觉内容的分析和解释。实例分割通过识别和描绘图像中的每个单独对象实例进一步实现了这一点，而这在增强现实中起着关键作用，因为它可以在现实世界场景中实现精确的对象识别和分离，允许更准确的交互，以实现身临其境和上下文感知的用户体验。

尽管分割任务非常重要，但它带来了大量的计算挑战，特别是在资源有限的AR/VR设备，主要是由于设备捕获的输入图像的高分辨率。例如，Meta Ray-Ban眼镜有一个1200万像素的摄像头，能够录制1440P的视频，这在实例分割过程中会导致大量的计算开销。如此高的数据量导致相当大的计算延迟，并可能严重限制性能和响应能力，最终通过阻碍实时交互和流动性降低整体用户体验。

......（全文 2018 字，剩余 1420 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限