雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

纽约大学研发FovealNet注视追踪框架,延迟降低42%助力VR渲染优化

查看引用/信息源请点击:映维网Nweon

与以前的方法相比,FovealNet的速度至少提高了1.42倍,对注视点输出的感知质量提高了13%。

映维网Nweon 2025年05月08日)利用实时眼动追踪,注视点渲染可以提高硬件效率和视觉质量,因为系统可以只在注视点区域(视网膜上视觉灵敏度最高的小区域)渲染高分辨率图形,而外围视图则以较低分辨率渲染。然而,基于深度学习的注视点追踪解决方案往往表现出追踪误差的长尾分布,可能会降低用户体验,并导致失准和视觉质量下降。

在一项研究中,美国纽约大学团队提出了一种人工智能驱动的注视点追踪框架FovealNet,并旨在通过战略性地提高注视点追踪精度来优化系统性能。

为了进一步降低注视点追踪算法的实现成本,FovealNet采用了一种基于事件的修建方法,从输入图像中消除了超过64.8%的非相关像素。另外,它包含一个简单而有效的令牌修剪策略,可以动态地删除令牌而不会影响追踪准确性。

最后,为了支持不同的运行时渲染配置,团队提出了一种系统性能感知的多分辨率训练策略,令注视追踪DNN能够更有效地适应和优化整体系统性能。

评估结果表明,与以前的方法相比,FovealNet的速度至少提高了1.42倍,对注视点输出的感知质量提高了13%。

人类视敏度在不同的区域内并不相同。视网膜的中心区域负责我们最清晰的视觉。这个区域尽管小,但却密集地布满了感光细胞,允许我们能够在视线范围内感知到细微的细节和鲜艳的色彩。

在注视点区域之外,我们的视觉敏锐度迅速下降,这意味着周边视觉对细节的敏感度降低。注视点渲染正是利用了这种现象,将更多的计算资源分配给注视点区域,同时减少外围的细节,从而降低渲染工作量并显著提高系统性能。

通过将渲染保真度与人类注视模式对齐,注视点渲染优化了视觉体验和计算效率。所以,VR系统通常需要注视追踪来进行注视点渲染,而这通常由深度神经网络DNN完成。

通过实时精确确定用户的焦点,基于注视追踪的注视点渲染(TFR)可以精确捕获到以最高分辨率渲染的注视点区域位置,然后从精细到粗略地进行渲染。

准确的注视追踪是TFR成功实现的基础。如果没有可靠的注视追踪,系统就不能准确地适应用户的视觉焦点,从而导致渲染细节和真实注视位置之间的潜在错位,从而导致明显的伪影和降低用户体验。

所以,集成强大的注视追踪机制对于优化性能和确保TFR中无缝、高保真的视觉效果至关重要。

尽管之前的研究有提出过基于AI的注视点追踪解决方案,但实验表明,它们会大大降低TFR的效率。这是因为尽管平均注视点追踪误差较低,但误差通常遵循长尾分布,导致在各种场景中检测用户注视点位置时存在非常大的不准确性。

相关错误可能进一步导致渲染的注视点区域与用户的实际注视错位,导致视觉质量下降,破坏了焦点渲染的预期性能收益,并最终降低用户体验。

为了解决这一挑战,纽约大学团队引入了一种新的训练方法,将TFR系统的性能直接集成到注视点追踪DNN的训练过程中,从而优化了整体性能。

具体来说,团队专注于最小化系统延迟,因为延迟是VR环境中的关键因素。另外,所述方法可以扩展到优化不同TFR场景的各种系统性能指标(例如功耗)。同时,先前的研究强调了视线追踪DNN的实现开销的重要性,因为这种额外的成本通常会超过从TFR中获得的性能收益。

为了降低注视追踪深度神经网络的计算复杂度,研究人员开发了一种简单的方法,专注于有效地捕获以瞳孔为中心的眼睛区域,最大限度地减少对无关外围像素的计算。

这种事件驱动的设计支持在执行期间有效地重用缓冲的注视追踪结果。不仅只是这样,他们在注视点之宗模型中引入了针对输入标记的细粒度修剪机制,减少了在非信息区域(如睫毛)的不必要计算。

最后,图像渲染和追踪的硬件处理延迟通常表现为动态行为,受用户对系统设置的修改和其他应用的资源分配影响。这种可变性需要对注视追踪DNN进行动态配置,以确保最佳的系统性能。

为了解决这个问题,研究人员引入了一个多分辨率DNN训练框架,而所述框架可以同时训练不同配置的注视追踪DNN。在运行过程中,它可以根据当前系统条件选择最合适的DNN配置,令TFR的动态性能达到最佳。

相关论文FovealNet: Advancing AI-Driven Gaze Tracking Solutions for Optimized Foveated Rendering System Performance in Virtual Reality

总的来说,FovealNet这个基于人工智能的注视点追踪解决方案旨在提高TFR系统的性能。FovealNet可以使用包含系统性能指标的损失函数直接进行优化,并实现相较于基线更好的结果。为了进一步降低注视追踪算法的实现成本,FovealNet利用基于事件的裁剪技术,从输入图像中丢弃不相关的像素。另外,它具有高效的令牌修剪策略,可以在不牺牲追踪准确性的情况下动态消除处理过程中的令牌。

本文链接https://news.nweon.com/129597
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯