德国研究团队提出CNN方法改进VR眼动追踪距离估计
估计注视距离
(映维网Nweon 2025年08月11日)虚拟现实中的眼动追踪技术可以提高真实感和沉浸感。知道被注视对象的距离,而不仅仅是注视方向,是至关重要的。一种常用的方法是估计视线距离,即两眼之间的相对角度,但这种方法的准确性有限,特别是对于较大的距离。或者,VR中的注视距离可以直接从估计注视点的深度图中检索。然而,眼动追踪的不准确性可能导致被测量的注视指向不正确的对象,从而导致错误的距离估计。这个问题尤其在盯着小目标或物体边缘时发生。
为了解决这个问题,德国图宾根大学团队引入了一种基于CNN的方法,将深度图数据与眼动追踪的收敛信息相结合。实验表明,模型成功地学会了结合来自两个特征的信息,并且优于最先进的方法。
虚拟现实系统通常以固定的光学距离呈现图像,导致感知图像缺乏自然的深场模糊。用户的眼睛必须聚焦在这个固定的光学距离上,而双眼之间的角度必须与虚拟环境中固定物体的距离相匹配。这种不匹配通常称为视觉辐辏调节冲突(VAC),并且是VR中一个众所周知的问题,会导致视觉不适和疲劳。
为了解决这个问题,业界已经提出了不同的解决方案,其中包括可提供可变焦距的可调焦透镜或反射镜,以模拟与位置相关的图像模糊的景深效果,或者两者的结合。这一解决方案主要依赖于对用户视线的准确估计,尤其是与固定物体的距离,而不仅仅是其方向。
估计注视距离的一种常用方法是在几何计算中使用会聚角和眼睛之间的距离。这种基于边缘方法的一个更精细版本搜索两只眼睛注视光线的交点。一般来说,三维射线并不完全相交,因此与两条射线垂直的最短线的中点可以作为关注点(PoR) 。基于收敛的计算提供了一个有用的注视距离近似值,但精度通常是有限的。通过滤波,使用ground truth值目标距离的用户个人校准,更好地考虑了瞳孔间距(IPD)或收敛行为的个体差异,可以改进估计。
在VR环境中,场景的深度分布可以在渲染深度缓冲区中访问,并可以提供用户注视方向对象的精确距离。在当前注视位置使用中心深度样本,或沿着注视方向投射光线的直接方法在许多情况下都可以很好地工作。例如,当注视指向一个大的单一物体或在整洁的场景中,深度缓冲可以可靠地估计注视距离。然而,这种方法在小物体或复杂深度分布的情况下可能会导致问题。因此,有研究人员引入了一种将眼动追踪数据与深度信息相结合的方法,并采用支持向量回归(SVR)模型,将基于收敛的估计与注视点周围采样的深度值的均值和方差相结合。
改进了以前的方法,但这种方法限制了深度数据提供的潜在信息,因为它不利用单个深度值,而是依赖于汇总的统计测量。德国图宾根大学团队认为,通过直接使用深度样本,ML机器学习模型可以更准确地预测凝视距离。
在这项研究中,德国图宾根大学团队提出了一种卷积神经网络(CNN)用于注视距离估计。网络处理深度数据,在当前注视位置周围裁剪,然后将多层CNN的输出与双目注视数据集成到神经网络中进行注视距离的回归。
为了训练和评估模型,他们收集了一个具有虚拟场景相应深度信息的VR眼动追踪数据集。参与者完成了一项反应任务,要求他们在两个虚拟环境中盯着确定的目标:一个是结构化的室内场景,另一个是自然的室外森林场景。接下来,记录注视数据、相应的深度信息以及参与者与目标之间的ground truth距离。
另外,训练注视距离模型来预测倒数距离𝑑−1,而不是距离𝑑。对于前面描述的AR/VR设备中模拟景深效果或控制可调焦的应用,关键参数是(模拟的)optical power。optical power的误差,即离焦,在短距离上的距离估计误差不成比例地大。相反,对于较大的距离,这种误差的影响会减弱。因此,团队建议将互反距离作为更适合基于ML估计的目标特征。
团队评估了CNN和基线模型的均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均误差(ME)和决定系数(𝑅2)。表1a和表1b分别显示了模型的性能指标。表1b的最后一列显示了低于0.25 dpt的绝对误差百分比,代表了对焦误差的感知阈值,低于阈值的误差在VR中的可调焦透镜等应用中是难以察觉的。
图3可视化了在二维直方图中绘制的针对ground truth值的单个模型的预测。性能指标和直方图都显示了基于收敛和基于中心的方法的缺点。基于辐角的估计仅在第1米内准确,因为在较小的距离上,辐角的变化更为突出。基于中心的方法在所有距离上都显示出良好的结果,并实现一个合理的𝑅2。然而,如果场景深度方差较大,这种方法的注视方向的微小变化都会导致距离预测的大变化。大量的异常值会影响所有其他性能指标。
尽管在数据集训练的SVR的性能比前人陈述的结果差,但实现的SVR可以比之前的两种方法更可靠地预测注视距离。团队认为数据集中较高的深度复杂性是导致性能结果差异的原因。
另外,CNN实现引入了主体不变性,同时优于以前的方法。直方图显示,数据显示得很好,预测更可靠,在真实情况周围的传播更小。这表明成功地学习了如何将眼动追踪和深度数据信息结合起来解释。另外,模型可以很好地泛化到不需要单独用户校准的未知参与者。图4显示了所有引入方法的预测误差分布。基于收敛的方法和SVR都显示出广泛的分布,与前面的陈述一致。基于中心的方法预测误差分布最窄。然而,这种方法会产生许多异常值,第5和第95百分位数的误差证明了这一点:距离分别为- 0.04 m和3.51 m,倒数距离分别为- 1.15 dpt和0.01 dpt。CNN在距离为- 0.41 m和0.27 m,倒数距离为- 0.10 dpt和0.03 dpt时,误差分别为第5和第95百分位,具有更强的鲁棒性。
相关论文:CNN-based estimation of gaze distance in virtual reality using eye tracking and depth data
总的来说,团队引入了一种CNN方法来估计VR中固定对象的(倒数)距离。CNN对估计的注视方向周围深度分布的空间结构进行处理,并结合双眼眼动追踪数据回归准确的注视距离估计。所提出方法在平均误差和异常值数量上优于所有基线方法。与基于中心的方法相比,模型大大减少了异常值,证明双目注视数据提供了相关信息,有助于更准确地解释深度数据。
特征重要性分析进一步支持了这一点,这表明深度数据和眼动追踪数据都为模型提供了关键信息。模型使用注视信息来解决深度图数据中的模糊问题,而不是直接计算注视距离。
所提出方法更适用于VR中的注视情境模拟应用。另外,团队建议将互反距离作为更合适的目标特征用于注视距离估计。在注视随变聚焦或景深模拟等场景中,相关误差是由于模拟焦距与注视距离之间的偏差所引起的感知模糊。这种模糊随着离焦而缩放,即距离的倒数。
为了实现更可靠的预测,可以引入何时接受或放弃结果的标准。另外,利用更先进的深度学习架构,例如操作时间序列,可以极大地提高预测性能,因为之前的深度和眼动追踪数据包括如何解释未来数据的相关信息。
所提出方法的潜在局限性包括它对特定VR设备属性的依赖,如深度图分辨率或眼球追踪精度,因为模型可能已经从数据集中学习了特征。更详细的分析应侧重于评估模型对其他设备的通用性,包括来自不同制造商的设备。
另外,根据深度分布的复杂性对我们数据集中的目标位置进行分类,将允许在更简单和更具挑战性的注视目标场景中更好地评估模型性能。
但总的来说,团队提出的方法适用于实时应用(预测时间约为1毫秒),允许使用精确的注视距离估计进行景深模拟或其他应用。另外,对于VR以外的移动眼动追踪应用,可以考虑采用类似的方法来确定注视距离。例如,自动对焦是一种特殊的眼镜镜片,它可以动态对焦固定距离,以支持眼睛随着年龄的增长而降低的对焦能力。