博世开发LFI激光眼动追踪技术用于智能眼镜
激光反馈干涉测量(LFI)传感器
(映维网Nweon 2025年08月08日)智能眼镜正在成为一类全新的可穿戴设备。尽管智能眼镜潜力巨大,但其自然交互方式有限。注视追踪提供了一个富有前景的解决方案,允许用户使用他们的眼睛与设备和周围环境进行交互。然而,当前的视频视觉(VOG)系统面临着诸如高功耗、笨重的传感器以及在不同照明条件下鲁棒性降低等挑战。
为了解决上述问题,博世团队提出激光反馈干涉测量(LFI)传感器作为VOG的替代方案。
作为说明,激光反馈干涉测量(Laser Feedback Interferometry/LFI)是一种基于激光器内部光场受到外部目标反射光反馈影响而产生特性变化的高精度位移、振动、速度等物理量测量技术。它以其结构简单、灵敏度高、非接触、自准直等优点在精密测量领域备受关注。
LFI传感器在尺寸、功率效率和环境光稳健性方面具有优势。所提出的LFI眼动追踪传感器可无缝集成到轻型眼镜中,不需要用户特定的校准,并且可以连续全天使用。为了确保在瞳孔间距不同的大范围用户中进行可靠的追踪,团队采用了覆盖更宽眼睛区域的细长激光束。这种设计通过准确地捕获用户的注视矢量来提高追踪精度,同时在不同的光照条件下保持鲁棒性。
团队开发了一个综合的仿真模型,集成了传感器和眼睛模型,并通过现实世界的实验进行了验证,并设计了一个基于卷积神经网络CNN的模型,以准确地估计LFI传感器读数的注视。研究结果表明,基于LFI的系统提供了一种鲁棒、高效、用户友好的注视交互解决方案,在自定义仿真数据集实现了较高的预测精度,误差范围为2.23度。这是迈向下一代智能眼镜的重要一步。
智能眼镜是一种新型的智能可穿戴设备,旨在增强用户与周围环境的交互。例如,集成了人工智能助手的眼镜,可通过头戴式显示器实现虚拟叠加的AR眼镜,以及通过自动调整镜片的处方强度来纠正老花眼等视力缺陷的自动对焦眼镜。
尽管有潜力,但智能眼镜的自然交互方式有限。一种富有前景的自然交互方法是注视追踪,它允许用户用眼睛与设备和周围环境进行交互。最先进的注视追踪解决方案是VOG。然而,基于VOG的系统面临着一系列的挑战,包括高功耗,笨重的传感器使集成变得复杂,以及在不同照明条件下的鲁棒性降低。另外,VOG传感器很难在不断变化的照明条件下可靠地估计注视。
针对这个问题,博世团队建议LFI传感器作为VOG的替代方案来解决相关限制。LFI传感器在尺寸、功率效率和抗环境光强度方面具有明显的优势。通过将LFI传感器集成到智能眼镜中进行眼动追踪,团队的目标是实现更高效和用户友好的注视交互,促进更广泛的用户采用。所以在这项研究中,他们介绍了一种专门为智能眼镜设计的LFI眼动追踪解决方案。
他们首先通过实验验证了细长光束方法,并将其与动态眼动轨迹的仿真结果进行了比较。随后,对模型的注视和眼球重建估计性能进行了验证。为了验证推导的传感器模型,并在仿真模型中实现,团队进行了一个静眼实验和一个动眼实验。在实验中,如图1 a)所示,在距激光器1mm的焦距处安装一个圆柱形透镜,聚焦在f=30 mm左右的快轴,使激光束水平拉长。这导致一条激光线横跨参与者的眼睛。
传感器的光输出功率< 0.05𝑜>为700𝜇W,低于IEC 60825-1规定的激光1级限值,因此,实验不会对参与者的眼睛造成任何医疗危害。进一步的传感器参数如表3所示。第一次实验验证了图2 a) - c)所示的仿真结果。细长的光束穿过虹膜和瞳孔,如图6c所示,测量时间为1.8 s。得到的谱图如图6a)所示。光谱图中的两条主要线对应于眼睛的两个深度层:距虹膜区域约300 kHz的线和距视网膜约450 kHz的线。
在图6b)中,频谱图沿时间轴平均,得到单平均傅里叶变换。傅里叶变换的两个主峰对应于虹膜和视网膜区域。为了更精确地检测峰值,对它们进行高斯函数拟合,如图虚线所示。根据检测到的峰值频率计算距离,得到虹膜与视网膜之间的距离差为24.34 mm。这与人眼的解剖结构非常吻合,证明了传感器测量多种眼睛特征的能力。
在第二个实验中,如图7a)所示,LFI传感器与直视眼睛的角度约为45度。另外,在眼睛前面放置了一个摄像头传感器来观察眼睛和细长的光束。通过将LFI传感器放置在眼睛前方,使焦点位于虹膜后方的眼睛中心,可以抑制来自角膜的强反射,并收集整个眼球的特征。
除模型需要验证外,对所有参与者进行模型训练。因此,不同的眼轨迹、瞳孔轨迹以及传感器在训练集和验证集之间的位置保证了模型的泛化性。通过估计瞳孔直径和眼球中心以及注视方向,可以重建一个类似于VOG已知模型的鲁棒3D眼睛模型。
目前需要14个LFI传感器来生成网格。为了减少传感器的数量,从而进一步减少集成工作以及系统级功耗,团队进行了消融研究,其中仅使用传感器的子集来训练N32_LSTM模型。消融研究结果如表5所示,在3x3网格下,水平注视精度降低0.15度,垂直注视精度降低0.52度。
除了传感器的潜在减少之外,模型对缺失特征的鲁棒性同样有所提高。使用细长光束的新型传感方案显示出良好的整体性能,但在当前系统中存在一定的局限性,使用的眼睛模型有所简化,缺少角膜和眼晶状体,影响激光的偏转和聚焦。模拟同时没有考虑到眼组织的散射行为,导致了理想化的振幅。同时,传感器模型不包括动态眼球运动中观察到的多普勒诱发的偏移(图7 2)。所以,需要一个结合光学特性和扩展传感器模型的眼睛模型。
已知单个LFI传感器在1 kHz更新速率下消耗30 mW, 14个传感器总计消耗420 mW。智能眼镜通常需要~50 Hz的更新速率,允许广泛的占空比以降低功耗。另外,减少到3 × 3的传感器网格证明是有益的。传感器功耗主要由数字信号处理驱动,尤其是FFT计算。随着占空比和定制开发的集成电子设备,进一步降低功耗是可行的,估计每个传感器的功耗约为1.5 mW。除了传感器功耗外,执行LSTM模型会影响功率预算。
模型架构使用标准层,以便在嵌入式AI加速器高效执行。模型尺寸设计最小化,并且可以通过修剪和量化进一步减小。为了减小传感器尺寸并使其无缝集成到时尚眼镜中,镜片需要小型化。一个潜在的解决方案是使用超构光学元件,因为它比类似的折射光学元件要小得多。
总的来说,团队介绍了一种基于LFI传感器的智能眼镜眼动追踪传感器系统。团队推导了传感器模型,并开发了仿真工具,同时生成了用于训练CNNLSTM模型的庞大数据集。人眼实验验证了仿真结果,显示出相当的性能。另外,使用CNN-LSTM模型实现了RMSE注视精度为2.23度和1.82度。下一步工作将是改进传感器的尺寸,然后建立一个头戴演示器来收集人类数据集,以验证实现的注视精度。