康奈尔大学、爱登堡大学提出用声呐眼动追踪取代光学眼动追踪
用基于声呐的眼动追踪取代传统的光学摄像头追踪
(映维网Nweon 2024年03月11日)一般来说,声音的属性会根据声音所在的环境而变化。例如,房间的大小布局和材料成分会影响声音反射,吸收和回荡的方式。环境的声学特性可以影响所述环境中的声音属性。根据这一现象,人类构思了一系列的实用性工具,比如说声呐(声呐是英文缩写“SONAR”的音译,其中文全称为声音导航与测距/Sound Navigation And Ranging)。
实际上,业界早已在探索将声呐应用于AR/VR领域。例如微软和康奈尔大学早前都有进行过相关的研究。
现在康奈尔大学携手爱登堡大学,再次发布了与声呐+AR/VR的相关实验:基于声呐的眼动追踪,从而取代光学摄像头追踪。
目前,最先进的眼动追踪技术利用摄像头捕获注视点。但基于摄像头的眼动追踪解决方案具有相对较高的功率,可能不适用于电池容量相对较小的智能眼镜。以Tobii Pro Glass 3为例,在电池扩展容量为3400毫安时,它只能持续1.75小时。
有限的追踪时间阻碍了其在日常生活中收集注视点数据的能力。为了克服这一挑战,团队提出了GazeTrak,从而探索利用以相对低功耗,重量轻,价格合理而闻名的声学传感来连续追踪智能眼镜的用户注视点。
它的传感原理是基于这样一个事实,即眼球不是完美的球形,旋转它们会暴露出不同的形状,并以独特的形状拉伸周围的皮肤。这可以为推断注视点提供非常有价值的信息。
GazeTrak在眼镜框架的两侧各使用一个扬声器和四个麦克风。扬声器向眼球发射频率在18khz以上的调频连续波FMCW声信号。麦克风则捕获眼球及其周围区域反射的信号,并用于处理和计算回波profile。回波profile馈送到基于ResNet-18的定制深度学习算法以预测注视点。
研究人员进行了两轮用户研究来评估GazeTrak的性能。在研究过程中,每个参与者都被要求注视屏幕显示的指示点。在第一轮研究中,12名参与者评估了第一个硬件原型。平均交叉追踪精度为4.9°。它确定了传感系统的最佳设置,并有助于我们设计最终的原型。
最终的原型(如文章最上方的图片所示)具有更紧凑的外形,显著降低了信号强度,并提高了隐私性,因为它可以附着在不同的眼镜之上。为了确保两个原型之间的一致性能,研究人员进行了第二轮研究。这一次有10名参与者,包括新参与者。
结果表明,最终原型在跨会话场景的平均追踪精度为4.9°,会话场景的平均追踪精度为3.6°,刷新率为83.3 Hz。
团队制作了一个视频来演示系统的追踪性能和实际应用。尽管系统目前的精度比商业眼动仪差,但它依然可以与一些基于网络摄像头的眼动追踪系统相媲美。另外,由于声学传感器的低功耗特性,与基于摄像头的可穿戴眼动追踪系统相比,所提出的系统可将功耗降低95%以上。
如果使用与Tobii Pro Glasses 3容量相似的电池,系统可以将使用时间从1.75小时延长到38.5小时。使用普通智能眼镜(如谷歌眼镜)的电池,它甚至可以持续使用6.4小时。
另外,使用带有低功耗CNN加速器的微控制器可以进一步提高系统的功率。所以,团队在MAX78002实现了注视追踪管道。在刷新率为30 Hz的情况下,整个系统包括数据预处理和模型推理的功耗为95.4 mW。
相关论文:GazeTrak: Exploring Acoustic-based Eye Tracking on a Glass Frame
总的来说,团队的目的是证明基于声学的眼镜注视追踪系统的可行性。尽管我们的眼动追踪精度为4.9°,与一些基于网络摄像头的方法相当,但低于商业眼动仪(在研究中为1.9°)。所以,系统可能无法立即适用于需要高度精确眼动追踪的应用。然而,研究人员认为系统依然可以支持一系列的用例,例如与AR按钮等界面元素的交互。接下来,团队将继续优化系统。