雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

康奈尔大学、爱登堡大学提出用声呐眼动追踪取代光学眼动追踪

查看引用/信息源请点击:映维网

用基于声呐的眼动追踪取代传统的光学摄像头追踪

映维网Nweon 2024年03月11日)一般来说,声音的属性会根据声音所在的环境而变化。例如,房间的大小布局和材料成分会影响声音反射,吸收和回荡的方式。环境的声学特性可以影响所述环境中的声音属性。根据这一现象,人类构思了一系列的实用性工具,比如说声呐(声呐是英文缩写“SONAR”的音译,其中文全称为声音导航与测距/Sound Navigation And Ranging)。

实际上,业界早已在探索将声呐应用于AR/VR领域。例如微软和康奈尔大学早前都有进行过相关的研究。

相关论文康奈尔大学研究用声波+AI 对用户上半身进行3D动捕追踪

相关论文微软新专利提出『基于超声波声呐的空间映射技术』

现在康奈尔大学携手爱登堡大学,再次发布了与声呐+AR/VR的相关实验:基于声呐的眼动追踪,从而取代光学摄像头追踪。

目前,最先进的眼动追踪技术利用摄像头捕获注视点。但基于摄像头的眼动追踪解决方案具有相对较高的功率,可能不适用于电池容量相对较小的智能眼镜。以Tobii Pro Glass 3为例,在电池扩展容量为3400毫安时,它只能持续1.75小时。

有限的追踪时间阻碍了其在日常生活中收集注视点数据的能力。为了克服这一挑战,团队提出了GazeTrak,从而探索利用以相对低功耗,重量轻,价格合理而闻名的声学传感来连续追踪智能眼镜的用户注视点。

它的传感原理是基于这样一个事实,即眼球不是完美的球形,旋转它们会暴露出不同的形状,并以独特的形状拉伸周围的皮肤。这可以为推断注视点提供非常有价值的信息。

GazeTrak在眼镜框架的两侧各使用一个扬声器和四个麦克风。扬声器向眼球发射频率在18khz以上的调频连续波FMCW声信号。麦克风则捕获眼球及其周围区域反射的信号,并用于处理和计算回波profile。回波profile馈送到基于ResNet-18的定制深度学习算法以预测注视点。

研究人员进行了两轮用户研究来评估GazeTrak的性能。在研究过程中,每个参与者都被要求注视屏幕显示的指示点。在第一轮研究中,12名参与者评估了第一个硬件原型。平均交叉追踪精度为4.9°。它确定了传感系统的最佳设置,并有助于我们设计最终的原型。

最终的原型(如文章最上方的图片所示)具有更紧凑的外形,显著降低了信号强度,并提高了隐私性,因为它可以附着在不同的眼镜之上。为了确保两个原型之间的一致性能,研究人员进行了第二轮研究。这一次有10名参与者,包括新参与者。

结果表明,最终原型在跨会话场景的平均追踪精度为4.9°,会话场景的平均追踪精度为3.6°,刷新率为83.3 Hz。

团队制作了一个视频来演示系统的追踪性能和实际应用。尽管系统目前的精度比商业眼动仪差,但它依然可以与一些基于网络摄像头的眼动追踪系统相媲美。另外,由于声学传感器的低功耗特性,与基于摄像头的可穿戴眼动追踪系统相比,所提出的系统可将功耗降低95%以上。

如果使用与Tobii Pro Glasses 3容量相似的电池,系统可以将使用时间从1.75小时延长到38.5小时。使用普通智能眼镜(如谷歌眼镜)的电池,它甚至可以持续使用6.4小时。

另外,使用带有低功耗CNN加速器的微控制器可以进一步提高系统的功率。所以,团队在MAX78002实现了注视追踪管道。在刷新率为30 Hz的情况下,整个系统包括数据预处理和模型推理的功耗为95.4 mW。

相关论文GazeTrak: Exploring Acoustic-based Eye Tracking on a Glass Frame

总的来说,团队的目的是证明基于声学的眼镜注视追踪系统的可行性。尽管我们的眼动追踪精度为4.9°,与一些基于网络摄像头的方法相当,但低于商业眼动仪(在研究中为1.9°)。所以,系统可能无法立即适用于需要高度精确眼动追踪的应用。然而,研究人员认为系统依然可以支持一系列的用例,例如与AR按钮等界面元素的交互。接下来,团队将继续优化系统。

本文链接https://news.nweon.com/118819
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯