Meta为MR虚拟键盘打字输入提出TouchInsight神经网络
可以检测所有十个手指在任何物理表面的触碰输入
(映维网Nweon 2024年10月16日)尽管被动表面为混合现实中的交互提供了诸多好处,但仅通过头戴式摄像头检测触碰输入一直是一个长期的挑战。摄像头的特殊性,手部的自遮挡,以及头部和手指的快速运动都导致了触碰事件的确切位置的不确定性。所以,现有的方法无法实现稳健交互所需的性能。
在一项研究中,Meta和苏黎世联邦理工学院提出了一个可以检测所有十个手指在任何物理表面的触碰输入的实时管道,而且它完全是基于自中心的手部追踪。
所述方法TouchInsight包括一个神经网络来预测触碰事件的时刻,手指进行接触和触碰位置。TouchInsight通过二元高斯分布表示位置,以解释由于传感不准确性而产生的不确定性。研究人员首先进行了离线评估,并发现它定位输入事件的平均误差为6.3 mm,能够准确地检测触碰事件(F1=0.99)和识别使用的手指(F1=0.96)。
在一个双手文本输入的在线评估中,参与者每分钟输入37.0个单词,平均错误率为2.9%。
直接交互已成为混合现实头显的首选输入形式之一。随着实时自中心手部追踪技术的进步,用户可以用手和手指直观地操纵虚拟对象和界面。目前主要的MR交互是为悬空交互而设计,但最近的研究表明,将相关交互移动到周围的被动表面可以改善输入控制和性能。
表面提供触觉反馈和休息的机会,从而令交互更舒适,避免长时间使用时的疲劳。用户对现实世界中物理对象或表面上的触碰交互非常熟悉。然而,将这种交互模式转移到MR系统十分困难。在过渡到内向外追踪之后,触碰输入需要从摄像头观察推断出来。
从自中心视点准确推断触碰事件相当具有挑战性。以往基于视觉的接触识别研究要求手指和触碰表面清晰可见。为了实现更灵巧和快速的输入,就像打字一样,需要额外的手部追踪仪器,以实现下游任务的实际准确性。
针对这个问题,Meta和苏黎世联邦理工学院团队提出了TouchInsight,以从移动头戴式摄像头的自中心视图识别任何物理表面的所有十个手指的触碰输入。
TouchInsight可以识别触碰事件的时刻并估计它们的输入位置。除了用户行为之外,关键的新颖之处在于对传感管道固有的不确定性的明确模型。这使得所述方法可以稳健地推断用户意图,包括快速触碰输入,以及当手在自中心视图中自我遮挡时。
从不确定输入观察推断触碰
图2说明了团队解决的问题:基于自中心视觉的触碰检测的一系列误差源的不确定性估计。当用户的目标是用手指触碰目标时,端点手指位置形成高斯分布。所述分布捕获了由于用户行为(用户错误)而导致的触碰输入不准确性,反映了人类运动系统中的速度-精度权衡和手指触碰的绝对精度。
不确定性的第二个来源是自中心的手部追踪。由于任何手部姿态估计器的追踪不准确以及由于自遮挡导致的能见度降低,恢复的手部姿态可能与实际的手部配置存在显著差异(传感误差)。这引入了感应不确定性的追踪手指端点。
所以,使用所述手部姿势作为输入来推断触碰事件,在估计的触碰位置中引入了不可约的任意不确定性。尽管“用户误差”作为不确定性的第一个来源受到了很多关注,但“传感误差”作为第二个来源的重要性迄今为止可以忽略不计,因为触碰传感器具有高分辨率和精度。
然而,对于基于摄像头的触碰估计,第二个误差源的大小大大超过了第一个,特别是当摄像头传感器移动时,其有效分辨率和采样率在捕获用户手指时都较低。
团队的关键新颖之处在于通过二元高斯分布明确地模拟这两个不确定性来源。所述方法有效地将传感不确定性与用户不确定性以封闭形式表达,使得能够在基于触碰位置的概率命令预测框架中推断潜在的用户意图。
为了实现框架,研究人员在一个表面对齐的虚拟键盘提出了一个纯粹基于视觉的十指文本输入系统。文本输入系统将概率触碰和不确定性估计与每键触碰分布融合在一起,以获得键盘词汇表预期字符的可能性分布。
他们通过6-gram character语言模型的语言先验来改进文本输入预测,并通过波束搜索来解决解码错误,以考虑来自三字词语言模型的附加先验。他们从两方面评估了方法。
在离线评估中,团队量化了TouchInsight检测触碰事件的准确性,事件检测的f1得分为0.99,正确识别接触手指的f1得分为0.96,平均时间延迟小于70 ms。他们同时评估了网络在预测位置方面的准确性:在提供有意义的不确定性估计的同时,实现了6.3 mm的平均位置误差。
为了确定方法的实用价值和有效性,团队对一个文本输入任务进行了在线评估,其中12名参与者从Twitter数据集中转录句子。经过5个阶段的训练,参与者的平均文本输入率为每分钟37.0个单词(WPM),未纠正错误率(UER)为2.9%。
因此,所述方法在输入性能、任务负载和用户偏好方面明显优于在悬空键盘的文本输入(19.7 WPM和8.0% UER)。
相关论文:TouchInsight: Uncertainty-aware Rapid Touch and Text Input for Mixed Reality from Egocentric Vision
总的来说,TouchInsight集成了一个神经网络,可以准确识别触摸事件的时刻、触摸手指的特征以及在表面的输入位置。所述方法的关键新颖之处在于明确地整合了检测过程中涉及的两个错误所产生的不确定性:用户错误和传感错误。
网络考虑了传感的不确定性,并估计了触摸位置的二元高斯分布。在评估中,方法推断的位置平均位置误差为6.3 mm。为了提高准确性,概率框架同时结合了字符级和单词级语言模型的先验。
团队将概率框架作为端到端文本输入系统的一部分进行评估。参与者输入文本的平均输入率为37.0 WPM,未校正错误率为2.9%,在性能、任务负载和用户偏好方面优于悬空键盘基线。
研究人员表示:“综上所述,我们相信我们的方法可以在MR中实现更好的交互,特别是在长时间的生产力任务中。因为我们的框架原则上可以泛化到广泛的命令预测任务,我们相信我们的概率和不确定性感知方法在未来的MR中具有很大的前景,可以支持所有的表面输入交互。”