韩国研究团队提出GazeHandSync算法改善头显眼手交互误差

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

改善基于注视的头显交互

映维网Nweon 2025年08月11日)眼+手交互,亦即注视充当指向,手的动作触发选择,正逐渐成为XR设备的一种重要交互方式。然而,由于眼手协调误差导致的目标选择失败限制了其有效性。针对这个问题,蔚山科学技术院和韩国科学技术院团队研究了任务复杂性如何影响眼手协调误差,并提出了一种算法来减轻模式之间的输入错位。

具体来说,他们研究了具有不同视觉(感知提示目标vs搜索)和手动(拇指-中指捏vs多手指捏)复杂性的任务,并发现手指晚触占错误的86.57%。另外,人为复杂性的增加与错误率的升高有关。基于相关见解,他们开发了一种能够检测延迟触发错误的分类器,平均准确率为97.31% (SD 0.18)。通过将注视点定义为手指点击前最接近的目标注视点,算法纠正了大部分(94.61%)眼手输入对齐错误,从而改善了基于注视的头显交互。

韩国研究团队提出GazeHandSync算法改善头显眼手交互误差

由于在增强交互技术等领域具有潜力,监测用户的注意力并为无缝认证提供有效的数字生物标志,眼动仪越来越多地集成到头戴式显示器。特别是,在头显中基于注视的交互已经获得广泛探索,因为它提供了诸多优势,包括可以提高速度,减少错误,实现更自然等等。

使用注视作为指针瞄准目标并使用捏手势激活选择已获得商业头显设备的广泛采用。这种方法允许简单的手指点击命令,避免依赖外部控制器或大幅度身体运动,并提供了一种有效的目标选择机制,适用于广泛的典型环境。然而,尽管眼手联合交互具有优势,但注视和手输入之间的协调误差依然是一个重大挑战,限制了技术的有效性和可靠性。

协调错误通常表现为晚触发或早触发的动作,其中手动输入要么跟随视线转移到新目标,要么先于视线到达预期目标。这种错误代表了这种双峰输入技术的一个基本问题。事实上,根据先前研究,这一技术发生的大多数错误都是由于这种不对齐的输入。另外,相关偏差可以高度多样化,从60ms到200ms。即便是在执行简单的任务时,比如简单地注视和触摸目标。

为了减轻错误,业界已经提出了各种补偿策略。相关方案通常建议使用注视和手部模式来预测和调整手部输入的时间。然而,它们目前只是推测性,其有效性尚未得到检验。另外,先前的研究缺乏实时检测时间偏移的综合方法,特别是在不同的任务复杂性下。

为了解决这一差距,蔚山科学技术院和韩国科学技术院团队首先研究了不同的用户界面交互复杂性,在手动输入和视觉任务方面如何影响眼手协调误差,并提出了一种检测问题并补偿由此产生的时间偏差的系统。

具体来说,他们将视觉任务分为简单的顺序提示选择任务和反映典型UI交互的复杂视觉搜索任务。这个面向UI的可视化搜索任务包括定位用户已经熟悉的目标,类似于选择一个经常使用的菜单项或按钮。研究人员将手动输入任务分为基本的单指选择任务和更复杂的任务,包括不同的功能分配给不同的手指,类似于操作鼠标的左键和右键。

研究的结果揭示了值得注意的模式。首先,大多数注视手协调错误(86.57%)涉及在用户的视线离开预定目标后触发所需的手指点击。另外,团队观察到,增加手动输入复杂性(例如使用多指捏手势)会导致眼手协调错误率升高,尽管视觉复杂性没有显著影响。

基于研究结果,他们提出了GazeHandSync,一种检测和补偿延迟触发错误的算法。为了实现这一点,团队设计了一个随机森林分类器,使用13个与组合式和手部行为相关的特征来确定输入是否为延迟触发,平均准确率达到97.31% (SD 0.30)。对于使用此分类器归类为晚触发目标选择的事件,将手指触摸的选择点设置为紧接前固定的位置。

所述方法将注视手协调误差从12.10%降低到5.39%,降低了55.49%。相关发现强调了视觉和手动任务的复杂性如何影响注视手计时误差,并展示了一种有前途的检测和校正算法,在注视手交互过程中实现了高速度和准确性。

研究旨在通过解决眼手协调错误来增强头戴式显示器的相互作用,特别关注后触发错误。所提出的GazeHandSync是一种自适应算法,旨在动态补偿注视和手部输入之间的时间偏移。这一发方案发现证实了后触发错误是主要的眼手协调问题,并证明GazeHandSync可以有效地减轻错误,提高了交互的准确性和可靠性。

与传统的固定偏移方法相比,这一自适应方法提供了卓越的性能,突出了其推进眼手交互范例的潜力。对用户性能指标的分析显示,延迟触发的错误占所有注视手协调错误的86.57%,平均时间偏移为100.75 ms (SD 94.9)。这种高可变性表明,固定延迟方法是不够的,而GazeHandSync等自适应方法可能会表现得更好。

UI交互复杂性同样显著影响用户性能:由于广泛的视觉搜索,更高的视觉复杂性延长了输入时间,而更高的手动输入复杂性增加了输入时间和错误率。然而,捏指错误率保持在1.61% (SD 3.87)的低水平,并且不受视觉复杂性的影响,这表明多指捏指可能是一种可靠的头显输入法。

韩国研究团队提出GazeHandSync算法改善头显眼手交互误差

总体而言,参与者的平均输入时间为1.13秒,比先前研究报告的1.65秒的任务时间快。然而,由于任务设计和关键线索参数(如目标尺寸)的差异,与先前研究的直接比较可能没有意义。因此,未来的工作应该将这一技术应用于更多样化的任务。另外,GazeHandSync算法在检测延迟触发错误方面表现出色,使用一般模型实现了97.31% (SD 0.18)的准确率。

算法根据用户的注视模式调整注视位置,将总体错误率从12.10%降低到5.39%。这种改进超过了固定的85 ms偏移方法的性能,后者产生8.96%的错误率。通过动态调整实时输入模式,GazeHandSync提供了一个灵活的解决方案,可以适应各种UI任务的复杂性和个人行为。

在我们的评估中,梯度增强和随机森林表现出相似的性能,表明它们的有效性可能取决于特定的数据集和任务。因此,模型参数的进一步微调可以改善错误缓解和整体系统性能。另外,个别模型的表现略优于通用模型,平均准确率为97.42%,特别有利于使用通用模型获得较低准确率的用户。

尽管数据集变异性增加,LOOCV模型同样保持了96.78%的平均准确率。重要的是,产生少量错误(如P5(0.71%错误))的参与者依然可以从所述技术中获益——所有错误都使用针对此类参与者的LOOCV模型进行了纠正。这个结果强调了GazeHandSync的广泛适用性。

当然,尽管结果很有希望,但特定限制影响了通用性。单一头显设备(Meta Quest Pro)的使用限制了对其他平台的适用性,并且本研究中使用的任务是顺序式的,涉及大目标(11.42度),因此将研究扩展到不同的任务类型,目标大小和布局将是有益的。进一步的工作应评估实时适用性、系统响应性、数据分析窗口和计算效率。

同时,需要更深入地研究自适应补偿与静态偏移的用户体验,以了解舒适性、直观性和满意度。另外,系统可以从解决早期触发错误和集成其他输入,以及结合深度学习模型来改善错误缓解中受益。

最后,小样本量(20名参与者)限制了更广泛的见解。未来的研究应该评估GazeHandSync对非典型行为个体(如老年人、渐冻症患者)的有效性,以确保未来的凝视-手交互系统具有更广泛的适用性和包容性。

相关论文GazeHandSync: Mitigating Late-Trigger Errors for Seamless Gaze-Hand Interactions

https://dl.acm.org/doi/pdf/10.1145/3715669.3723126

总的来说,团队介绍了一种创新的GazeHandSync算法,旨在减轻头显指向任务中延迟触发的眼手协调错误。研究结果表明,GazeHandSync可以在沉浸式虚拟环境中提高眼手交互的准确性和用户体验,为商用头显中更直观、无缝的多模式交互系统铺平道路。

本文链接https://news.nweon.com/131556
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯