雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Meta开发通用神经解码器,显著提升XR手势键盘输入性能

查看引用/信息源请点击:映维网Nweon

可通用的神经解码器

映维网Nweon 2025年04月03日)单词手势键盘(Word-Gesture Keyboards/WGK) 是一种通过连续滑动或手势轨迹输入单词的键盘技术,核心思想是通过用户手指在虚拟键盘的滑动路径,快速识别并输入完整单词,而非逐个字母点击。

WGK对于扩展现实而言是一种富有前景的键盘输入。传统的方法容易产生解码不准确的噪点轨迹。尽管基于神经网络的解码器(神经解码器)已有提出训练文字手势轨迹数据来提高准确性,但它们有自己的局限性:需要大量的训练数据和深度学习专业知识来实现。

为了应对相关挑战,Meta和布里斯托大学团队提出了一种结合了易于实现和高解码精度的新颖解决方案:一种可通用的神经解码器。通过对大规模粗略离散的文字-手势轨迹进行预训练来实现。

这种方法产生了一种现成的解码器。对四个不同的数据集进行评估,它的平均准确率高达90.4%,并以37.2%的增强明显优于SHARK2,并超过传统的神经解码器7.4%。另外,在不牺牲精度的情况下,量化后预训练神经解码器的大小仅为4mb,并且可以实时运行,在Quest 3中只需97毫秒即可执行。

为了在XR环境中实现快速准确的文本输入,业界已经提出并开发了大量技术。其中,单词手势键盘WGK是一种非常有前景的解决方案。对于熟练用户而言,它可以实现每分钟20到40个单词的文本输入速度。这种方法不仅具有优异的可学习性,在触屏设备广泛采用,而且由于单词-手势轨迹的模糊性,所述方法固有地处理了噪点和模糊的输入。

然而,以往的研究大多集中在开发新的交互技术上。单词-手势解码过程将单词-手势轨迹转译成文本,并主要采用经典的SHARK2解码器。SHARK2 是一种模板匹配算法,它计算输入轨迹与从单词语料库构建的预定义单词-手势模板的相似性,并基于轨迹模板相似性给出排名靠前的预测。

模板匹配解码器的流行源于它们的简单性;它们只需要预先定义文字手势模板和相似度指标,使匹配算法能够以即插即用的方式使用。然而,相关算法并非没有其局限性,例如无法预测词汇外(OOV)单词以及缺乏对噪点输入轨迹[47]的解码精度。

早前有研究人员将神经解码器与SHARK2进行了比较,表明神经解码器的性能明显优于SHARK2。然而,由于一个显著的缺点,神经解码器的采用受到限制:它们需要大量的训练数据。假设不同的WGK系统表现出不同的轨迹模式,使得在一个系统训练的神经解码器无法泛化到另一个系统。这种限制不仅是由于交互模式的变化,而且由于键盘大小和用户行为的不同。

另外,开发和训练神经解码器需要深厚的专业知识,因为与已经拥有诸多开源代码库的经典深度学习模型相比,这种模型的构建和训练更加复杂。

Meta和布里斯托大学团队的目标是提供一个通用的神经解码器,并结合易于配置和实现与高解码精度。

为了实现这一点,研究人员提出了一种新的轨迹表示。这种新颖的表示方式能够承受来自不同WGK交互模式、键盘大小和用户行为的高噪点和轨迹差异。所以,它可以在一个WGK系统的数据集预训练神经解码器,从而在其他WGK系统中泛化,无需显式微调。这消除了收集训练数据和复杂配置的需要。

研究人员从以zero-shot学习能力而闻名的大型语言模型中获得灵感,通过在大量语料库进行预训练,目标是用大量数据预训练一个神经解码器,以实现不同WGK系统的泛化性。然而,使用SHARK2和神经解码器使用的笛卡尔坐标序列进行直接训练不切实际,因为相关序列是细粒度的,并且在AR和VR的不同WGK系统中差异很大。

所以团队提出了一种新的编码方法,将连续轨迹序列编码为粗略离散表示,如图2所示。这种方法解决了数据集可变性的挑战,并增强了模型对轨迹模式的理解。

更具体地说,团队在从手机WGK收集的公共词手势轨迹数据集结合合成词手势轨迹数据集对解码器进行了预训练,并在四个数据集进一步验证了预训练神经解码器。

结果显示,它的平均准确率高达90.4%,并以37.2%的增强明显优于SHARK2,并超过传统的神经解码器7.4%。另外,在不牺牲精度的情况下,量化后预训练神经解码器的大小仅为4mb,并且可以实时运行,在Quest 3中只需97毫秒即可执行。

相关论文Gesture2Text: A Generalizable Decoder for Word-Gesture Keyboards in XR Through Trajectory Coarse Discretization and Pre-training

总的来说,团队介绍了一种新型的预训练神经解码器,而它在不同的AR/VR系统中展示了出色的多功能性和准确性。

通过将复杂的手势轨迹离散为粗略的“像素”,并在大型数据集进行预训练,模型学会了在各种交互模式和设备平台上准确预测来自不同数据集的单词,无需进行特定的微调。

四个具有挑战性的数据集所进行的广泛评估显示,预训练的神经解码器具有强大的性能和通用性,平均Top-1准确率为83.3%,Top-4准确率为90.4%,与传统的神经解码器和流行的SHARK2算法相比,这是一个显著的改进。

另外,解码器可以在移动AR/VR硬件实时运行,并实现流畅的手势输入体验。

本文链接https://news.nweon.com/128899
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯