悉尼大学研发TA-GNN模型实现VR环境高精度手指运动预测
可以在没有额外传感器的情况下增强手指追踪
(映维网Nweon 2025年06月27日)利用历史关节位置/旋转连续预测手指关节运动在一系列的应用中至关重要,特别是与虚拟现实相关的应用。然而,手指的运动是高度清晰的,具有多个自由度,这使得它们很难建模和预测。为了解决这一挑战,悉尼大学团队提出了一种物理启发的神经网络来准确预测人类手指运动。
所提出的编码器包括用于生成过滤速度和加速度的运动学特征提取器和遵循线性运动学的基于物理的编码器。模型设计为跨预测时间实现,因此它可以无缝地提供连续的预测。基于图形的解码器用于学习手指关节之间的拓扑运动,以解决更高程度的手指关节。
在虚拟现实环境中,团队展示了模型性能的优越性。这种新颖的方法可以在没有额外传感器的情况下增强手指追踪,实现了预测交互,如触觉重定向和提高预测渲染质量。
人体运动预测在不同领域有很多应用,如虚拟现实。这种方法允许系统理解人类行为并产生逼真的运动。它允许人们有机会以更直观和身临其境的方式与系统进行交互。
人体运动预测既可以包括全身运动,或可以包括特定身体部位,包括上肢、下肢和手指。特别是在虚拟现实中,手和手指的交互已经成为与虚拟对象交互的一种广泛使用方法。尽管手指追踪在这种交互方式中发挥着至关重要的作用,但由于遮挡、不正确的图形渲染和离散运动模糊,手指追踪技术依然存在显著的错误和延迟,从而导致用户体验不佳。
在肢体或全身运动追踪等领域,运动预测模型能够改善这类追踪问题。然而,手和手指具有诸多自由度的运动,而手指运动的性质是高度明确的,使手和手指之间的相互作用的建模更具挑战性。
准确和连续的手指运动预测模型可以帮助预渲染图形,预测用户行为,实时纠正错误。具体来说,连续预测在上述应用程序中至关重要,因为它可以为预测提供灵活性。与只预测特定时间段运动的模型不同,连续时间模型可以预测手指如何连续运动,而无需额外的训练步骤。
这对于流畅的运动预测至关重要,尤其是当用户用手指与虚拟对象交互时。由于这种模型的学习权值不需要随预测时间而改变,所以可称之为跨时间实现模型。线性运动方程集是自由体运动物理学中最强大的工具之一,能够进行精确的跨时间预测。以其作为灵感,团队设计了模型架构来捕获手指关节运动的运动学。
然而,由于肌肉施加的力量、人类意图的变化以及关节之间的相互联系,每个手指关节并不单独遵循相关方程。这就需要非线性预测模型。为了从历史数据中提取每个关节的运动学特征(即角速度和角加速度,如图1绿框所示),研究人员使用了运动学特征提取器模块,如图1绿色背景所示。
他们使用辅助损失函数来保证这些运动特征的精确计算。为了加强运动约束和编码每个关节的时间特征,使用基于跨时间物理的编码器模块(图1黄色背景)。为了学习关节之间的空间域互连,应用图卷积网络作为解码器(图1蓝色背景)来提取不同手指关节之间的拓扑运动信息。
鉴于每个手指关节与其父关节保持关联关系,研究人员建立了解码器的边缘连接,以逼真的方式学习和预测手指如何移动。结合这三个组成部分,他们得出了一个跨时间深度学习模型,称为TA-GNN。它能够学习每个手指关节内部和跨越的时间和拓扑信息。TA-GNN的体系结构如图1所示。
可用于全身运动预测的大量大规模数据集是这一领域普及和快速发展的关键因素之一。但相比之下,手指运动数据集的数量有限,特别是对于VR应用。可用的数据集在准确性和泛化方面面临限制,因为它们是使用带有应变计的数据手套收集。团队进行了一项用户研究,在VR环境中收集了一个名为VRHands的新型手指动捕数据集。在VRHands数据集和现有Re:InterHand数据集进行的实验表明,与基线相比,TA-GNN具有显著的改进。
相关论文:TA-GNN: Physics Inspired Time-Agnostic Graph Neural Network for Finger Motion Prediction
总的来说,团队提出了一种基于物理的跨时间深度学习模型,并从历史关节角度预测手指运动。模型包括一个运动学特征提取器,用于从历史运动数据中生成角速度和角加速度。然后是基于运动学方程的基于物理的编码器,它分别预测每个关节的未来位移角。然后,采用基于图的解码器学习手指关节间的拓扑运动信息。
模型采用跨时间方法设计,将其权重与指定的预测时间段解耦。这使得单个模型可以提前400毫秒预测未来的运动,无需分别对每个时间段进行训练。与基线方法相比,TA-GNN能够显著降低手指运动预测误差。这种新颖的方法在没有额外传感器的情况下增强了手指追踪,实现了预测交互,如触觉重定向和提高预测渲染质量。