韩国提出QORT-Former框架,实现AR/VR双手交互实时姿态分析
查看引用/信息源请点击:techxplore
仅使用108个查询和1个解码器(在RTX 3090TI GPU为53.5 FPS)就实现了实时姿态估计性能
(映维网Nweon 2025年04月07日)韩国蔚山科学技术院团队开发了一种全新的人工智能框架已经开发出来,为操纵物体的两只手提供了实时分析的新功能,并可以用于AR/VR。
业界在理解姿势和手物交互方面取得了重大进展。但增强现实和虚拟现实技术的出现提高了相关应用对实时性能的需求。然而,当前最先进的模型往往以大量的计算开销为代价。
所以,韩国蔚山科学技术院团队提出了QORT-Former。这个查询优化的实时Transformer是一个基于Transformer的实时框架,主要用于手部和物体的三维姿态估计。
研究人员首先限制查询和解码器的数量以满足效率要求。鉴于查询和解码器的数量有限,他们建议优化作为Transformer解码器输入的查询,以确保更好的准确性:
-
建议将查询分为三种类型(左手查询,右手查询和对象查询)并增强查询特征
-
使用手和对象之间的接触信息
-
使用增强图像和查询特征的三步更新。
利用所提出的方法,团队仅使用108个查询和1个解码器(在RTX 3090TI GPU为53.5 FPS)就实现了实时姿态估计性能。所提出方法比H2O数据集的最先进结果高出17.6%(左手),22.8%(右手)和27.2%(对象),比FPHA数据集的最先进结果高出5.3%(右手)和10.4%(对象),
实验证明,相关解决方案在准确性方面表现出色。与以往需要大量计算资源的方法不同,QORT-Former在保持最先进精度的同时实现了卓越的效率。
相关论文:QORT-Former: Query-optimized Real-time Transformer for Understanding Two Hands Manipulating Objects
团队人员表示:“QORT-Former代表了对手-物交互理解的重大进步。它可以实现增强现实、虚拟现实等领域的实时应用。我们的研究表明,效率和准确性可以同时优化。我们期待在需要实时手-物交互分析的领域更广泛地采用我们的方法。”