研究团队开发基于毫米波雷达的隐私保护VR手势识别系统
通过集成毫米波雷达和IMU进行手势识别
(映维网Nweon 2025年05月26日)诸如Apple Vision Pro等先进的头显采用底部摄像头来检测手势和输入,这为用户在虚拟现实交互中提供了极大的便利。然而,面向底部的摄像头有时会带来不便,并可能无意中暴露敏感信息,例如私人身体部位或个人环境。
为了缓解所述问题,西安交通大学和浙江大学团队提出了EgoHand。系统通过集成毫米波雷达和IMU进行手势识别,从而提供了另一种解决方案,并为用户提供了手势交互的额外选择,增强了隐私保护。
为了准确识别手势,团队设计了一种基于骨架的两阶段手势识别方案。在第一阶段,采用一种新颖的端到端transformer结构来估计手关节的坐标。随后,利用估计的关节坐标进行手势识别。
涉及10名受试者的大量实验表明,EgoHand检测手势的准确率为90.8%。另外,EgoHand在各种跨领域测试中表现出强大的性能。
虚拟现实技术在娱乐、教育、工作等领域提供了新的人机交互方式。VR中最关键的技术之一是手势识别。目前的手势识别解决方案主要包括摄像头,例如Apple Vision Pro。但是,下置摄像头可能会暴露个人隐私,例如用户的敏感部位和私人居住环境等。
为了缓解所述问题,西安交通大学和浙江大学团队提出了EgoHand。系统通过集成毫米波雷达和imu进行手势识别提供了另一种解决方案,从而为用户提供了手势交互的额外选择,增强了隐私保护。
目前基于毫米波雷达的手势识别研究通常涉及将雷达固定在固定位置,并从正面水平角度估计手势。另外,有的研究已经探索了使用毫米波雷达来在更动态的环境中捕获人类的运动。
EgoHand是一个在头部安装毫米波雷达的系统,并用于自中心的手部姿势估计和手势识别。这种差异使得现有的毫米波雷达工作不适合EgoHand,这给团队带来了两个挑战。首先,第一人称视角VR交互手势包括单手手势和双手手势,需要自动区分和识别。
为了解决这个问题,团队采取了两个阶段的方法。第一阶段利用端到端基于transformer的架构来自动估计手部关键点,提供能够直接识别单手或双手关键点信息的端到端解决方案。第二阶段利用手部关键点信息作为输入,采用分类方法进行手势识别。
第二个挑战来自毫米波信号的不规则波动,这是由于毫米波设备本身随着用户头部的移动而移动。头部运动导致雷达改变位置,降低手势识别的准确性。为了解决这个问题,团队将IMU与毫米波雷达集成在一起,以补偿头部运动引起的位置变化,并采用特征融合策略。
在EgoHand中,毫米波雷达的原始信号被转换成距离-多普勒热图和距离-角度热图。数据与IMU数据一起分别输入到毫米波雷达编码器和IMU编码器中,以学习相应的雷达表示和IMU表示,并进一步连接并依次通过姿态解码器和上下文解码器。
姿态解码器生成一组候选手部姿态特征,而上下文解码器进一步整合时间上下文信息,通过MLP层生成一组手部关键点。
在训练阶段,同步手部运动视频,并使用谷歌MediaPipe Hand Landmark SDK将视频处理成手部关键点,后期作为训练监督。团队应用set-based Hungarian匹配算法对MLP生成的手关键点进行监督优化。
在推理过程中,将MLP生成的具有高置信度的手部关键点输入到ResNet50中,以端到端方式获得手势识别结果。
研究人员对10名志愿者在3种不同场景和姿势下的8种手势互动进行了评估。在EgoHand中,手部姿态的平均关节位置误差(MPJPE)为72.7 mm,手势识别准确率为90.8%。
与直接使用ResNet50进行手势识别相比,两阶段网络方法将识别精度提高了约30%。在跨人实验中,手势识别正确率为83.9%,跨场景实验正确率为76.9%,交叉手实验正确率为77.1%。所述结果证明了EgoHand在域内和跨域VR手势识别中的有效性。
总的来说,EgoHand是一种概念验证解决方案,用于VR交互手势识别,并利用毫米波雷达和IMU来保护更多的个人隐私。不过,目前的EgoHand看起来有点笨重,但未来有可能得到改善。另外,毫米波雷达可能暴露健康指标,如呼吸和心率,但这可以通过调整雷达信号的范围和角度来减轻。