中国研究团队开发仅需三个IMU传感器的全身动作捕捉技术

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

仅使用佩戴在头部和手腕的三个惯性测量单元传感器获取的惯性数据来估计全身姿态

映维网Nweon 2025年08月28日)支持全身虚拟呈现的动捕系统对于虚拟现实至关重要。与基于视觉的系统相比,从稀疏追踪信号进行全身姿态估计不受环境条件或记录范围的限制。然而,先前的研究要么面临需要在骨盆和下半身佩戴额外传感器的挑战,要么依赖外部视觉传感器获取关键关节的全局位置。

为了提高所述技术在虚拟现实应用中的实用性,由杭州电子科技大学,天津工业大学和丽水学院等组成的团队仅使用佩戴在头部和手腕的三个惯性测量单元(IMU)传感器获取的惯性数据来估计全身姿态,从而降低了硬件系统的复杂性。

在这项研究中,研究人员提出了一种名为渐进式惯性姿态估计器ProgIP的人体姿态估计方法。所述解决方案将神经网络估计与人体动力学模型相结合,考虑了运动链的层次结构,并采用深度递增的多阶段渐进式网络估计来实时重建全身运动。

编码器结合了Transformer编码器和TE-biLSTM,以灵活捕获惯性序列的时间依赖性,而基于MLP的解码器则转换高维特征并将其精确投影到SMPL模型参数。在多个公共数据集的定量和定性实验结果表明,所提出方法在相同输入下优于最先进的方法,并与使用六个IMU传感器的方案性能相当。

中国研究团队开发仅需三个IMU传感器的全身动作捕捉技术

虚拟现实技术通过计算机生成的环境为用户提供沉浸式体验,精确的全身运动追踪在提升这种体验中起着至关重要的作用。虚拟现实与动捕的创新性整合确保了真实世界运动与虚拟场景的无缝对齐,并为运动分析、医疗应用等多个领域开辟了新的交互可能性。

在当前虚拟现实应用中,成熟的高精度动捕捕解决方案之一是基于视觉的方法。这一方法使用多个带标记或不带标记的RGB摄像头估计人体姿态,但容易受到外部环境和应用场景的影响。可穿戴惯性传感器同时为动捕提供了令人满意的解决方案,克服了视觉方法固有的遮挡和监测区域受限问题。例如,商用惯性动捕系统Xsens通过17个或更多惯性传感器获取人体关节的运动信息。

近年来,研究进一步将所需传感器数据减少到六个,稀疏地佩戴在头部、骨盆、手腕和脚踝,并使用稀疏惯性传感器数据实时估计3D人体姿态。然而,佩戴在下半身的额外设备限制了运动的多样性和个人舒适度。在典型的虚拟现实设置中,通常使用头戴式显示器和两个手持控制器进行交互。为了在虚拟现实等应用中减少设备数量并提高便携性,团队的目标是仅利用佩戴在头部和手腕的三个纯惯性传感器提供的加速度和旋转数据,提高全身姿态估计的适用性和效率。

在缺乏稀疏上身关节位置信息的情况下,仅基于已知的惯性约束直接估计全身关节位姿是一个具有挑战性的逆运动学IK问题。然而,传统的IK方法忽略了人体动力学约束,导致关节旋转误差沿运动链累积,最终造成末端关节的不自然形变。他们观察到相邻关节之间存在显著的运动相关性,并引入了一种局部区域建模策略,以根据运动链深度递增的顺序,在多阶段中逐步估计相应区域内具有相同或相似深度的关节位姿。

深度较小的祖先关节的旋转应比深度较大的后代关节的旋转更早被估计,因为深度较小的关节更靠近身体中心,影响其后续深度的所有关节,从而决定了整个骨架的姿态。这种估计策略有效减少了误差累积,提高了虚拟全身角色重建的准确性和自然度。

因此,为了实现逼真的实时全身运动合成,研究人员提出了一种名为渐进式惯性姿态估计器ProgIP的运动链估计方法。如图1所示,所述方法仅利用佩戴在头部和手腕的三个IMU传感器提供的加速度和旋转测量值,沿运动链深度逐步估计关节位姿。精心设计的TE-biLSTM编码器提供了对惯性信号的全局和局部理解,提升了在线模式下的运动重建质量。基于MLP的解码器共享来自编码器的高维复杂特征,将姿态特征投影和转换到SMPL模型参数上。

团队在具有挑战性的公共数据集(包括AMASS、DIP-IMU和TotalCapture)验证了ProgIP的有效性,在使用三组惯性输入进行全身姿态估计方面达到了最先进的性能,并在可接受的延迟内生成逼真的实时动画演示。

另外,他们从最先进的稀疏输入全身姿态估计方法中选择了四个与研究最相似的基线。第一个基线是AvatarPoser。由于输入不包括位置数据,调整其输入信号为加速度、旋转和角速度,同时忽略了其逆运动学模块。第二个基线是AGRoL,将其输入调整为加速度、旋转和角速度。IMUPoser因其设备组合与提及的完美匹配而最接近团队提出的方法,他们省略了其输入信号的下采样和滤波。最后一个基线是TransPose,它使用佩戴在特定位置的六个IMU传感器。

所以,去除了佩戴在骨盆和下半身的传感器,仅估计上身关节位置作为中间过程,不考虑全局平移。所有基线均在GitHub公开可用。为公平比较,遵循原始实现,在相同数据集上进行训练、验证和测试,并保持其他细节与原始一致。

定量评估: 为证明所提出的ProgIP的有效性,使用现有数据集(AMASS-HumanEval&Transition 和 TotalCapture)的测试序列,将其与四个基线进行定量比较。考虑到上身表示的质量对虚拟现实应用也至关重要,将定量评估分为三种场景:估计并评估全身关节位姿、估计全身关节位姿但仅评估上身关节位姿、以及估计并评估上身关节位姿。

中国研究团队开发仅需三个IMU传感器的全身动作捕捉技术

表III、表IV和表V报告了每个指标的平均值和标准差,ProgIP在所有指标上都取得了最佳结果,优于四个基线。AvatarPoser表现次于团队提出方法,在两个数据集上均获得第二好的性能,其基于Transformer的网络提供了显著优势,前向运动学模块减少了运动链中旋转误差的累积。然而,AvatarPoser直接从输入信号估计全身姿态,依赖单一的Transformer架构提取全局特征,没有显式地建模关节的层次关系。

中国研究团队开发仅需三个IMU传感器的全身动作捕捉技术

第三名是TransPose,它使用关节位置作为中间过程来解决关节的相对旋转。然而,仅依赖三组惯性测量不足以准确估计关节的根节点相对位置。IMUPoser在TotalCapture上获得倒数第二的结果,在AMASS上表现最差。与TransPose相比,它简化了关节位置的求解,且设计的RNN结构相对简单。AGRoL在TotalCapture的所有指标中表现最差,在AMASS中表现倒数第二,这归因于其基于MLP的扩散模型。尽管其特制的运动条件扩散模型在运动生成中起关键作用,但其MLP主干未能充分捕获时间信息。

图5展示了TotalCapture数据集中部分序列全身关节沿x轴、y轴和z轴的平均位置误差。可以看出,关节误差不随时间显著漂移,而仅与当前帧的动作相关。这归功于ProgIP设计的多阶段渐进式估计和关节位置一致性损失,增强了相邻关节间的依赖性,减少了关节旋转估计误差沿运动链的累积。在TotalCapture真实数据集上测试时,ProgIP的表现与原始TransPose相当,旋转误差相差3.24度,全局位置误差相差1.46厘米,网格位置误差相差1.01厘米,接近使用六个IMU传感器的全身姿态估计方案,如图6所示。

中国研究团队开发仅需三个IMU传感器的全身动作捕捉技术

同时,为证明其可靠性,团队特别报告了ProgIP针对不同类型运动的误差范围。他们在TotalCapture数据集上进行实验,包括四种运动类型各三次重复,报告了不同运动类型的性能和误差范围,如表VI所示。

定性评估: 使用从TotalCapture数据集中选取的部分序列,将ProgIP重建的姿态与四个基线进行比较,来自真实数据集的定性结果更好地反映了ProgIP的稳定性和优越性。

中国研究团队开发仅需三个IMU传感器的全身动作捕捉技术

图7直观地展示了相关示例,其中ProgIP表现出卓越的性能,并有效捕获了挑战性动作(尤其是手臂动作和骨盆旋转)的细微差别。然而,对于转身动作的下半身重建,即使估计的腿部姿态与真实值略有差异,结果仍然合理。在特定场景中,可以看到ProgIP成功重建了上半身和下半身,而AGRoL在某些情况下未能准确估计上臂姿态。ProgIP在这些真实数据上的表现可归功于精心设计的编码器和解码器有助于捕获运动的一致性和变化性,结合渐进式人体建模,这对于估计具有挑战性的姿态尤其有益。

如定性结果所示,它实现了视觉上令人愉悦的最先进的在线捕获质量。大量的定量和定性实验结果证明,ProgIP在捕获精度和物理真实性方面显著优于基线。在沿运动链深度进行的渐进式估计中,TE-biLSTM编码器和基于MLP的解码器被用于更好地捕获状态变化信号以解决运动模糊问题。同时,估计精度的进一步提升归功于利用前向运动学计算的关节位置的有效约束。

为评估ProgIP关键组件的有效性,团队将其与另外四个变体进行比较:(1) 无深度区域:将身体分割为三个区域,不考虑运动链约束;(2) 无渐进:直接使用惯性测量估计全身姿态,而非多阶段渐进式估计;(3) 无全局信息:渐进式估计任务仅依赖惯性测量,没有全局信息;(4) 无前向运动学:损失函数仅最小化旋转角度,未纳入由前向运动学计算的关节位置带来的额外约束。

他们在AMASS-HumanEval&Transition和TotalCapture数据集将这四种变体与所提出方法进行比较,表VII中的实验结果清晰地展示了性能差异。移除组件显著增加了关节旋转和位置误差。ProgIP逐步估计后代关节位姿并迭代更新父关节位姿以增加运动链深度,这对优化全身运动重建有积极贡献。另外,他们利用前向运动学计算的位置来约束相对于父关节的关节旋转,以进一步提高性能。两个数据集上的趋势证实,ProgIP不仅在合成数据上表现良好,而且在处理真实场景中复杂动态运动时也具有鲁棒性和有效性。

当然,团队坦诚当前方案存在局限性。首先,ProgIP是一种基于学习的方法,因此当遇到与训练数据集差异显著的姿态(如抖动或脚部滑动)时,生成的虚拟形象动画可能表现出不自然的运动,但方法生成的姿态几乎是相同且合理的。在未来的研究中,将构建并整合具有代表性且多样化的包含真实惯性数据的数据集,以增强模型的泛化能力。其次,对于坐下和站起等旋转测量值几乎相似的运动,ProgIP可能重建出不准确的姿态。因此,未来的研究将探索应用于RNN架构的基于加速度的动态初始状态编码器,并在反向传播中引入初始状态一致性正则化项,以进一步增强对加速度信息的敏感性。

第三,尽管与先进的基线相比,ProgIP的手腕位置误差较低,但在某些情况下依然与ground truth存在明显差异。未来应开发有效的补偿机制来优化手部位置估计,因为手部位置在虚拟现实应用中至关重要。最后,姿态估计方法通常需要应用于各种实际场景和环境中。因此,将姿态估计技术与特定应用场景结合并解决实际需求是一个需要考虑的重要问题。

相关论文Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors

https://arxiv.org/pdf/2505.05336

总的来说,ProgIP是一种将人体动力学模型与神经网络相结合、仅使用佩戴在头部和手腕的三个IMU传感器的姿态估计方法。ProgIP通过增加运动链深度逐步重建全身运动,其TE-biLSTM编码器和基于MLP的解码器有效学习并映射了人体运动的时间相关性特征。在多个公共数据集上的大量实验表明,ProgIP优于先进方法,并通过生成逼真合理的运动满足了实时操作的要求。所提出的仅依赖三个IMU传感器的解决方案为实际的全身虚拟现实应用提供了经济且稳定的技术支持。

本文链接https://news.nweon.com/132089
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯