华为、清华研究员为稀疏传感器重建全身运动提出身体姿势图框架
通过稀疏传感来重建全身运动
(映维网Nweon 2024年08月30日)利用稀疏传感器数据估计3D全身姿态是增强现实和虚拟现实中重建真实人体运动的关键技术。然而,将稀疏传感器信号转化为全面的人体运动依然是一个挑战,因为普通VR系统中稀疏分布的传感器无法捕获整个人体的运动。
在一项研究中,华为、清华大学和上海人工智能实验室等企业和机构组成的团队利用精心设计的身体姿势图(Body Pose Graph/BPG)来表示人体,并将挑战转化为图缺节点的预测问题。
在这个基础之上,研究人员提出了一种基于BPG的全身运动重构框架。为了建立BPG,首先赋予节点从稀疏传感器信号中提取的特征。来自不同传感器的可识别关节节点的特征从时间和空间角度进行合并和处理。使用时间金字塔结构捕获时间动态,而关节运动中的空间关系通知空间属性。所得到的特征作为BPG节点的基本元素。
为了进一步完善BPG,通过包含反映不同关节关系的神经网络更新节点特征。实验证明所述方法的有效性达到了最先进的性能,特别是下半身运动,优于其他基准方法。另外,消融研究验证了所提出框架中每个模块的有效性。
基于稀疏运动传感的连续全身运动重建对于增强现实和虚拟现实的应用至关重要,因为你需要高度精确的人体运动姿势来呈现Avatar并进行交互。常见的VR系统由头戴式显示器和手持控制器组成。它们可以提供丰富的上半身运动信息,但无法提供相应的下半身运动数据。
已知数据分布固有的显着稀疏性使得基于人体运动和匹配运动的传统方法难以生成逼真的全身运动。
业界已经采用了各种基于学习的方法,以从AR/VR中的稀疏输入生成全身替身。在不同的研究中,它们基本上需要从稀疏传感器数据中提取特征,但缺乏对人体关节关系的考虑。随后,提取的特征整合到各种网络架构中,而这同样缺乏对人体关节之间相互依存关系的深刻考虑。
方法的同质化限制了从稀疏输入到网络结构更新领域重建人体运动的发展。另外,由于缺乏足够的人体信息,导致人体下半身的重建结果与实际运动动力学之间存在显著差异。
为了解决上述问题,团队从图形的角度考虑人体,提出BPG来表示全身。然后将任务转换为预测已建立的BPG中缺失的节点。考虑到缺失节点的可用信息有限,BPG根据节点属性进行初始化和更新。
第一阶段是处理节点特征。由于位置特征和角度特征具有不同的变换规律和分布,所以将它们融合在一起。在融合帧级和片段级特征的基础之上提出时间金字塔结构,以建立用于特征表示的时间属性。
为了建模空间属性,根据人体骨骼动力学分别生成肢体关节和躯干关节的特征。生成的运动特征指定为BPG中的初始特征。
在节点特征更新阶段,根据关节关系更新BPG中的节点。将节点关系划分为静态骨架关系、动态骨架关系和latent骨架关系。然后在Graph Convolution Network中更新BPG中的节点特征,并根据节点关系生成具有表达性的边缘。
团队将所述方法与基线方法进行比较。结果表明,所提出方法在所有三个指标都取得了优异的结果,优于所有其他方法。通过将人体表示为Graph,并对关节之间的时空关系进行建模,所提出方法优于基线方法,特别是在预测未见的下半身关节方面,
同时,他们与离线方法进行了对比。AGRoL是最先进的离线方法。在团队提出的方法中,他们使用41帧传感器序列作为输入,并在每个推理中输出1帧。在表2中,AGRoL表示输入序列和输出序列的长度都是41。
由于采用了针对人体设计的特征生成方法和基于Graph的架构,在相同条件下,所提出的方法在所有指标上都优于AGRoL。当将输出序列长度扩展到192时,AGRoL在MPJVE度量中表现出值得称赞的性能。然而,MPJVE指标的增强并没有转化为MPJRE和MPJPE指标的优越结果,而MPJPE指标对重构任务更为重要。
相比之下,所提出的方法在MPJRE和MPJPE指标中都表现出优异的性能,进一步证实了其有效性。
另外,消融研究验证了所提出框架中每个模块的有效性。
相关论文:Full-Body Motion Reconstruction with Sparse Sensing from Graph Perspective
总的来说,团队通过基于Graph的视角来处理稀疏传感器输入的全身运动重建任务,引入BPG来表示人体。在节点特征初始化步骤中,首先集成不同类型的VR系统设备特征。然后对新生成的特征进行处理,获得关节运动的空间属性和时间属性,然后作为Body Pose Graph的初始节点特征。时间属性由时间金字塔结构生成,空间属性由关节运动空间关系生成。
在节点特征更新阶段,使用具有表达性边缘的GNN来更新BPG中的节点特征。所述方法通过综合评估证明了卓越的性能。消融研究证实了单个组件的有效性。