Meta联合多所高校研发全身运动预测模型RPM
在追踪输入丢失后依然可以产生平滑过渡
(映维网Nweon 2025年07月18日)在扩展现实中,生成用户的全身运动对于理解他们的行为,驱动虚拟化身进行社交互动,并传达真实临场感非常重要。现在越来越多的XR应用选择基于视觉的手部追踪,以减少用户摩擦和更好的沉浸感。与控制器相比,手部追踪信号不太准确,甚至可能在长时间后丢失。
为了处理这种不可靠的输入,Meta,巴塞罗那大学,Computer Vision Center和伦敦国王学院团队提出了滚动预测模型(RPM)。这种在线和实时方法可以从时间和空间稀疏的输入信号中生成平滑的全身运动。模型可以生成与输入匹配的精确运动和当输入缺失时可信的运动。
更重要的是,RPM生成从追踪到合成的无缝转换,反之亦然。为了证明处理噪点和缺失输入的实际重要性,研究人员又提出了GORP,这是一个来自商业虚拟现实头显的真实稀疏输入数据集,具有成对的高质量身体运动ground truth值。GORP提供了28个人使用控制器(空间稀疏)和手部追踪(空间和时间稀疏)的14小时VR游戏数据。团队在合成数据和GORP对RPM进行了基准测试,以突出如何通过处理不可靠的输入信号,用真实的数据集弥合现实应用程序的差距。
近年来,我们见证了扩展现实应用的爆炸式增长。无论是在完全沉浸式的虚拟世界中,还是在增强现实中,了解用户的全身运动对于理解他们与世界和其他人的互动至关重要。然而,用户的全身运动只能从惯性测量单元(IMU)或SLAM的空间稀疏自心传感信号中推断出来。
先前的研究在假设输入信号始终可用且可靠的情况下取得了很好的结果。然而,这主要适用于控制器(MC),但不适用于频繁和更用户友好的手部追踪(HT)设置。对于手部追踪,手部遮挡频繁,导致手势信号缺失,如图1所示。在这种传感信号丢失的情况下,一个优秀的解决方案应该依然可以合成可信的全身运动(即合成模式)。
当缺失的手势信号重新出现(即追踪模式)时,其位置和运动动力学可能与当前合成结果不匹配。在这种情况下,与其立即抓拍手部,更需要的是提供真实运动动态的平滑过渡,因为运动不连续会破坏感知到的运动真实感,而这对于确保共在期间的沉浸感至关重要。
尽管这个问题很重要,但迄今为止只有很少的研究进行了探索。其中一个主要障碍是缺乏具有真实传感信号和高质量ground truth的数据集。收集这样的数据集需要解决来自商业XR设备的传感数据与动捕(MoCap)之间精确同步和校准的繁琐任务。相反,以前的研究使用合成数据进行训练。然而,基准测试无法复制在实际使用中遇到的诸多挑战,例如频繁的追踪信号丢失和高噪点手部追踪输入。所以,在合成数据训练的模型在暴露于真实追踪输入时往往表现不佳,这突出了对捕获真实XR场景的新数据集的需求。
在这项研究中,Meta,巴塞罗那大学,Computer Vision Center和伦敦国王学院团队提出了滚动预测模型(RPM)。这种在线和实时方法可以从时间和空间稀疏的输入信号中生成平滑的全身运动。模型可以生成与输入匹配的精确运动和当输入缺失时可信的运动。
表1和表2分别显示了在MC和HT两种情况下RPM与SOTA的比较。尽管大多数SOTA方法在MC场景中显示出非常精确的运动生成,但在手部追踪信号丢失的情况下,它们无法生成平滑的过渡。正如预期的那样,AvatarPoser、SAGE、EgoPoser和AvatarJLM等基线一旦重新出现就会匹配新的手部追踪信号,从而导致突变(即非常高的AUJS-T)。
即便是HMD-Poser,在追踪输入损失后都会显示出非常粗糙的过渡。基于生成扩散的基线AGRoL,在在线应用时显示出高抖动,这是由于去噪链中的长跳跃,需要使其计算效率高。
相比之下,团队提出的模型在MC/HT设置中都显示出具有竞争力的准确性,并且是唯一能够在追踪输入丢失后依然可以产生平滑过渡的模型(比AUJS-T低50倍)。通过调整预测长度,可以增加或减少生成运动对追踪信号的反应。实验表明,由于追踪输入和合成运动之间的错位,vanilla RPM退化。通过加入自由运行阶段,模型对自身的错误具有鲁棒性,达到了竞争精度。
为了评估算法在真实场景下的性能,团队通过Meta Quest 3收集了一个真实的VR游戏数据集,并使用Optitrack动捕系统获得了同步和校准的ground truth。为了同步两个系统的数据,研究人员开发了高度精确的专有解决方案,校准误差小于1毫米。
28名参与者分别玩了一个基于控制器的游戏和一个基于手部追踪的游戏,各玩了15分钟(总共14个小时)。选择的游戏鼓励玩家进行各种各样的手部和手臂动作,以涵盖各种各样的现实活动。他们在Meta Quest 3中扩展了基于计算机视觉的追踪算法,以揭示当控制器或手在摄像头视场之外时的追踪问题。
团队指出,这个数据集是第一个提供真实追踪信号和高质量ground truth的数据集。GORP使得他们能够研究合成基准和实际基准之间的差距。为此,他们在GORP生成的合成MC和HT设置训练所有基线和所提出方法,就像对A-P1和A-P2所做的那样。然后,在模拟MC/HT追踪输入和真实追踪输入信号上对方法进行了评估。
如表4所示,在实际MC输入的评估中,所有方法的MPJPE都增加了20%左右,这可能是由于控制器的非刚性位置造成。在HT模式下,如表5所示,频繁的追踪信号丢失和噪点手部追踪检测以类似的方式影响模型的精度。运动动力学同样受到影响,产生高达4倍的抖动运动,高达x2的MPJVE (AvatarJLM)。
最后,研究人员在真实追踪输入重新训练所有模型,而这提高了所有模型的精度和平滑度指标。然而,尽管取得了进展,但性能依然落后于在合成数据进行训练和评估时所取得的成绩。这可能是由于合成基准测试无法捕获实际输入的额外挑战。这种差异凸显了对更现实基准的需求,比如GORP,它可以帮助弥合合成性能和真实性能之间的差距。
在图6和7直观地比较了A-P1和GORP数据集产生的运动。研究人员观察RPM如何在追踪信号丢失期间合成合理的运动。一旦恢复了追踪,RPM是唯一能够生成平滑过渡以再次匹配追踪的方法。至于其他的方法,则是立即对准新的追踪信号,并打破之前运动的连续性。可以看出,RPM的平滑过渡带来比其他方法更现实的运动。
相关论文:From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction Models
总的来说,RPM是一种实时运行的新架构,并解决了从空间和时间稀疏追踪输入生成全身运动的具体挑战。即便追踪输入突然丢失或恢复,RPM都能产生平滑的人体运动。得益于PCAF,可以控制模型对追踪输入的反应,以匹配不同应用程序的需求。
研究人员同时提出了GORP,这是一个具有配对真实VR追踪数据的运动数据集。有了它,团队为这个任务提供了迄今为止最完整的基准测试。研究结果显示了在合成数据集训练的方法在应用于真实数据时面临的性能差距,并强调了GORP在这一领域推动进展的潜力。
当然,考虑到RPM的确定性,在长时间的追踪信号丢失期间,生成的运动有时会失去表达性。所以,未来的研究包括扩展RPM以细化多种可能的未来动作,并使用其他动作表示。