卡内基梅隆大学发布Harmony4D数据集,推动真实场景人类互动研究
多视图视频数据集
(映维网Nweon 2025年04月18日)理解人类如何相互作用是构建逼真多人虚拟现实系统的关键。由于缺乏大规模的数据集,这一领域尚未得到充分的探索。关注这一问题的数据集主要包括完全在受控室内环境中捕获的活动,它们具有精心设计的动作,严重影响了多样性。
为了解决这个问题,卡内基梅隆大学团队介绍Harmony4D,这是一个用于人类交互的多视图视频数据集,包括摔跤,舞蹈,综合格斗等in-the-wild活动。研究人员使用灵活的多视图捕获系统来记录动态活动,并为密切交互的被试提供人体检测,追踪,2D/3D姿态估计和网格恢复的注释。
研究人员提出了一种新的无标记算法来追踪严重遮挡和密切交互下的三维人体姿势,以最少的人工干预获得注释。Harmony4D由166万张图像和332万人类实例组成,来自20多个同步摄像头,具有208个视频序列,跨越不同的环境和24个独特的主题。
团队严格评估了现有的最先进网格恢复方法,并强调了它们在模拟密切交互场景方面的重大局限性。另外,他们对Harmony4D的预训练HMR2.0模型进行了微调,并在严重遮挡和接触的场景中展示了54.8% PVE的改进性能。
作为社会生物,人类经常通过身体接触与他人互动。通过研究相关的相互作用,人们可以潜在地揭示人类行为的各个方面,包括情感和意图等。与计算机视觉中的大多数问题一样,建模接触交互的第一步涉及建立大规模的3D多人数据集。
近年来出现了一系列这样的数据集。然而,与大多数现有的单人数据集类似,接触交互数据集缺乏主体和环境多样性,并且是在受控的室内条件下通过编排的活动捕获,很难泛化到现实世界的条件。
核心问题是,由于严重的遮挡、截断和动态运动,为频繁的人类接触场景恢复高质量的ground truth网格具有挑战性。
现有的方法通常依赖于广泛的RGBD动捕系统或大量的高端有线摄像头系统来实现准确的注释。这种对广泛的静态捕获系统的依赖使得in-the-wild数据收集不切实际。
所以问题是:能否开发一种无标记捕获系统,只使用数个摄像头,移动式,并且能够准确地提取3D ground truth,在in-the-wild场景中涉及接触互动?为了应对这一挑战,卡内基梅隆大学团队引入了Harmony4D数据集。
Harmony4D是一个新颖的数据集,具有高分辨率视频的动态活动与接触交互,如摔跤,舞蹈,空手道,综合格斗和击剑。与以前的数据集相比,Harmony4D是在in-the-wild收集,特别关注主题和环境的多样性。
表1将数据集与现有的3D人体数据集进行了比较。Harmony4D是一个相当大的数据集,包括从20多个同步摄像头捕获的166万张图像,产生332万个可见的人类实例。具体来说,团队提供了全面的ground truth注释,如摄像头参数、2D边界框、2D/3D人体姿势和3D人体网格等。
多摄像头设置的灵感来自于EgoHumans,并利用Meta的Aria眼镜,以及用于第三人称视图的固定RGB摄像头。
这种组合使得团队能够在不使用视觉标记或额外传感器的情况下长时间准确地追踪和三角测量3D姿势。注释过程最大限度地减少了人工监督的需要。研究人员将任何输入的多视点视频序列分为两个阶段:接触前和接触后。
接触前阶段是指被试之间第一次身体互动之前的时间间隔。团队利用现有的姿态提取算法在接触前阶段获得三维姿态。然而,现有的方法在接触后的场景中面临着巨大的挑战,主要是由于被试非常接近时(例如在摔跤或跳舞期间)存在严重的遮挡、截断和关节模糊。
对于具有挑战性的接触后阶段,团队提出了一种新的算法,使用实例分割,分割条件下的2D姿态估计和3D姿态预测在时间反馈回路中精确追踪3D姿态。关键思想是使用分割条件2D姿态估计来推断缺失或完全隐藏的身体部位,并消除多个人体关节之间的歧义。
最后,团队建立了一个高效的多阶段动捕管道,将SMPL身体模型拟合到3D人体骨骼中,并结合优化以最小化网格相互穿透。Harmony4D数据集广泛的规模和多样的场景,使人类接触估计方法的全面评估和改进成为可能。
研究人员特别评估了目前的人类网格回归技术。当在大型训练集对现成的方法进行微调时,微调后的方法可以很好地泛化到具有挑战性的接触交互,甚至优于专门为人类接触推理设计的方法。另外,可以观察到在顶点接触预测和遮挡推理方面的显著改进。
相关论文:Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions
总的来说,团队提出了一种新的方法来追踪、分割和定位在in-the-wild条件下频繁动态物理接触的多人近距离互动的四维身体网格。关键思想是使用多视图分割条件下的姿态估计,3D运动模型预测和碰撞优化来获得精确的身体模型参数。
使用所述方法,研究人员构建了不同的Harmony4D数据集,并带有ground truth注释,以用于网格恢复。重点放在捕获真实世界中未经编排的动态活动,如摔跤、舞蹈、空手道和综合格斗。
评估表明,在大型训练集微调基线提高了严重遮挡和接触条件下的网格估计性能。更多信息请访问这个页面。