DiVR:基于多模态Transformer的VR场景人体轨迹预测模型
强调了使用VR数据集进行情景感知人类轨迹建模的优势
(映维网Nweon 2025年04月22日)虚拟环境为收集人类行为的详细数据提供了丰富和可控的设置,为预测动态场景中的人类轨迹提供了独特的机会。然而,大多数现有方法都专注于静态情景,而没有考虑用户特定的因素。
所以利用CREATTIVE3D数据集,法国蔚蓝海岸大学和普瓦提埃大学团队在VR场景中记录了各种情况的轨迹,包括过马路任务和模拟的视觉障碍等。
他们提出了多元语境VR人体运动预测DiVR。这个基于Perceiver架构的跨模式transformer使用异构图卷积网络集成了静态和动态场景语境。大量的实验表明,与其他模型和静态图相比,DiVR具有更高的精度和适应性,并强调了使用VR数据集进行情景感知人类轨迹建模的优势,而且在增强元宇宙用户体验方面具有潜在的应用。
捕获个体与环境之间的动态交互对于人类运动预测至关重要,而包括视觉场景上下文可以提高预测的准确性。然而,现有的方法主要依赖于逐帧视频分析,难以充分解释复杂的交互。由3D传感器生成的场景点云提供空间数据,但不能不红时间变化和人类意图。
数据捕获和表示方法尽管在受控和简单的场景中十分有用,但在提供对动态环境中个人意图和交互的细微理解方面存在不足。这一限制显著影响了预测的准确性,特别是在复杂的导航场景中。
虚拟现实技术提供了一种安全、可控的媒介以复制真实世界的场景来研究人类行为。所以,法国蔚蓝海岸大学和普瓦提埃大学团队利用CREATTIVE3D数据集,在VR场景中记录了各种情况的轨迹,包括过马路任务和模拟的视觉障碍等。
CREATTIVE3D数据集是研究不可或缺的一环,它提供了基于本体的VR环境,并对3D场景、对象和交互式任务进行了注释。另外,它包括模拟低视力条件的场景和注视追踪,可以更深入地研究模型如何捕获个体行为,从而帮助解决现有计算机视觉方法和数据集的局限性。
所提出的DiVR是一种使用异构图表示来有效捕获人类环境动态特性的新模型,如图1所示。研究人员利用CREATTIVE3D数据集中的注释来测试和改进用于人体运动预测的DiVR。通过合并静态和动态变量,DiVR捕获交互和环境因素,使其能够在不同的用户,任务复杂性和场景布局中进行泛化。
DiVR模型利用三种数据模式:注视插值的场景点云,过去的运动数据,以及通过异构图表示的人-场景交互上下文。模式中的每一个都由使用Perceiver架构的单个分支处理。
第一个分支使用PointNet++从插入场景点云的注视数据中提取特征并编码为latent向量fgaze。同时,第二个分支将原始运动数据转换为latent运动表示。第三个分支则利用TemporalGCN来处理时间异构图,生成上下文的潜在图向量。
DiVR架构的核心是一个跨模式注意机制,它融合了运动和注视,增强了模型对注视方向和运动之间相互作用的敏感性。
另外,机制通过预测跨模式转换器集成了上下文,并结合了运动、注视和环境图形数据。这种多种模式的融合,以及使用异构图对环境和交互的结构化表示,极大地提高了未来轨迹预测的准确性。
实验结果显示,DiVR-Het不仅优于MLP基线,ADE和FDE分别降低了31.2%和44.3%,而且与GIMO相比。另外,它显示了整合high-level环境的有效性。同样,与基线相比,DiVR-Hom显示出显著改善,ADE减少27.3%,FDE减少34.3%。
相关论文:DiVR: incorporating context from diverse VR scenes for human trajectory prediction
总的来说,DiVR是一种用于人类轨迹预测的多模式transformer,利用来自丰富VR上下文数据的异构图形。实验证明了DiVR在不同条件下的稳健性,并通过泛化测试突出了这一点。这项研究的一个关键优势是在广泛的场景中进行了详细的评估,通过基于图形和时间建模技术展示了DiVR在处理复杂任务和低视力条件方面的有效性。
但一个值得注意的限制是,模型依赖于高质量的数据集来准确地创建场景图,而相关数据集并不广泛可用。为了缓解这种情况,未来的工作可以探索来自智能城市基础设施和自动驾驶汽车传感器的数据,以提供实时交通和行人数据。这将增强模型在现实场景中的适用性和性能,有助于开发更具适应性的城市交通系统。
另外,VR在将不同场景和人群纳入培训方面的优势凸显了它在现实生活中重要应用的潜力。
源代码请访问GitHub。