雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

中国团队为R/VR大模型内容生成发布500万组EgoVid-5M数据集

查看引用/信息源请点击:映维网Nweon

数据集

映维网Nweon 2025年04月15日)视频生成已经成为世界模拟的一个重要工具,可以利用视觉数据来复制现实世界的环境。以人类视角为中心的以自中心视频生成在增强虚拟现实和增强现实等应用方面具有巨大的潜力。

然而,由于自中心视点的动态性、行为的复杂性和所遇场景的复杂性,自中心视频生成面临着巨大的挑战,现有的数据集不足以有效应对。

为了弥补这一差距,阿里巴巴,中国科学院自动化研究所,清华大学和中国科学院大学团队提出了一个相关的数据集EgoVid-5M。

它包含500万个自中心视频剪辑,并提供了详细的动作注释。为了确保数据集的完整性和可用性,团队实现了一个复杂的数据清洗管道,目标是保持帧一致性、动作一致性和自中心条件下的运动平滑性。

在视频生成领域,世界模拟器的开发十分重要。相关系统利用视觉模拟和交互在物理世界中提供应用程序。当代研究越来越多地验证了视频生成在这一领域的能力,包括AR/VR。

在以人为中心的场景中,利用行为动作来驱动自中心视频生成已经成为一种关键策略,并极大地增强了AR/VR等领域的应用,提供了更加身临其境的交互式体验。

视频生成需要大量高质量的训练数据,而由于以自中心视角的动态性,动作的丰富性以及所遇场景的多样性,这一要求在自中心视频生成中更为严格。尽管对专业数据的需求非常迫切,但目前缺乏合适的大规模数据集来训练自中心视频生成模型。

为了弥补这一差距,阿里巴巴,中国科学院自动化研究所,清华大学和中国科学院大学团队提出了EgoVid5M数据集,这是一个专门为自中心视频生成而设计的开创性高质量数据集。

团队指出,它具有以下数个关键特征:

  • 高质量:数据集以1080p分辨率提供500万个自中心视频。与Ego4D相反,EgoVid-5M经过了严格的数据清洗过程。视频采用了严格的标准,包括动作描述和视频内容之间的一致性,动作的大小以及帧之间的一致性。

  • 场景覆盖全面:EgoVid-5M覆盖家庭环境、户外环境、办公活动、体育运动、熟练操作等全方位场景。它包含了数百种行动类别,从而涵盖了以自中心视角遇到的大多数场景。

  • 详细和精确的注释:数据集包含广泛的行为注释,分为细粒度的运动学控制和高层次的动作描述。对于运动学信息,团队使用视觉惯性里程计(VIO)来提供精确的注释,确保与视频内容精确对齐。对于动作描述,采用多模态大语言模型结合大语言模型生成详细的文本注释。

利用提出的EgoVid-5M数据集,研究人员训练了不同的视频生成基线来验证数据集的质量和有效性。实验结果表明,EgoVid-5M显著增强了自我中心视频生成的训练。

另外,团队提出了EgoDreamer,它利用动作描述和运动控制来驱动自中心视频生成。为了全面评估自中心视频生成,团队建立了一套广泛的评估指标。度量包含多个维度,例如视觉质量、帧一致性、动作的语义遵从性和运动学精度。大量实验表明,EgoVid-5M显著增强了各种视频生成模型制作高质量自我中心视频的能力。

相关论文EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

总的来说,EgoVid-5M是一个自中心视频高质量数据集,包含500万个视频片段。数据集有效地解决了与自中心视角的动态性、复杂的行动多样性和所遇复杂场景相关的挑战。

复杂的数据清理管道实现进一步确保了数据集的完整性和可用性,在自中心条件下保持帧一致性、动作一致性和运动平滑性。另外,团队提出的EgoDreamer展示了通过同时结合动作描述和运动控制信号来生成自中心视频的能力,从而增强了生成内容的真实感和适用性。

团队表示,希望EgoVid-5M数据集以及相关的注释和元数据将作为研究社区的宝贵资源,并鼓励研究人员利用相关创新来推动自中心视频生成领域的进一步探索和发展,并最终推进在虚拟现实和增强现实等领域的应用。

更多信息请访问这个页面

本文链接https://news.nweon.com/129136
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯