多机构联合发布空间视频数据集SVD支持立体视频研究

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

空间视频数据集

映维网Nweon 2025年10月16日)立体视频因其能够通过虚拟现实和增强现实等多种应用提供沉浸式三维内容,长期以来一直是研究的重点。其双视角格式固有的双目视差线索可增强深度感知与真实感。但直至近期,用于采集、编码与观看高质量立体视频的端到端流程既未广泛普及,同时未曾针对消费级设备优化。如今,Apple Vision Pro等现代头戴式显示器已内置支持立体视频采集、硬件加速编码、以及在Apple Vision Pro和Meta Quest 3等设备的无缝播放,用户操作极为简便。苹果将这一高效工作流称为”空间视频”。全民可用的完整立体视频流程催生了新的应用场景。尽管技术进步显著,目前依然缺乏包含完整空间视频流程的公开数据集。

在一项研究中,奥地利克拉根福大学,美国东北大学,英国卡迪夫大学和北京智源人工智能研究院团队提出空间视频数据集SVD,包含300段5秒视频序列(其中iPhone Pro与AVP各拍摄150段),以及10段时长至少2分钟的长视频。SVD数据集以开放许可协议公开发布,旨在促进编解码器性能评估、主客观体验质量评估、基于深度的计算机视觉、立体视频流传输以及神经渲染和体积捕捉等新兴三维应用的研究。

多机构联合发布空间视频数据集SVD支持立体视频研究

沉浸式媒体技术通过呈现更真实且视觉冲击力更强的场景,正在重新定义数字内容的体验方式。虚拟现实、增强现实和混合现实的发展推动了高分辨率头戴显示器、空间音频集成及改进的立体渲染技术的进步。这种技术在娱乐、教育和视觉传达等领域实现了高度沉浸的体验,其中真实感和强烈临场感至关重要。

立体视频作为沉浸式媒体的核心组件,通过模拟人类视觉利用双目视差感知深度的机制来提升真实感。实际应用中需使用双镜头或双摄像头设置采集场景的左右视角,并通过精密校准保持已知基线距离和光学参数。采集过程中,精确同步与几何校准确保各视角的对应像素位于同一极线,便于准确视差估算。播放时,专用显示技术将左右视图分别投射至相应眼睛,人类视觉系统通过融合两幅图像并利用微小瞳距差重建连贯深度图,最终形成逼真的三维空间感知。

尽管立体视频在深度感知方面优势明显,但其发展长期受限于采集复杂度高、需严格校准、双流数据速率要求高以及显示硬件限制等因素,导致其在消费级和广播领域的应用受阻。

近年来,支持原生立体视频工作流的消费级设备显著降低了技术门槛。iPhone Pro等智能手机内置双摄像头支持空间视频采集,AVP和Meta Quest 3等头显设备提供原生播放支持。这些设备同时配备硬件加速编码功能,可通过HEVC(x265)等现代编解码器实现高效压缩。

苹果提出”空间视频”术语来描述这种从采集到播放紧密集成的流程,使用户能以最小技术成本创作和体验三维内容。尽管已有大量成熟的二维视频数据集,但高质量立体视频数据集依然十分稀缺,这主要源于立体视频采集的技术挑战、可用立体显示设备的缺乏以及优化立体视频编码器的需求。随着采集技术的进步和沉浸式显示设备的普及,障碍已大幅减少。

为推动立体视频处理研究,奥地利克拉根福大学,美国东北大学,英国卡迪夫大学,北京智源人工智能研究院团队推出空间视频数据集SVD,一组使用iPhone 16 Pro和AVP设备采集的高质量立体视频片段合集。数据集包含每台设备拍摄的150段5秒短视频及10段双方共同拍摄的长视频,涵盖多样化的室内外环境、不同运动动态和独特采集场景。SVD专为支持立体图像/视频编码、流传输、体验质量评估和画质评价等广泛应用而设计,为研究者推进沉浸式媒体技术提供了强大资源。

本数据集丰富的特征和高品质立体内容可支持多媒体、计算机视觉及沉浸式媒体领域的广泛研发应用。以下概述几个可有效利用该数据集的关键方向:

编解码器开发与比较:本数据集可作为立体及多视图内容编解码器开发与评估的实用基准。早期标准如H.264中的MVC和HEVC中的MV-HEVC通过引入视间预测提升立体视频压缩效率。近期苹果在其空间视频格式中采用MV-HEVC,且x265编码器4.1版本起支持MV-HEVC,从而在其高效压缩框架内实现优化立体编码。凭借空间/时间复杂度、视差和SSIM等多样化特征,本数据集支持率失真性能、视图一致性和编码速度方面的全面编解码器比较,还可用于评估快速编码算法和基于学习的内容自适应压缩策略。

单目转立体视频:本数据集可用于训练和评估将单目(2D)视频转换为立体(3D)格式的模型——这对增强现实/虚拟现实应用中提供沉浸式内容日益重要。作为固有不适定问题,立体转换技术随深度学习发展显著,从早期卷积方法演进至基于扩散的先进模型。这些方法通常通过估算单目深度并通过修复或生成合成补偿遮挡区域来从左视图生成右视图,但常存在伪影且缺乏结构准确性控制。通过提供高质量立体图像对、密集视差图和SSIM等感知相似性指标,本数据集为提升立体视图合成的真实感、一致性和保真度提供了强监督与验证工具。

视频质量评估:本数据集凭借其多样特征非常适合进行立体视频主观质量评估。这种可变性支持受控实验,用于评估不同内容特性如何影响头戴显示器和立体显示器等各种观看条件下人类对三维视频质量的感知。主观研究结果可用于开发和验证专为立体内容定制的全参考与无参考视频质量指标。

视频流传输:数据集中的长视频序列特别适合流传输应用,可实时评估自适应传输策略。这些片段支持内容感知码率阶梯构建研究,其中空间、时间和视差特征可为立体视频优化质量层级提供依据。数据集同时便于每标题编码,允许根据个体内容特性定制编码参数以提高压缩效率和视觉质量。另外,它支持三维流传输中体验质量研究,包括码率波动、深度伪影和视间不一致性的影响。通过结合客观特征与潜在主观评估,本数据集为开发和测试立体及沉浸式视频服务的自适应流传输算法提供了全面基础。

相关论文SVD: Spatial Video Dataset

https://arxiv.org/pdf/2506.06037

总的来说,SVD是一个旨在支持立体与沉浸式媒体技术广泛研究的公开空间视频数据集。数据集采用iPhone Pro和AVP等消费级设备采集,包含涵盖大量真实场景的短长两种高质量立体视频序列。除原始视频外,团队同时提供空间/时间复杂度、亮度、色彩丰富度、视差和视间SSIM等底层特征集,支持多应用领域的深度分析。SVD专为编解码器开发与基准测试、单目转立体视频合成、主客观视频质量评估及自适应流传输等任务设计。其多样化的内容类型、延长序列时长和逐帧指标使其成为传统和新兴三维视频处理算法训练、评估与比较的理想资源。

具体数据集请访问这个页面

本文链接https://news.nweon.com/135141
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯