清华大学等团队发布EyeNavGS 6DoF导航数据集及记录回放软件

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

六自由度导航数据集

映维网Nweon 2025年09月26日)3DGS是一种新兴的媒体表示技术,能够高保真地重建真实世界的3D场景,并支持在虚拟现实中进行六自由度导航。然而,开发和评估支持3DGS的应用程序以及优化其渲染性能,都需要真实的用户导航数据。目前,对于真实世界场景的光线级真实感3DGS重建,这类数据尚不可用。

所以,美国罗格斯大学和台湾清华大学团队介绍了EyeNavGS,这是首个公开可用的六自由度导航数据集,包含46名参与者探索十二个多样化真实世界3DGS场景的轨迹。数据集在两个地点收集,使用Meta Quest Pro头显,记录了在自由导航期间每个渲染帧的头部姿态和眼动注视数据。对于十二个场景中的每一个,研究人员都进行了细致的场景初始化以校正场景倾斜和尺度,确保感知舒适的VR体验。

团队同时发布了开源的SIBR查看器软件分支,提供记录和回放功能,以及一套用于数据处理、转换和可视化的实用工具。EyeNavGS数据集及其附带的软件工具为推进六自由度视口预测、自适应流传输、3D显著性以及3DGS场景的注视点渲染等方面的研究提供了宝贵资源。

清华大学等团队发布EyeNavGS 6DoF导航数据集及记录回放软件

自2023年推出以来,3DGS迅速成为一种用于3D场景表示的流行沉浸式媒体格式,支持对复杂真实世界环境进行高保真、六自由度的探索。由于其快速的训练时间和实时渲染速度,它受到了学术界和工业界的广泛关注。3DGS解锁了新的可能性,包括在支持WebGL的移动设备进行渲染,并将传统的视频流传输范式扩展到完整的六自由度体三维内容。

例如,SGSS和L3GS提出了针对静态3DGS场景的流传输方法。LapisGS 引入了一种分层3DGS表示,支持渐进式自适应流传输。在LapisGS的基础上,LTS提出了动态3DGS场景的自适应流传输方法。然而,缺乏合适的数据集阻碍了支持3DGS的系统和应用的发展与评估。为了在真实条件下正确评估自适应流传输算法的系统性能、渲染优化、压缩策略和体验质量,记录用户与六自由度场景真实交互的大规模数据集至关重要。

然而,目前没有什么可用的数据集。缺乏这类数据集迫使研究人员依赖合成轨迹或从不同3D表示收集的数据集,而它们可能无法忠实代表用户与高保真3DGS内容的交互。为了弥补这一空白,美国罗格斯大学和台湾清华大学团队介绍了EyeNavGS,一个公开可用的用户导航轨迹数据集。它包含穿越十二个场景的轨迹,涵盖室内和室外环境,并为研究虚拟现实中的用户导航行为以及性能-质量权衡提供了多样化的视觉特性。

为了准备每个训练好的3DGS场景以进行沉浸式探索,团队校正每个原始场景以符合人类对物理世界的假设。校正包括:i) 校正初始四元数以修复场景倾斜,ii) 选择每个场景的比例因子以确保物体与其真实世界比例匹配,以及 iii) 建立示例起始观看位置。每个场景的值如表1所示。

清华大学等团队发布EyeNavGS 6DoF导航数据集及记录回放软件

场景倾斜和方向校正: 3DGS场景是从COLMAP生成的初始点云训练而来的。然而,COLMAP重建的坐标系本身并非重力对齐的。方向不正确的场景经常导致令人迷失方向的倾斜、不自然的坡度、扭曲的camera行为,从而降低虚拟环境中的临场感和空间连贯性。

为了在VR中创造感知舒适的体验,必须首先将虚拟场景与重力对齐。所提出的解决方案不是修改每个场景训练好的3DGS .ply文件,而是在加载每个场景时应用校正变换。为了找到场景的倾斜量,使用Blender和支持3DGS点数据的KIRI Engine插件实现一个稳健的程序。在Blender中,插入了一个垂直于Y轴(与重力对齐)的参考平面,并手动调整场景的方向,确保其地平面与虚拟Y轴正交并与参考平面匹配。这个过程有效地纠正了任何残余倾斜,确保用户感知到的场景是接地和稳定的,避免了处于斜坡上的感知错觉。旋转参数随后导出为四元数,并在VR渲染期间于运行时应用,以确保与用户物理“舞台”区域的正确对齐。

场景尺度校准: 原始训练好的3DGS场景的另一个关键限制是缺乏固有的真实世界尺度——这同样归因于COLMAP。在VR头显中进行立体渲染时,场景单位与物理世界单位之间缺乏校准会严重扭曲感知到的物体大小。例如,比例过小的场景会导致用户感觉异常巨大,像巨人一样。这是因为物理瞳距IPD相对于虚拟世界的尺度被有效地放大。

由于VR渲染本质上依赖于精确模拟用户双眼之间的双目视差,所以校准场景尺度对于保持沉浸感和视觉舒适度至关重要。与场景倾斜校正类似,避免直接修改训练好的3DGS .ply文件。相反,在运行时应用每个场景的比例因子,将真实世界公制测量的运动映射到场景的虚拟单位。

研究人员在每个场景中引入了尺寸精确的参考对象,例如一个1米立方体。通过比较真实场景中的已知尺寸(例如,车辆的宽度、楼梯的踏步高度)与其3DGS表示,团队在Blender的单位系统中迭代调整了场景比例。校准后的比例因子记录下来并在运行时应用,确保感知到的虚拟场景符合真实世界比例,并支持感知正确的立体视觉IPD渲染。

除了倾斜和尺度,初始视图位置同样会影响用户的第一印象和后续探索。3DGS场景的默认原点([0, 0, 0])通常对应于捕获体积的中心,这可能导致不理想的起始视点,例如在树或墙内,或漂浮在空中。为了改善用户体验,为每个场景手动选择了语义上有意义且物理上合理的初始camera位置——通常是地板高度且周围有充足可导航空间的区域。选择相关位置是为了模拟自然的人类视角,促进直观的探索,并避免遮挡或碰撞。

研究人员扩展了SIBR核心渲染引擎,增加了专为OpenXR中3DGS定制的记录和回放功能。

记录模式: 在记录模式下,修改后的OpenXR模块在用户的VR会话期间捕获细粒度的、每帧数据。对于每个渲染帧和每只眼睛(左和右),记录一组全面的参数:视场、眼睛位置、头部方向(作为四元数),以及眼睛注视位置和注视方向四元数。数据与渲染循环同步,并保存到具有精确时间戳的结构化csv文件中。这使得能够完整准确地离线重建用户的视点。

回放模式: 回放模式利用记录的轨迹来复现原始的VR会话,用于分析和渲染视图生成。在回放期间,解析记录的轨迹,并将记录的数据逐行注入渲染管线,覆盖头显姿态信息。回放模式生成两个独立的视频,每只眼睛一个,精确复现了原始的立体体验。

清华大学等团队发布EyeNavGS 6DoF导航数据集及记录回放软件

表2概述了记录的csv轨迹的结构。为了支持立体视图,每个渲染帧包含左眼和右眼的渲染视图,通过“ViewIndex”列区分(0表示左眼,1表示右眼)。每只眼睛的FOV由FOV1、FOV2、FOV3和FOV4捕获,分别代表其左、右、上、下边界(以弧度表示)。由于IPD,左眼和右眼在世界坐标系中看到不同的视图。因此,表示视图/头部位置的Pos_X、Pos_Y、Pos_Z对于左眼和右眼是不同的。

另一方面,在世界空间中跟踪的头部方向的四元数由Quat_X、Quat_Y、Quat_Z和Quat_W给出,这对于左眼和右眼是相同的。如果头显支持(例如Meta Quest Pro),记录的轨迹将包含用户注视信息。这里,GazePos_X、GazePos_Y、GazePos_Z表示世界空间中的眼睛注视位置。它们与相应的眼睛位置Pos_X、Pos_Y、Pos_Z非常相似但又不同。

GazeQ_X、GazeQ_Y、GazeQ_Z和GazeQ_W以四元数形式提供世界空间中的眼睛注视方向。由于眼球在眼窝内的运动,这些列可能与头部方向有显著差异。最后,为每个记录的帧记录以毫秒为单位的相对时间戳。表3给出了两个渲染帧的示例列。可以注意到,每两个连续的行对应于每个渲染帧的左眼和右眼视图。

EyeNavGS数据集具有详细的六自由度导航轨迹(包括头部姿态和眼动注视信息),为沉浸式计算系统研究提供了宝贵的机会。EyeNavGS数据集填补了现有数据集所缺乏的、针对重建的真实世界场景的6-DoF用户导航轨迹的空白。VR中重建的真实世界场景的细粒度头部姿态和眼球注视可用于开发六自由度视口预测算法。这种预测可以为自适应媒体流传输算法的设计提供信息,使其仅获取渲染用户视口所需的内容,而不会在表示的未观看部分浪费带宽。

EyeNavGS数据集中丰富的每帧眼球注视信息也为3D显著性研究提供了机会。详细的注视数据可以跨参与者聚合,以创建3DGS场景的真实3D显著性图。这些图随后可用于训练3D显著性模型,以更好地预测用户在看重建的真实世界场景时会注视哪里。另外,由于重建的3DGS场景可能包含缺陷,如构建不足的区域和其他视觉伪影,数据集同时能够研究这些缺陷如何影响用户注视和导航行为。

注视点渲染是VR中的一项重要技术,旨在降低渲染计算需求并提高帧速率。鉴于人类视觉的敏锐度在远离中央凹中心时急剧下降,注视点渲染通过降低用户视图外围(非中央凹)区域的着色率来工作。这可以在对视觉质量影响最小的情况下实现显著的性能提升。现有研究已经探索了将注视点渲染应用于3DGS渲染,例如MetaSapiens和VR-Splatting。EyeNavGS数据集包含了在3DGS场景的自由站立六自由度导航期间收集的每帧眼睛注视轨迹,有助于评估和优化这些注视点渲染技术的实际性能。

相关论文EyeNavGS: A 6-DoF Navigation Dataset and Record-n-Replay Software for Real-World 3DGS Scenes in VR

https://arxiv.org/pdf/2506.02380

总的来说,EyeNavGS是一个基于真实世界场景的光线级真实感3DGS重建的公开可用六自由度导航数据集,同时提供了一个具有记录回放功能的SIBR查看器开源软件分支。EyeNavGS专注于捕获详细且真实的行为。它通过收集用户在真实世界环境场景中的轨迹来实现这一点,而场景经过仔细校准(倾斜、尺度和起始视点)以保持真实感。

数据集捕获了立体姿态、视场角和眼动追踪轨迹。另外,多站点数据收集(两个机构的46名参与者)确保了参与者群体的多样性。EyeNavGS的真实性、细节和多样性为沉浸式媒体研究人员填补了一个关键空白,允许在流传输、渲染和压缩等核心领域进行以用户为中心的评估。

更多关于数据集的信息请访问这个页面

本文链接https://news.nweon.com/132846
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯