中美三校联合团队开发VRSplat技术提升VR高斯渲染效率

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

能够在消除伪影的同时,达到72+ FPS的帧率

映维网Nweon 2025年08月29日)33DGS已迅速成为新视角合成领域的领先技术,通过高效的基于软件的GPU光栅化提供了卓越的性能。其多功能性使其能够应用于实时场景,包括移动设备和低功耗设备。然而,3DGS在虚拟现实中面临关键挑战,包括时间伪影,基于投影的失真,以及渲染帧率下降等等

与桌面环境相比,头戴式显示器的大视场角、持续的头部运动和高分辨率极大地放大了问题。在一项研究中,北京大学,格拉茨技术大学和卡内基梅隆大学团队介绍了VRSplat。

他们结合并扩展了3DGS领域的多项近期进展,以整体性地解决VR挑战,并展示了Mini-Splatting、StopThePop和Optimal Projection的思想如何通过修改各自的技术以及核心3DGS光栅化器来相互补充。另外,研究人员提出了一种高效的注视点渲染光栅化器,它能在单次GPU启动中处理焦点区域和外围区域,避免冗余计算并提高GPU利用率。

所提出方法同时包含一个微调步骤,以基于StopThePop的深度评估和Optimal Projection来优化高斯参数。一项包含25名被试的受控用户研究验证了所提出方法,结果显示参与者强烈偏好VRSplat而非其他Mini-Splatting配置。VRSplat是首个经过系统评估、能够支持现代VR应用的3DGS方法,能够在消除伪影的同时,达到72+ FPS的帧率。

中美三校联合团队开发VRSplat技术提升VR高斯渲染效率

近年来,新视角合成领域因神经辐射场NeRF的引入及其后续的广泛发展而取得了显著进步。最近,3DGS通过使用显式的3D高斯点云而非隐式的体积场来表示场景,带来了范式转变。3DGS不仅提供高视觉质量和短训练时间,而且能通过基于GPU的软件光栅化或传统图形管道实现高效渲染。

捕获和合成真实世界场景的新视角在各种应用中至关重要,例如沉浸式体验。其中,虚拟现实 因其对高帧率和交互性的严格要求而成为一个特别的焦点。3DGS光栅化令人印象深刻的性能使其非常适合在低功耗头戴式显示器渲染,但原始3DGS实现中的几个局限性会破坏沉浸式体验。

光栅化过程中对全局图元排序的依赖会在视点变化时引入突现伪影,这在VR中尤其令人不适,因为头显中头部持续存在微运动。另外,将3D高斯投影到2D Splat会导致投影误差,并且误差随着距图像平面中心距离的增加而加剧。在VR中,由于宽视场角,误差进一步放大,导致高斯变得扭曲或呈云状,从而损害视觉体验。

最后,3DGS重建中由启发式驱动的致密化通常会产生过大的点云,由于运行时间与图元数量直接相关,因此难以维持交互式帧率。

为了解决上述局限性,北京大学,格拉茨技术大学和卡内基梅隆大学团队引入了VRSplat,这是一个用于在VR中渲染高斯飞溅的鲁棒且高效的解决方案。所提出方法以有意义的方式结合了3DGS领域的最新进展,并引入了新颖的、有针对性的高性能优化,以确保视觉一致、无伪影的渲染,同时维持VR所需的帧率。

尽管VRSplat可以与任何生成紧凑3D高斯集的场景重建方法一起使用,但由于其减少了图元数量,他们选择了Mini-Splatting,并采用StopThePop中使用的分层光栅化 来缓解突现伪影,同时应用Optimal Projection来消除投影伪影。然而,这两种方法都伴随着显著的性能开销。为了应对这一点,他们提出了一种单通道注视点渲染技术,以提高了性能并确保在原生头显分辨率下持续达到建议的≥ 72 FPS帧率。

中美三校联合团队开发VRSplat技术提升VR高斯渲染效率

消除突现伪影

由于Mini-Splatting使用显著减少的图元数量来表示场景,高斯自然更大,因此更容易出现突现伪影。先前的研究证明,根据沿视线方向的深度对高斯泼溅进行分层逐像素重排序 能够有效克服突现伪影。因此,选择相关渲染器来实现视觉一致的渲染。3DGS使用其可微渲染器通过反向传播优化高斯参数(包括位置、旋转、尺度、不透明度和球谐系数)。排序顺序在优化过程中起着重要作用,即模型需要使用与训练时相同的排序顺序进行渲染。

因此,直接将StopThePop应用于Mini-Splatting模型(在训练期间使用全局排序顺序)会降低图像质量。所以,研究人员选择使用StopThePop光栅化(不进行致密化,从而保持低图元数量)对小型Mini-Splatting模型进行微调,事实证明这足以在标准图像质量指标上达到同等或更高的分数(具体取决于数据集)。

最小化投影误差

由3DGS的局部仿射近似引起的基于投影的失真在VR中尤其令人困扰,因为大视场角和用户头部的持续运动会导致云状伪影旋转并遮挡视线。Optimal Projection对投影步骤引入的误差进行了详细分析并提出了解决方案:即,将每个高斯投影到单位球体在点o处的切平面上,平面垂直于连接o和𝝁的直线,其中o表示camera位置。

然而,Optimal Projection与StopThePop中提出的Tile Based Culling并不直接兼容。Tile Based Culling通过以下方式减少高斯/Tile组合的数量:(1) 计算每个高斯/Tile组合的𝐺2D最大值;(2) 如果𝛼 < 1/255,则从特定Tile中剪除该高斯。先前研究表明,可以通过最大化高斯在距离2D均值最近的Tile边界上的贡献来计算𝐺2D的最大值。然而,这一计算完全在屏幕空间中使用轴对齐Tile完成,因此需要一种改进的算法来配合Optimal Projection工作。

当2D高斯的均值𝝁2D位于Tile内部时,最大贡献点xˆ = 𝝁2D;否则,xˆ必须位于从𝝁2D可达的其中一条边上。对于Optimal Projection,Tile Based Culling无法再在图像平面执行,而是需要在每个高斯的优化平面进行评估。从𝝁2D最多可能到达两条相邻边,因为投影保留了它们在原始视图平面中的几何关系。对于每个候选边p + 𝑡 · d,通过求密度关于𝑡的导数并令其等于零,可以计算出沿该线的最大密度点。

单通道注视点渲染

为了弥补StopThePop光栅化和Optimal Projection带来的性能损失,团队利用外围视觉敏锐度较低的特点,采用注视点渲染。尽管多通道解决方案(分别渲染中心和外围区域)仅需对流程进行微小更改,并且在结合适当的剔除时可能有效但它们需要多次处理相同的高斯。因此,他们提出了一种有针对性的单通道解决方案。

团队仅通过启动不同大小的Tile来区分高分辨率区域和低分辨率区域。然而,所有的策略可以直接应用于进一步降低分辨率。如图5a所示,通过为中心区域使用16×16像素Tile,为外围区域使用32×32像素Tile来实现高分辨率与低分辨率区域的分割。在实践中,总是首先将图像划分为32×32像素Tile,这些Tile在中心区域被分割为四个独立的16×16子Tile。

这种映射可以在每次渲染通道开始时高效计算,并且能够在渲染阶段计算需要启动的确切块数。像Meta Quest 3这样的消费级头显通常不提供眼动追踪,因此可以为每只眼睛预计算一次此映射,并在帧之间重复使用。

在基于Tile的光栅化过程中,将高斯分配给32×32Tile。这导致总体上高斯/Tile组合更少,但在渲染阶段增加了工作负载,因为中心区域的子Tile需要加载更多的高斯。然而,利用StopThePop的分层剔除来缓解此问题,使得能够为16×16子Tile早期高效地剔除不必要的高斯。

在渲染阶段,为16×16和32×32Tile都启动包含256个线程的块(与StopThePop和3DGS相同)。但是,较大Tile中的每个线程处理2×2像素组并将它们视为单个像素,有效地将分辨率减半。最后,将高分辨率区域与低分辨率区域混合以避免明显的间断。对于高分辨率区域中的过渡子Tile,通过平均2×2像素的值来近似低分辨率Tile的颜色,并根据连续混合掩码将其与单个像素值混合。对于低分辨率区域,执行最近邻上采样并使用3×3高斯核进行模糊处理,这证明能有效抑制伪影。

团队提出通过剔除头显中不可见的Tile来进一步加速渲染。处理头显可用的可见性掩码(例如通过OpenXR),为每个Tile创建一个比特字段,指示Tile的任何像素是否可见。随后,从这个比特字段计算一个积分和表,并分两个阶段实例化高斯/Tile组合:首先,使用积分和表计算每个高斯可能接触的可见Tile的精确数量(见图5b);然后,使用此信息分配全局排序缓冲区,并计算每个高斯的实例在此缓冲区内的范围。

这导致排序条目减少,因为图像可见区域之外的高斯/Tile组合不会被实例化。在单通道注视点渲染方法中,可以通过将“不可见”Tile完全从预计算的映射中移除来进一步减少Tile数量,这导致Tile数量减少约11%,高斯/Tile组合总数减少约6%。

团队在一个受控用户研究中定量和定性地评估所有方法,使用三个公认的数据集:Mip-NeRF 360数据集、Tanks & Temples 和Deep Blending。他们使用支持OpenXR的SIBR框架[和定制的软件光栅化器进行性能评估和用户研究,其中使用接到配备NVIDIA RTX 4090的台式机的Meta Quest 3,并以原生分辨率(2064 × 2272像素)进行渲染。除了所提出方法,团队同时消融了一个优化的两通道注视点渲染器,以展示单通道方法的性能改进。

相关论文VRSplat: Fast and Robust Gaussian Splatting for Virtual Reality

https://arxiv.org/pdf/2505.10144

总的来说,团队确定了3DGS在提供高质量虚拟现实体验方面的局限性。通过回顾解决其中部分挑战的最新进展,研究人员开发了一个解决方案,整合了多种技术以实现沉浸式、无伪影的VR渲染。另外,他们提出了一种新颖的单通道注视点渲染解决方案。以Meta Quest 3作为基础,相关解决方案在所有测试场景中始终达到实时帧率。另外,正式用户研究验证了结果,表明用户在不同场景集上对所提出方法有明确的偏好。

尽管方法成功缓解了最突出的伪影,但近似的分层深度排序在具有复杂几何关系的区域中仍可能导致闪烁。这突显了对3D高斯进行鲁棒的细节层次方案或完全精确的体积渲染的需求。尽管光追3DGS是一种潜在的解决方案,但最近的研究表明,它目前对于高质量的VR体验来说计算成本依然过高。

本文链接https://news.nweon.com/132102
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯