加州大学与密歇根大学研发分层3D高斯飞溅传输技术
高效的3D内容交付框架
(映维网Nweon 2025年07月21日)传统的3D内容表示包括密集的点云,消耗大量的数据和网络带宽,而新的表示,如神经辐射场NeRF,由于其非标准的体积渲染管道,帧率很低。3D高斯飞溅(3DGS)可以看作是点云的一种泛化,它满足了两者的最佳效果,具有高视觉质量和实时帧率的高效渲染。然而,由于高网络数据消耗(例如单个场景1.5 GB),将3DGS场景从托管服务器传送到客户端设备依然具有挑战性。
在一项研究中,加州大学和密歇根大学团队希望创建一个高效的3D内容交付框架,允许用户使用3DGS作为底层数据表示来查看高质量的3D场景。团队的主要贡献包括:
创建新的Layered 3D Gaussian Splats场景以实现高效传输;
调度算法以选择在什么时间下载哪些 splat;
由VR头显设备用户进行的实验以评估视觉质量和延迟。
团队提出的Layered 3D Gaussian Splats系统显示出高视觉质量,与基线相比,平均SSIM提高了16.9%,并且可以与其他压缩3DGS表示一起使用。
传统的3D内容表示包括网格和点云。最近,3D场景建模的新技术已经出现,在真实感和建模能力方面优于传统表示,例如神经辐射场(NeRF)和3D高斯飞溅(3D Gaussian Splat/3DGS)。NeRF需要大量的机器学习模型训练来表示3D场景,并依赖于缓慢的体渲染技术。
2023年引入的3D高斯飞溅可以看作是点云的泛化,其中每个3D“splat”都具有位置,体积和颜色特征。它们已经实现了突出的实时渲染能力和优秀的视觉质量。通常,3D场景存储在服务器,因为创建3D场景需要大量的计算。想要查看3D场景的客户可以下载场景模型并在本地渲染以供查看。这给查看3DGS场景的用户带来了几个网络传输挑战:
3DGS场景可能非常大,并且在查看之前下载整个场景会给用户造成很长的启动延迟。
3DGS场景由大量的splats(在标准数据集中为700k到1M)组成,splats对视觉质量的重要性各不相同。目前尚不清楚哪些splat应该优先交付给用户。
3DGS场景沉浸在用户周围。用户有完整的六个自由度,可以自由走动,从不同角度查看场景的不同层和部分,所以很难确定要向用户提供哪些部分。
在这项研究中,加州大学和密歇根大学团队设计了一个高效、高保真的3D场景交付框架L3GS,并使用3DGS作为底层数据表示。
利用高斯飞溅的独特结构,团队设计了一种定制的训练方案,生成分层的3DGS。这种表示允许首先显示一个“基础层”,然后在上面显示额外的“增强层”。这允许基于网络带宽渐进式下载场景的不同部分,同时重用以前下载的图层。
为了能够细粒度、可扩展地选择视觉上重要的splat进行下载,而不是为每个splat做出单独的决定,团队将3D场景分割成对象,其中每个对象是一组splat。这种分组支持3D场景的交互式编辑,因此用户可以与语义对象进行交互,而不是单独的splats。
另外,收集用户佩戴VR头显设备和在标准3DGS场景中移动的痕迹。这为用户预测模块提供了支持,以确定哪些可能与用户的视口相关且重要,所以需要优先交付。
L3GS的架构如图1所示。给定一个由3DGS组成的3D场景,系统决定检索什么是最好的splat,以便在用户的视口中呈现内容,同时尊重估计的网络带宽。要做到这一点,有四个组件:
分割,分层的3D高斯splats:为了向用户提供逐步提高的质量,创建了带有层的3DGS场景,包括一个基础层和几个增强层。另外,团队创建了更复杂的分层场景,场景可以自动分割成语义上有意义的对象,从而实现用户交互和场景编辑。
Splat下载调度程序:给定一个3DGS场景,调度器根据每一层中每个分段对象的效用值,加上可用的网络带宽,来决定每一层中每个对象下载什么splats。团队正式定义了各种情况下的优化问题,并设计了最优算法来解决它们。
用户视口预测器:研究人员收集了用户佩戴VR头显(Meta Quest 3)的痕迹,以及他们在标准3DGS场景周围的六自由度运动。为了根据过去的历史预测用户未来的视口,使用线性回归,这是因为它简单而成功。
带宽预测器:使用室外5G用户的行走轨迹来模拟可变的5G网络带宽。为了预测可用的网络带宽,团队借鉴了现有的方法。
实验证明,L3GS优于其他基准,因为它的调度器可以有效地检索用户视口内的spalt。图8显示了合成用户和真实用户追踪的主要性能结果。在前5秒,“Ours”明显优于其他基线。对于“Sort”,不仅视觉质量较差,而且它们的选择仅由全局显著性评分决定,而全局显著性评分与视图无关。最糟糕的是,“Separate”无法完成下载,即便是最低质量的版本,导致空白的渲染图像和初始SSIM为0。
相比之下,L3GS有效地为当前视口选择最关键的splats,从而实现卓越的性能。即使当基本的45ksplat“Separate”模型完全加载时(平均大约8秒),所提出方法都可以通过基于预测的未来视口(例如更接近用户的视口)优先考虑重要的splat来实现更好的性能。
使用L3GS的分层方法,在下载所有180k splat后性能稳定下来,这大约需要30秒。性能可与“Pre-load”基线相媲美,而分层结构只有较小的损失。然而,“Sort”可以通过加载更多的splat(每60秒加载360k)而在追踪结束时获得更好的性能,因为它可以访问更大的模型。关于“Separate”,尽管在相同数量的splats下,模型的视觉质量略好于“Ours”,但由于不同版本的splats没有逐渐重叠,因此需要加载整个较大的模型并丢弃之前的模型。这个过程导致大量的带宽浪费,导致在有限带宽条件下,与L3GS相比SSIM更低。
L3GS可以实现的最佳SSIM低于图7所示的理想值,特别是对于图8a所示。这是因为用户可能会在场景中探索奇怪的位置,比如走得太近,或者试图走到场景的边界之外。数据收集显示,用户经常对漏洞和低质量部件感到好奇,从而导致场景外视口。即使是原始的预训练3DGS模型,由于缺乏ground truth,在这种边缘情况下都会显示出较低的质量。团队在图9中提供了示例屏幕截图。主要的收获是,这种真实的用户行为影响了SSIM,因为奇怪位置的SSIM往往更低,但这个问题会影响到所有方法,而不仅仅是团队提出的方法。
由于人类行为和注意力的不可预测性,用户视口预测本质上是不完美的。同样,由于网络条件的波动,带宽预测同样非常困难。视口预测器的平均误差如图16所示。
另外,L3GS的局限性包括精度视口和带宽预测的困难。在3DGS场景中,视口预测是具有挑战性的,因为用户有六个自由度,包括平移和旋转。同时,L3GS目前使用的带宽预测模块相对简单,但在以往的多媒体适配工作中已经取得了效果。L3GS可以结合更复杂的预测模块,采用自适应滤波或LSTM。
为了实时适应实际带宽与预测带宽不一致的情况,可以采用启发式规则来改变下载计划。例如,如果实际带宽比预测的高,并且提前完成下载,则框架可以更快地重新运行调度程序并开始获取下一组splat。未来的工作包括将不断开发的新压缩3DGS表示集成到框架中,在实时网络部署原型,以及通过用户研究来评估感知视觉质量。最后,探索多个客户端共享瓶颈链接的场景,以及如何在用户之间公平有效地调度来自3DGS场景的splat。
相关论文:L3GS: Layered 3D Gaussian Splats for Efficient 3D Scene Delivery
总的来说,团队提出的L3GS:可以创建一个有效的3D场景交付框架。团队开发了一个训练管道来创建分层的3DGS模型,其中场景可以进一步细分为对象,以提供细粒度的控制下载和编辑。通过对3DGS模型进行分层,并基于用户视口和网络带宽创建splat调度算法,系统可以在保持高视觉质量的同时适应不同的网络带宽。另外,调度程序可以处理各种类型的3DGS表示。与基线相比,实验结果显示出更高的性能,实现了更高的平均SSIM分数和更低的开销。