SwinGS:基于滑动窗口的体三维视频流式传输新方法
降低了83.6%的传输成本,而PSNR的损失可以忽略不计
(映维网Nweon 2025年02月19日)由于高渲染速度和卓越的质量,3DGS近年来在计算机视觉和计算机图形学领域获得了广泛的关注。尽管业界努力将3DGS的应用从静态场景扩展到动态场景,但相关努力一直受到模型尺寸过大、视频时长限制和内容偏差的阻碍。相关限制严重影响了动态3D高斯模型在下游应用中的应用,包括体三维视频和沉浸式技术,如虚拟现实、增强现实和混合现实。
在一项研究中,美国威斯康星大学麦迪逊分校团队介绍了一个以实时流媒体方式训练、传输和渲染体三维视频的新框架SwinGS。
SwinGS将时空高斯与MCMC相结合以令模型适应各种3D场景,同时采用滑动窗口并以累积方式捕获每帧的高斯快照。
实验结果表明,与之前的方法相比,所述方法降低了83.6%的传输成本,而PSNR的损失可以忽略不计。另外,SwinGS可以很容易扩展到长视频序列而不影响质量。
体三维视频代表了一种革命性的媒体格式,用户可以如同物理存在于现场般体验到相关的内容。与从单一角度捕获的传统视频不同,体三维视频封装了场景中物体的深度,形状和运动。这种3D表示可以通过虚拟现实查看。
从历史上看,体三维视频依赖于点云和网格作为基本元素。然而,相关方法一直在努力平衡视频质量与存储和带宽效率。
计算机图形学的最新进展引入了一种新的3D场景表示:神经渲染。这包括神经辐射场NeRF和新兴的3D高斯飞溅(3DGS)。
尽管NeRF通过紧凑的存储实现了卓越的渲染质量,但由于采样过程,它的计算成本非常高,导致帧率很低。另一方面,3D高斯模型已经成为一种非常富有前景的替代方案。
业界已经通过PICO和Apple Vision Pro等头显设备展示了静态3DGS的能力,而最近的研究工作则证明了3DGS在表示动态3D场景方面的潜力。然而,它们与完全实现的基于高斯的三维体积视频依然存在显著差距。
之前的尝试在三个关键领域都失败了:过大的模型尺寸,有限的视频持续时间,以及缺乏处理跨时间跨度的内容偏差的机制。这三者对于从服务器到客户端流式传输海量视频至关重要。
为了应对所述挑战,美国威斯康星大学麦迪逊分校团队提出了一种新的范式,将体三维视频表示为动态3D高斯模型SwinGS。
为了渲染体三维视频,模型从前一帧中退出3D高斯子集,并在下一帧开始时引入新的高斯。通过给每个高斯函数分配一个明确的寿命,表明它何时加入和离开模型,模型可以很容易地适应后续帧中的新内容。这解决了内容偏离问题。
另一方面,单个庞大模型的传输分解为封装每帧更新的小块数据的连续传输,使得任意长度的视频流在理论上可行,并解决了过大的模型尺寸,以及有限视频持续时间的问题。
为了促进这种范式,团队创新地提出了一种基于滑动窗口的增量优化方法。在窗口内,贡献给后期帧的高斯函数将与贡献给早期帧的高斯函数一起优化,而部分高斯函数冻结。在这种设置中,高斯函数在帧之间自然地共享,同时,在优化后期帧期间,早期帧的渲染质量不受影响。
具体来说,他们使用SGLD和高斯重定位来训练3D高斯模型。这种方法允许模型适应不同帧的各种3D场景,同时在整个训练过程中保持恒定的高斯数。团队在3DGS-MCMC代码库上实现了SwinGS,并使用ActorsHQ数据集和DyNeRF数据集中的各种场景对其进行了评估。
实验结果表明,与之前的方法相比,所述方法降低了83.6%的传输成本,而PSNR的损失可以忽略不计。另外,SwinGS可以很容易扩展到长视频序列而不影响质量。
相关论文:SwinGS: Sliding Window Gaussian Splatting for Volumetric Video Streaming with Arbitrary Length
总的来说,团队从神经渲染的最新进展中汲取灵感,将3DGS技术应用于具有挑战性的体三维视频流式传输领域。他们首先确定了任务固有的独特挑战,并作为回应提出了一种新的方法,采用滑动窗口技术来训练3D高斯模型,并以逐片方式捕获每帧的高斯快照。
为了证明SwinGS的有效性,使用来自两个不同数据集的不同场景进行了实验。另外,研究人员开发了一个WebGL应用程序,以展示方法的实际适用性。
团队表示:“我们的研究代表了体三维视频流式传输领域的重要一步,并利用了3DGS的优势:紧凑的表示、高渲染质量和快速渲染速度。我们相信,在这个令人兴奋的领域,SwinGS为研究和开发开辟了新的途径。随着对沉浸式和交互式视觉体验的需求不断增长,我们预计我们的贡献将催化实时容量视频流的进一步创新。”