SpikeGS: 基于脉冲摄像头的高速三维高斯溅射模型与场景重建探索
具有高质量的新视图渲染
(映维网Nweon 2025年01月02日)用传统摄像头捕获高速场景往往会导致运动模糊,阻碍了3D重建的有效性。为了应对这一挑战,高帧率密集3D重建成为了一项至关重要的技术,可在虚拟现实和增强现实等领域对现实世界对象或场景进行详细而准确的建模。
脉冲摄像头(Spike Camera)是一种新型的神经形态传感器,可以以超高的时间分辨率连续记录场景,并显示出精确3D重建的潜力。尽管前景光明,但现有方法的渲染过程耗时。
为了解决这个问题,北京大学和武汉大学团队首次尝试将3D高斯飞溅(3DGS)引入脉冲摄像头,以提供3DGS作为密集和连续的视图线索,然后构建了SpikeGS。
具体来说,为了训练SpikeGS,研究人员建立了3DGS的渲染过程与连续Spike流的瞬时成像和类曝光成像过程之间的计算方程。
另外,他们建立了一个非常轻量级但有效的映射过程以支持训练,并引入了一个基于Spike的3D渲染数据集进行验证。大量的实验表明,所提出方法具有高质量的新视图渲染,证明了脉冲摄像头在建模3D场景方面的巨大潜力。
新视角合成NVS涉及从给定3D场景的一系列多视角图像中生成新的2D渲染图。所述任务在3D场景重建领域具有重要意义,包括AR/VR。
神经辐射场(Neural Radiance Fields, NeRF)的引入尤其引起了人们对这一领域的关注。NeRF将隐式神经表征与体渲染技术相结合,为NVS的创新方法铺平了道路。近年来,NeRF相关技术有了显著的发展,包括提高场景质量的增强渲染方法,为处理更复杂的和动态场景量身定制的策略,以及图像去模糊技术。
NeRF通过训练多层感知(MLP)网络来学习隐式表示场景的连续体积密度和颜色。然而,渲染一个新的视角依然需要通过MLP进行大量的采样和集成,这就限制了渲染速度。
为什么3DGS会脱颖而出?新提出的三维高斯飞溅(3DGS)能够实现实时渲染速度和更可靠的性能。与NeRF隐式建模场景不同,3DGS用一系列三维高斯函数显式表示场景,并由SfM (Structure-from-Motion)初始化。每个高斯通过平均位置,完整的三维协方差矩阵,不透明度及其颜色参数化。
3DGS通过可微高斯光栅化将三维高斯分布投影到二维图像平面,使其能够通过三维高斯分布的梯度进行优化。所述方法具有较短的训练时间和较快的渲染速度,在NVS方面具有很大的应用潜力。
尽管3DGS方法显示出卓越的功效,但其性能受到基于曝光的传统照片捕获程序的固有限制。传统的摄像头在预定的时间曝光窗口内捕获每帧。当用于训练3DGS的图像序列由于高速捕获过程而出现模糊时,这种范例引入了一个重要的约束,并导致了3DGS框架的两大弊端。
首先,3DGS所必需的初始点云的先决条件质量受到严重损害。训练高质量的3D高斯图像需要对camera姿势进行准确的假设,而这在特定现实场景中很难实现。其次,图像模糊会影响三维高斯函数协方差矩阵的优化。
另外,在传统摄像头中,连续帧之间的固有间隔导致了一个时间空白,期间没有捕获到视觉信息。这种数据采集的中断可能导致在需要密集视角采样以进行渲染的场景中遗漏关键的视点信息,从而对新视角合成的完整性产生不利影响。
如果能够准确地捕获密集连续的视图,三维重建的性能可能会有所进步。所以,研究人员引入了脉冲摄像头(Spike Camera)进行3D重建。脉冲摄像头代表了一类新型的神经形态视觉传感器,其具有超高时间分辨率和更高动态范围等优点。受灵长类动物视网膜中央凹机制的启发,s脉冲摄像头的每个单元都不同步地连续接收光子并积累光电电流,并当电压达到预设阈值时立即发出Spike脉冲。
事件摄像头同样是一种具有高时间分辨率的神经形态摄像头。有研究将事件摄像头与NVS的NeRF结合起来。然而,事件编码光的变化并没有绝对的强度信息。脉冲摄像头则以极高的速度对场景的绝对光强度进行编码,这降低了曝光时间的重要性,而所述特点自然地减轻了模糊的存在,减轻了在拍摄过程中的速度要求。
已有研究证明了二维重建中Spike脉冲的时空完全性。在3D场景中,Spike脉冲提供了更密集、更连续的视点集合。研究人员相信脉冲摄像头在3D场景重建方面具有巨大的潜力。
SpikeNeRF已证明了在3D场景建模中使用Spike脉冲的可行性。然而,SpikeNeRF面临着数个挑战:首先,由于其复杂的扣球模拟过程,训练和渲染速度都不是最优;其次,它的训练需要对不同场景的噪点估计进行重新校准,适应性不足;第三,它没有充分利用脉冲摄像头的高时间分辨率优势。
针对所述问题,北京大学和武汉大学团队希望充分利用脉冲摄像头高速连续成像的优势,并首次构建基于Spike的三维高斯飞溅模型,从而克服传统RGB序列训练3DGS的局限性。
具体来说,研究人员首先构建了基于连续Spike的SpikeGS框架。他们专注于两个方面:Instantaneous Imaging from spikes和Exposing-like Imaging from spikes。
一方面,为了满足3DGS渲染中的瞬时成像假设,团队的目标是建立一个从连续Spike到即时图像的“简单而有效”映射,以为监督训练提供合适的信号。另一方面,建立Spike与连续camera位姿之间的相等约束,以更好地利用Spike的连续性。通过累积峰值并在SpikeGS中连续渲染图像,团队获得了用于训练的类曝光成像方程。
然后,研究人员提出了一种非常简单而有效的从Spike到即时图像的映射网络Spike-based Instant mapping( SIM),从而支持瞬时成像,为渲染Spike提供可靠的监督信号。SIM简单地由几个卷积层组成,并结合盲点,通过脉冲发射频率实现自监督训练。
最终,SIM实现了超轻量级(30K参数)设计,具有非常快的推理速度(bbb1200fps)。另外,团队生成了一个高质量的基于Spike的3D数据集来支持训练和验证。实验证明了SpikeGS具有优越的3D场景重建能力,并证明了SpikeGS在3D视觉领域的潜力。
相关论文:SpikeGS: 3D Gaussian Splatting from Spike Streams with High-Speed Camera Motion
总的来说,研究人员首次尝试将三维高斯溅射(3DGS)与脉冲摄像头引入到高速捕获中,并构建了SpikeGS。团队提出了一种轻量级的自监督模型,并用于从Spike中恢复图像。损失与Instantaneous imaging和Exposure-like imaging结合,从而提高渲染质量。实验证明了SpikeGS在合成数据集和真实数据集具有优越的三维场景重建能力。