哈工大引入MSI-NeRF深度学习为鱼眼摄像头合成3D深度信息
哈工大
(映维网Nweon 2024年08月19日)利用鱼眼摄像头进行全景观测在虚拟现实中具有重要意义。然而,传统方法合成的全景图像缺乏深度信息,在VR应用中只能提供三自由度旋转渲染。
为了充分保留和利用原始鱼眼摄像头中的视差信息,哈尔滨工业大学团队引入了MSI-NeRF,它结合了深度学习全向深度估计和新颖的视图合成。通过对输入图像进行特征提取和变形,他们构建一个多球图像作为代价体。
进一步以空间点和插值后的三维特征向量为输入,构建隐式亮度场,可同时实现全方位深度估计和六自由度视图合成。利用深度估计任务的知识,所述方法仅通过源视图监督来学习场景外观。它不需要新的目标视图,并且可以方便地在现有的全景深度估计数据集上进行训练。网络具有泛化能力,仅使用四张图像就可以有效地重建未知场景。实验结果表明,所述解决方案在深度估计和新视图合成任务方面都优于现有方法。
与视场有限的普通针孔图像相比,全向图像包括水平和垂直的所有视角。它创建了一个紧凑的方式来存储整个场景的信息。传统上,全向图像是由多个鱼眼摄像头或摄像头阵列合成的。通过对相邻图像之间的重叠像素进行匹配拼接,可以生成无缝的全向图像。然后,使用球坐标表示将它们保存为等矩形投影图像。
尽管上述方法可以合成具有良好视觉质量的全方位图像,但需要做更多的工作。一方面,全向图像假设所有像素对应的光线具有相同的原点。由于不可能将多台摄像头的光学中心放置在同一点上,所以在拼接方法中总会存在误差,特别是在大视差场景下。
另一方面,对来自不同位置的摄像头的图像进行拼接和混合会消除原本存在的视差信息。因此,最终生成的图像失去了深度信息,只能以三自由度的方式渲染,从而限制了其在虚拟现实领域的实际应用。
随着计算机视觉和深度学习的发展,业界提出了各种方法来试图解决问题。OmniMVS将传统的多视图立体方法扩展到全景视图。它使用深度学习方法来匹配不同摄像头之间的特征,并返回全景深度图。然而,它没有考虑遮挡区域,不足以支持六自由度渲染。
OmniNeRF提出了一种六自由度全景渲染方法。然而,由于它需要处理的全向图像和额外的深度作为输入,所以不能端到端实现。对每个场景优化的需求同样限制了它的应用。另外,MVSNeRF利用可泛化的网络实现了自由视图渲染。不过,它只适用于对象级或面向前端的场景重建。目前尚没有研究能够实现单镜头全景场景的重建。
所以,哈工大的研究人员致力于生成一种保留输入多视角鱼眼图像中三维信息的全向表示。他们可以从这种表示中获得全方位的深度信息,并进行六自由度视角合成。作为输入,从周围的鱼眼头机收集图像,并按照一般的MVS管道在预定义的深度层构建多球体图像作为代价体。
然后构建NeRF来隐式表示场景。它将代价体中的插值特征作为额外的输入,以更好地利用学习到的几何和纹理。传统的新视图合成任务通常需要同时包含源视图和目标视图的数据集进行训练。但主流的全景数据集只包含深度数据,很少包含目标视图。
研究人员的方法利用输入图像在网络中引入颜色监督,使NeRF训练仅使用深度ground truth值。利用所述方法,可以有效地渲染全向深度图和新颖视图图像。
与激光雷达相比,基于视觉的全景深度具有成本更低、分辨率更高、视场更大等优点。在虚拟现实领域,能够渲染六自由度的新颖视角消除了三自由度渲染带来的VR晕动症。另外,团队提出了一种新的空间视频采集和编辑方法,可以实现旋转和平移的视频去抖。
总的来说,团队提出了一种深度学习方法,仅从四个鱼眼输入合成全向辐射场。解决方案能够将传统的2D全景输出扩展为3D,并保留了原始图像内部的视差信息。另外,他们将深度估计任务与新颖视图合成任务相结合,通过利用来自MSI表示的归纳偏差,仅使用最常见的深度数据监督就可以实现多任务网络训练。
同时,经过训练的网络可以通过在合成数据集进行预训练来进行跨场景的泛化。在实验中,所述方法在这两个任务上都表现良好,并取得了最先进的结果。它可以用于各种VR应用以帮助消除VR晕动症,并实现全景视频编辑和3D重建。