谷歌研究为NeRF渲染提出视图合成深度学习模型
视图合成深度学习模型
(映维网Nweon 2022年10月05日)视图合成是计算机视觉和计算机图形学的一个长期问题,其目标是从场景的多张图片中创建新的场景视图。自从引入神经辐射场(NeRF)以来,这一点受到了越来越多的关注。这个问题非常有挑战性,因为若要准确地合成场景的新视图,模型需要从一小组参考图像中捕获多种类型的信息,包括详细的3D结构、材质和照明。
在日前一篇博文中,谷歌介绍了最近发布的视图合成深度学习模型。在CVPR 2022大会介绍的LFNR光场神经网络渲染中,谷歌通过使用学习组合参考像素颜色的transformer来解决精确再现视图相关效果的挑战。然后,在ECCV 2022大会介绍的GPNR中,谷歌通过使用一系列具有规范化位置编码的transformer来解决泛化到未知场景的挑战。
其中,transformer可以在一组场景进行训练,并合成新场景的视图。所述模型执行基于图像的渲染,结合参考图像的颜色和特征来渲染新视图。它们完全基于transformer,在图像patch集上操作,并利用4D光场表示进行位置编码,这有助于建模视图相关的效果。
1. 概述
模型的输入包括一组参考图像及其camera参数(焦距、位置和空间方向),以及要确定其颜色的目标光线的坐标。为了生成新图像,研究人员从输入图像的camera参数开始,获取目标光线的坐标(每个光线对应一个像素),并查询每个光线的模型。
团队只关注可能影响目标像素的区域,而不是完全处理每个参考图像。相关区域是通过极线几何确定,它将每个目标像素映射到每个参考帧的一条线。为了增强鲁棒性,研究人员在外极线上的部分点周围选取了小片区域,从而生成了一组实际上将由模型处理的patch。然后,transformer作用于这组patch以获得目标像素的颜色。
transformer在这种设置中特别有用,因为它们的self-attention机制自然将集合作为输入,并且attention权重本身可以用于组合参考视图颜色和特征,从而预测输出像素颜色。transformer遵循ViT中介绍的架构。
2. LFNR(Light Field Neural Rendering)
在LFNR中,谷歌使用一个由两个transformer组成的序列将patch集映射到目标像素颜色。第一个transformer沿着每条外极线聚合信息,第二个沿着每条参考图像聚合信息。可以将第一个transformer解释为在每个参考帧查找目标像素的潜在对应,而第二个transformer则解释为关于遮挡和视图相关效果的推理,这是基于图像的渲染的常见挑战。
LFNR使用两个transformer序列将沿极线提取的一组patch映射到目标像素颜色。LFNR峰值信噪比(PSNR)为5dB。这相当于将像素误差减少了1.8倍。他们在下面的Shiny数据集中展示了具有挑战性场景的定性结果:
3. 泛化到新场景
LFNR的一个局限性是,第一个transformer沿着每个外极线独立地折叠每个参考图像的信息。这意味着它仅根据每个参考图像的输出光线坐标和patch来决定要保留哪些信息,这在对单个场景进行训练时非常有效(与大多数神经渲染方法一样),但它不会在场景之间进行泛化。泛化方法非常重要,因为它们可以应用于新场景,无需重新培训。
团队在Generalizable Patch-Based Neural Rendering(GPNR)中克服了LFNR的这一局限性。他们添加了一个在其他两个之前运行的transformer,并在所有参考图像相同深度的点之间交换信息。例如,第一个transformer查看上图公园长凳的一列patch,并可以使用诸如花朵这样的线索。这项研究的另一个关键思想是规范化基于目标光线的位置编码,因为要在场景中进行泛化,必须以相对而非绝对参考帧表示数量。
为了评估泛化性能,他们在一组场景训练GPNR,并在新场景测试。GPNR在几个基准测试中平均提高了0.5–1.0 dB。在IBRNet基准测试中,GPNR的表现优于基线,并且只使用了11%的训练场景。
4. 局限
大多数神经渲染方法(包括谷歌)的一个局限性是,它们需要为每个输入图像设置camera姿势。camera姿势不容易获得,并且通常来自离线优化方法,速度较慢,限制了可能的应用。联合学习视图合成和输入姿势是一个富有前景的研究方向。谷歌模型的另一个限制是,训练它们的计算成本非常高。
相关论文:Generalizable Patch-Based Neural Rendering
相关论文:Light Field Neural Rendering
5. 潜在误用
在研究中,团队的目标是使用场景中的图像精确地再现现有场景,因此几乎没有空间生成虚假或不存在的场景。模型假设场景为静态,所以合成移动的对象行不通。