谷歌研究为NeRF渲染提出视图合成深度学习模型
视图合成深度学习模型
(映维网Nweon 2022年10月05日)视图合成是计算机视觉和计算机图形学的一个长期问题,其目标是从场景的多张图片中创建新的场景视图。自从引入神经辐射场(NeRF)以来,这一点受到了越来越多的关注。这个问题非常有挑战性,因为若要准确地合成场景的新视图,模型需要从一小组参考图像中捕获多种类型的信息,包括详细的3D结构、材质和照明。
在日前一篇博文中,谷歌介绍了最近发布的视图合成深度学习模型。在CVPR 2022大会介绍的LFNR光场神经网络渲染中,谷歌通过使用学习组合参考像素颜色的transformer来解决精确再现视图相关效果的挑战。然后,在ECCV 2022大会介绍的GPNR中,谷歌通过使用一系列具有规范化位置编码的transformer来解决泛化到未知场景的挑战。
其中,transformer可以在一组场景进行训练,并合成新场景的视图。所述模型执行基于图像的渲染,结合参考图像的颜色和特征来渲染新视图。它们完全基于transformer,在图像patch集上操作,并利用4D光场表示进行位置编码,这有助于建模视图相关的效果。

1. 概述
模型的输入包括一组参考图像及其camera参数(焦距、位置和空间方向),以及要确定其颜色的目标光线的坐标。为了生成新图像,研究人员从输入图像的camera参数开始,获取目标光线的坐标(每个光线对应一个像素),并查询每个光线的模型。
团队只关注可能影响目标像素的区域,而不是完全处理每个参考图像。相关区域是通过极线几何确定,它将每个目标像素映射到每个参考帧的一条线。为了增强鲁棒性,研究人员在外极线上的部分点周围选取了小片区域,从而生成了一组实际上将由模型处理的patch。然后,transformer作用于这组patch以获得目标像素的颜色。
......(全文 1430 字,剩余 828 字)


