微软、中科大提出基于交叉多平面一致性的few shot新视图合成技术
微软和中国科学技术大学
(映维网Nweon 2024年10月14日)神经辐射场NeRF在新颖视图合成中显示出令人印象深刻的结果,由于其连续表示场景的能力,这在在AR和VR中尤为突出。然而,当只有少数输入视图图像可用时,NeRF倾向于过度拟合给定视图,从而使估计的像素深度共享几乎相同的值。
与之前通过引入复杂先验或额外监督来进行正则化的方法不同,微软和中国科学科技大学提出了一种简单而有效的方法:在输入视图之间显式构建深度感知一致性来应对这一挑战。
团队的关键见解是,通过强制在不同的输入视图中重复采样相同的空间点,能够加强视图之间的相互作用,从而缓解过拟合问题。
为了实现这一点,研究人员在分层表示构建神经网络,所以采样点可以在多个离散平面重新采样。另外,为了正则化未见过的目标视图,团队将来自不同输入视图的渲染颜色和深度约束为相同。尽管简单,但大量的实验表明,所提出的方法可以比最先进方法获得更好的合成质量。

新视图合成是计算机视觉和计算机图形学的一项基本任务,其目的是将给定的多个给定的输入视图图像绘制成新的视图图像。近年来,神经辐射场因其强大的连续场景表示能力和新颖视图合成性能而越来越受到人们的欢迎。
然而,NeRF及其变体的成功在很大程度上取决于输入视图的数量。如下面的图2a所示,当只给出几个输入视图时,NeRF倾向于过拟合输入视图,导致像素的估计深度共享几乎相同的值。原则上,这种过拟合问题可以通过将不同场景的先验信息纳入神经网络来缓解。不过,这种方法需要昂贵的预训练成本,并且预训练的场景通常与目标场景存在域间隙。
......(全文 1407 字,剩余 802 字)


