融合ToF+NeRF,Meta提出TöRF,实现更优动态场景视图合成

查看引用/信息源请点击:映维网Nweon

视点合成

映维网Nweon 2022年03月09日)新视点合成(Novel-View Synthesis;NVS)的目标是从新视点逼真地渲染图像,并且长期以来都是计算机图形学和计算机视觉领域的一个重要挑战。

给定从不同视点拍摄的大量图像,系统可以推断场景的几何结构和外观,并以新camera姿势合成图像。与NVS相关的一个问题是,它需要一组来自不同视角的不同图像以准确地表示场景。这可能涉及在静态环境中移动单个摄像头,或使用大型多摄像头系统从不同角度捕获动态事件。

单目视频序列中的动态NV技术展示了令人信服的结果,但由于具有不适定性,它们出现了各种视觉伪影。这需要在动态场景的深度和运动方面引入先验知识。同时,移动设备现在搭载了带有颜色和深度传感器的摄像系统,例如微软HoloLens,以及iPhone和iPad Pro中的前后RGBD摄像系统。

深度传感器可以使用立体光或结构光,或者越来越精确的飞行时间测量原理。尽管深度传感技术比以往任何时候都更加普遍,但一系列的NVS技术目前都没有利用这种额外的视觉信息源。为了提高NVS性能,卡内基梅隆大学、布朗大学、康纳尔大学、巴斯大学和Meta的研究人员提出了TöRF。

这是一种利用颜色和飞行时间图像的场景外观隐式神经表示。与仅使用彩色摄像头相比,它可以减少静态NVS问题设置所需的图像数量。另外,附加的深度信息令单目动态NVS问题更容易处理,因为它直接编码有关场景几何体的信息。最重要的是,团队没有直接使用深度,而是使用通常用于推导深度的相量图像形式的“原生”ToF数据。这种方式更为准确,因为它允许优化以正确处理超出传感器明确范围的几何体、反射率低的对象,以及受多径干扰影响的区域,从而实现更好的动态场景视图合成。

1. 用于ToF图像的Neural Volumes Rendering

Neural Volumes是一种用于学习、渲染和驱动动态对象的方法(动态对象使用外向内摄影头装备捕获)。由于统一的体素网格是用来模拟场景,这一方法适用于对象,而不是场景。由于场景的大部分都是由空的空间组成,所以Neural Volumes使用一个扭曲场来最大化可用分辨率的效用。然而,这种方法的有效性受到扭曲分辨率和网络以无监督方式学习复杂逆扭曲的能力的限制。

Neural Radiance Fields(NeRF)则使用紧凑表示法解决分辨率问题。另外,NeRF只处理静态场景。另一个挑战是运行时,因为多层感知器(MLP)必须沿着camera光线在每个采样点进行评估。要合成单个高分辨率图像,这将导致数十亿次MLP评估,导致渲染时间非常慢,大约每帧30秒。

简单来说,三角形网格很难对头发等薄结构进行建模。在合理的内存预算下,Neural Volumes等体三维表示的分辨率太低,而Neural Radiance Fields等高分辨率隐式表示的实时应用速度太慢。

假设一个静态场景,神经网络Fθ:(xt,ωo)→ (σ(xt),Ls(xt,ωo))。其中,位置xt,方向ωo,点xt处的密度σ(xt),沿ωo方向穿过xt的光线的辐射度Ls(xt,ωo)。体积密度函数σ(xt)控制每个点的不透明度σ(xt)。大值表示不透明区域,小值表示透明区域,这允许表示三维结构。

辐射函数Ls(xt,ωo)表示在ωo方向的点xt处散射的光,并表征不同材料的视觉外观。这两个函数一起可用于渲染任何给定camera姿势的场景图像。研究人员的关键洞察是,NeRFs可以扩展到建模(并从中学习)ToF摄像头的原始图像。

NeRF优化需要Neural Volumes Rendering:给定camera的姿势,通过追踪光线穿过体积并计算沿每条光线观察到的辐射来生成图像:

泛化ToF摄像头的Neural Volumes Rendering程序需要两个变量。首先,由于TOF摄像头使用有源光源来照明场景,所以必须考虑场景的照明条件随着camera的位置而改变的事实。团队推导了场景的外观,以响应将点光源与camera并置的情况。然后,团队将Volumes Rendering积分扩展到ToF摄像头捕获的模型图像。与瞬态渲染框架和神经瞬态场中采用的方法类似,研究人员在积分中加入了路径长度重要性函数,可以对不同类型的ToF摄像头建模。

为了简单起见,我们假设函数L(x,ωo)是单色,即它在单个波长上输出辐射。稍后,为红光、绿光、蓝光和红外光(IR)的输出值建模。LRGB值对应于从环境照明散射到彩色摄像头的辐射,而LToF对应于具有主动照明的ToF摄像头进行的测量。

2. 并置点光源

理想的ToF摄像头只对来自并置红外点光源的光作出响应,而不对任何环境照明作出响应。在这个假设下,团队将辐射率Ls(xt,ωo)建模为光源位置的函数:

请注意,散射相位函数还取决于局部表面着色法线n(xt)。对于x处的点光源(即与相机并置),每个场景点仅从一个方向照亮。因此,入射辐射度是:

当代入方程1和方程3时,得到的正演模型为:

这个表达式类似于方程1,但有两个关键区别:平方透射项和由点光源引起的平方反比衰减。与NeRF类似,可以再次使用求积对上述积分进行数值近似,并通过训练只依赖于位置和方向的神经网络来恢复体积参数(σ(xt),Is(xt,ωo))。

3. 连续波飞行时间模型

ToF摄像头利用光的传播时间来计算距离。并置的点光源将人造光信号发送到环境中,ToF传感器测量光响应反射所需的时间。假设光速不变,c≈ 3·108 m/s,这个时间信息决定了行进的距离。

ToF摄像头的真实感模拟包括在渲染方程中引入路径长度重要性函数,可以很容易地应用于等式5中的积分:

其中函数W(d)加权长度为d的光路的贡献。请注意,光的传播距离是camera原点x和场景点xt之间距离的两倍。函数W(d)可用于表示多种ToF摄像头,包括脉冲ToF传感器和连续波ToF(C-ToF)传感器。这里,由于团队提出的系统使用C-ToF传感器进行成像,因此使用相量W(d)=exp i 2πdf C对图像进行建模。注意,因为函数W(d)为复数,所以辐射LToF(x,ωo)会产生复数的相量图像。实际上,相量图像是通过捕获四个线性组合的实值图像来创建。

与ToF推导的深度形成对比。ToF摄像头通常通过假设每一条光线只有一个点x反射光来恢复深度:

在现实场景中,一条射线的多个点都可能对信号产生影响,从而产生称为多径干扰的相量辐射值的线性组合。这可能会降低C-ToF摄像头深度测量的质量。

例如,在深度边缘周围,一个像素将来自距离摄像头两个不同距离的表面的信号进行积分,从而产生“飞行像素”伪影,即与两个距离都不对应的3D点。在对半透明或镜面反射对象成像时会出现类似的伪影,其中两个或多个曲面为一个像素贡献光。所以,通过方程6使用相量图像优化NeRFs比通过方程7使用导出的深度映射具有明显的优势。

4. 优化动态ToF+NeRF=TöRF

  • Dynamic Neural Radiance Fields:使用相量图像的一个关键优势是,可以从单个视图中捕获场景几何体,从而能够从可能移动的彩色摄像头和C-ToF摄像头对中实现动态场景的高保真度新视点合成。为了支持Dynamic Neural Radiance Fields,团队使用两个神经网络对测量值进行建模。
  • 损失函数:给定一组在不同时间点捕获的场景彩色图像和相量图像,研究人员从所有像素集中采样一组camera光线,并最小化渲染图像和测量像素值之间的总平方误差。
  • camera姿势优化:在过去的研究中中,COLMAP用于恢复NVS的camera姿势。然而,即使掩盖了动态区域,COLMAP都无法恢复一系列真实场景的精确camera姿势。另外,COLMAP仅恢复未知比例的camera姿态,而ToF图像形成模型假设场景比例已知。所以对于真实场景,团队在训练循环中从零开始优化camera姿势。
  • 射线取样:许多物理摄像头系统没有并置的彩色和ToF摄像头。所以为了训练模型,研究人员通过体三维追踪单独的光线,以进行颜色和ToF测量。他们在每次迭代中交替使用颜色损失和ToF损失。另外,与NeRF一样,在沿射线采样点时使用分层随机抽样。

5. 实验

在实验中,团队提出的模型需要12-24小时收敛,每帧需要3-5秒生成一个新视点(256×256)。

对于静态场景,除了RGB,其集成了原始ToF测量,从而允许TöRF能够从较少的输入视图重建静态场景,并在相同数量的输入视图中实现比标准NeRF更高的视觉保真度。

表2对浴室和卧室这两个合成序列进行了定量比较,它可以仅从2个和4个输入视图进行重建。为了能够在10个保持视图进行比较,团队对两种方法都使用ground truth camera姿势。只有两个输入视图,TöRF添加的相量监控比NeRF更好地再现场景。对于四个视图,NeRF和TöRF产生了可比的RGB结果,但后者的深度重建要精确得多(图5)。

对于动态场景。团队将表3中的合成动态序列Dinopar的重建质量与30个ground truth hold-out视图和深度映射进行了比较。与使用深度估计(NSFF和VideoNeRF)的方法相比,TöRF可以产生更好的深度和RGB视图。

尽管TöRF PSNR略低于NSFF,但TöRF的感知LPIPS指标显著低于NSFF。与使用ToF衍生深度(NSFF+ToF、VideoNeRF+ToF)的相同方法相比,TöRF都能产生更好的深度和RGB重建。对于真实场景,图6显示了结果和比较。

可以看到,VideoNeRF+ToF在深度边界附近显示出更强的不一致伪影和扭曲边缘,并且无法从深度映射中恢复。NSFF存在严重的重影和拉伸伪影,对结果质量产生负面影响。团队的结果显示了最高的视觉质量和最精确的深度映射。

6. 局限性与未来研究

团队将ToF传感器引入RGB神经辐射场,通过融合两种传感模式的优点来提高质量。但是,ToF传感同样带来了一定的限制。C-ToF传感在更大范围的场景中很困难;另外,对于每次测量,C-ToF传感器需要在不同时间快速捕获四个或更多图像,这可能会导致快速移动对象产生伪影。

即使使用ToF数据,以掠射角度成像的对象或既暗(低反射率)又动态的对象依然难以重建,例如深色头发。同时,神经网络对动态场景建模的能力有限,这限制了动态序列的持续时间。这是当前一系列神经动态场景方法的局限性。

整合ToF数据可以提高准确性,但仅限于可检测到主动照明的场景。实际上,与传统的基于图像的渲染相比,当前的神经方法在优化和渲染方面的计算成本更高。例如,团队的模型需要GPU优化数小时(12-24小时)。

相关论文TöRF: Time-of-Flight Radiance Fields for Dynamic Scene View Synthesis

总的来说,论文的贡献包括:

  • 用于原生连续波ToF图像的基物神经体绘制模型
  • 一种利用彩色和连续波ToF传感器信息优化动态场景神经辐射场的方法
  • 对合成场景和真实场景的定量和定性评估显示,在少数输入视图和两条动态场景基线情况下,视图合成优于NeRF。
本文链接https://news.nweon.com/95056
转载须知:转载摘编需注明来源映维网并保留本文链接
入行必读:AR/VR——计算机历史第二次大浪潮

更多阅读推荐......

资讯