NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

研究人员对过去五年(2020-2025)的NeRF论文进行了全面调查

映维网Nweon 2025年08月19日)2020年3月,神经辐射场NeRF的出现彻底改变了计算机视觉,允许隐式的、基于神经网络的场景表示和新颖的视图合成。如今,NeRF模型已在虚拟现实/增强现实等领域得到了广泛的应用。在一份名为《NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review》综述论文中,研究人员对过去五年(2020-2025)的NeRF论文进行了全面调查。

团队介绍了NeRF的理论及其通过可微体渲染的训练,同时对经典NeRF、隐式和混合神经表示以及神经场模型的性能和速度进行了基准比较,并概述了关键数据集:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

神经辐射场(Neural Radiance Fields/NeRF) 使用可微分体渲染来学习一种隐式的神经场景表示。它使用多层感知器MLP来将3D场景的几何形状和光照作为神经场存储起来。这种学习到的表示随后可用于从用户指定的、新颖的视角生成场景的2D图像。Mildenhall等人于ECCV 2020首次提出了NeRF。自那以后,它在视觉质量方面达到了最先进水平,产生了令人印象深刻的演示,并启发了一系列后续工作。从2020年起,NeRF模型及后续基于神经场的体渲染模型已在照片编辑、3D表面提取、人体化身建模、大型/城市级3D表示与视图合成、以及3D物体生成等领域得到应用。

2023年,高斯飞溅(Gaussian Splatting)作为一种替代性的新视角合成框架,在诸多新视角合成基准测试以及3D视觉应用中超越了NeRF及其相关方法。因此,大量的研究兴趣转向了高斯飞溅。尽管如此,自2023年以来,对NeRF及NeRF相关的神经渲染研究依然在持续。

NeRF模型相对于其他经典的新视角合成和场景表示方法具有重要优势:

  • NeRF模型是自监督的。 它们仅需场景的多视图图像即可训练。与许多其他3D场景的神经表示不同,NeRF模型仅需图像和姿态即可学习场景,不需要3D或深度监督。姿态可以使用运动恢复结构工具包(如COLMAP )来估计。
  • NeRF模型具有照片级真实感。 与经典技术、早期的新视角合成方法以及神经3D表示方法相比,原始的NeRF模型在视觉质量方面收敛到更好的结果,而更近期的模型表现更佳。

与基于高斯飞溅的方法相比(后者在新视角合成及相关研究中已很大程度上超越基于NeRF的方法),NeRF方法存在以下劣势:

  • 高斯飞溅方法比NeRF方法更具照片级真实感,通常能收敛到能生成更高质量图像的表示。
  • 高斯飞溅方法训练速度更快。在相同硬件,使用相同的训练图像,完全隐式的NeRF方法收敛所需时间长2到3个数量级。一旦训练完成,高斯飞溅方法的图像渲染速度比基于隐式NeRF的方法快几个数量级。
  • 高斯飞溅方法使用基于3D点的表示,可以轻松转换为表示3D场景的常见数据结构——3D点云。另一方面,从典型的NeRF方法中提取显式的3D表示则更为困难。

然而,与高斯飞溅方法相比,NeRF方法具有以下优势:

  • 隐式或混合的NeRF方法在训练后存储需求较低,通常在训练期间内存需求较低。
  • 基于神经网络3D表示的NeRF方法更适用于需要或偏好隐式表示的3D视觉流程。

在这份综述论文中,研究人员组织撰写了一篇聚焦于NeRF方法和类NeRF神经渲染方法的综述论文。

1. 背景

2020年12月,Dellaert和Yen-Chen发表了一篇简洁的NeRF综述预印本,包含约50篇NeRF出版物/预印本。然而,它仅有八页,且不包含详细描述。另外,它仅包含2020年和2021年初的预印本,遗漏了2021年下半年及以后发表的多篇有影响力的NeRF论文。受其启发,并以其作为综述的起点,团队撰写了这份综述论文。

1.1 NeRF理论

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

神经辐射场NeRF由Mildenhall等人于2020年首次提出,主要用于新视角合成。NeRF实现了复杂场景的高度照片级真实感视图合成,并在引起了广泛关注。在其基本形式中,NeRF模型将三维场景表示为由神经网络近似的辐射场。辐射场描述了场景中每个点以及每个观察方向的颜色和体密度。这可以表示为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 𝐱 = (x, y, z) 是场景内坐标,(θ, ϕ) 代表方位角和极角视角,𝐜 = (r, g, b) 表示颜色,σ 表示体密度。这个5D函数由一个或多个多层感知器MLP近似,有时记作 FΘ。两个视角角 (θ, ϕ) 通常由笛卡尔单位向量 𝐝 = (dₓ, dᵧ, d_z) 表示。通过限制体积密度 σ(即场景内容)的预测独立于视角方向,而允许颜色 𝐜 依赖于视角方向和场景内坐标,这种神经网络表示约束为多视角一致。

在基线NeRF模型中,这是通过设计一个两阶段的MLP来实现:第一阶段以 𝐱 为输入,输出 σ 和一个高维特征向量;在第二阶段,特征向量与观察方向 𝐝 拼接后,传递给一个额外的MLP,MLP输出 𝐜。我们注意到Mildenhall等人认为 σ MLP 和 𝐜 MLP 是同一个神经网络的两个分支,但许多后续作者认为它们是两个独立的MLP网络。

广义上讲,使用训练好的NeRF模型进行新视角合成的过程如下:

对于待合成图像中的每个像素,向场景中投射camera光线,并生成一组采样点(见图1(a))。

对于每个采样点,使用观察方向和采样位置,通过NeRF MLP计算局部颜色和密度(如图1(b)所示)。

使用体渲染从这些颜色和密度生成图像(见图1(c))。

给定被渲染场景的体积密度和颜色函数,使用体渲染来获取任意摄像头光线 𝐫(t) = 𝐨 + t𝐝(camera位置为 𝐨,观察方向为 𝐝)的颜色 C(𝐫):

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 σ(𝐫(t)) 和 𝐜(𝐫(t), 𝐝) 表示沿观察方向为 𝐝 的camera光线上点 𝐫(t) 处的体积密度和颜色,dt 表示光线在每个积分步骤中行进的微分距离。

T(t) 是累积透射率,表示光线从 t₁ 行进到 t 而未被阻挡的概率,由下式给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

通过追踪穿过待合成图像每个像素的camera光线 C(𝐫) 来渲染新视角。这个积分可以通过数值计算。原始实现和大多数后续方法使用了非确定性分层采样方法,即将光线划分为 N 个等间距的区间(bin),然后从每个区间中均匀抽取一个样本。公式(2)可以近似为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

δᵢ 是从样本 i 到样本 i+1 的距离。(σᵢ, 𝐜ᵢ) 是由NeRF MLP计算出的沿光线样本点 i 评估的密度和颜色。αᵢ 是样本点 i 处通过alpha合成得到的透明度/不透明度,由下式给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

可以使用累积透射率计算光线的预期深度:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

这可以类似于公式(4)近似公式(2)和(3)的方式进行近似:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

特定深度正则化方法使用预期深度将密度限制在场景表面的类delta函数处,或强制深度平滑性。

对于每个像素,使用平方误差光度损失来优化MLP参数。在整个图像上,损失由下式给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 C_gt(𝐫) 是与光线 𝐫 相关联的训练图像像素的真实颜色,R 是与待合成图像相关联的光线批次。

NeRF模型通常采用位置编码,Mildenhall等人证明这极大地提高了渲染视图中的精细细节重建。在原始实现中,将以下位置编码 γ 应用于场景坐标 𝐱(归一化到[-1,1])和观察方向单位向量 𝐝 的每个分量:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中N是用户确定的编码维度参数,在原文中对于 𝐱 设为 N=10,对于 𝐝 设为 N=4。然而,现代研究人员已经尝试了其他形式的位置编码(包括可训练的、参数化的、积分的和分层的变体)并取得了很好的结果。

命名约定: 存在三种类型的3D表示:隐式(implicit)、混合(hybrid)和显式(explicit)。在基线NeRF中,密度场和颜色场完全由MLP表示;这被认为是隐式场景表示。神经颜色场和密度场一起称为神经辐射场。

1.2 数据集

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

NeRF模型通常按场景训练,需要相对密集且姿态相对多样的图像。尽管有的NeRF模型设计为可以从稀疏输入视图或未标定姿态的图像进行训练,但camera姿态通常可以使用现有的运动恢复结构(SfM)库来提取。

原始的NeRF论文提出了一个使用Blender创建的合成数据集,在后续工作中通常被称为NeRF合成数据集或NeRF数据集。虚拟camera具有相同的焦距,并放置在距离物体相同距离的位置。数据集由八个场景组成,包含八个不同的物体。其中六个场景的视点从上半球采样;另外两个场景的视点从整个球体采样。物体包括“热狗”、“材料”、“无花果”、“乐高”、“麦克风”、“鼓”、“椅子”和“船”。图2展示了NeRF论文结果的比较可视化。图像以800×800像素渲染,其中100个视图用于训练,200个视图用于测试。这通常是NeRF研究人员考虑的第一个数据集,因为场景是有界的,聚焦于单个物体,并且场景常用模型的基准测试结果很容易找到。

LLFF数据集包含24个使用手持手机摄像头捕获的真实场景。视图面向中心物体,呈前向。每个场景包含20-30张图像。使用COLMAP包计算图像的姿态。数据集的使用与Realistic Synthetic数据集相当;场景对于任何特定的NeRF模型来说挑战性都不太大,并且数据集基准测试完善,提供了与已知方法的现成比较。

DTU数据集是一个多视图立体数据集,使用搭载摄像头和结构光扫描仪的六轴工业机器人捕获。机器人提供精确的摄像头定位。内参和外参均使用MATLAB校准工具箱仔细校准。光扫描仪提供参考密集点云,作为真实3D几何。然而,由于自遮挡,某些场景中某些区域的扫描是不完整的。原始论文的数据集包含80个场景,每个场景包含在围绕中心物体半径为50cm的球面上采样的49个视图。其中21个场景,在半径65cm处额外采样了15个摄像头位置,总计64个视图。整个数据集同时包括另外44个旋转90度扫描四次的场景。使用16个LED改变场景照明,有七种不同的光照条件。图像分辨率为1600×1200。这个数据集与前两个数据集的不同之处在于其更高的分辨率以及精心校准的camera姿运动和姿态。

ScanNet数据集是一个大规模真实RGB-D多模态数据集,包含超过250万张室内场景视图,带有标注的camera姿态、参考3D表面、语义标签和CAD模型。深度帧以640×480像素捕获,RGB图像以1296×968像素捕获。扫描使用连接到手持设备(如iPhone和iPad)的RGB-D传感器进行。姿态使用BundleFusion估计并对生成网格进行几何对齐。数据集丰富的语义标签对于利用语义信息的模型非常有用,例如用于场景编辑、场景分割和语义视图合成。

ShapeNet数据集是一个简单的大规模合成3D数据集,包含分类为3135个类别的3D CAD模型。最常用的子集是12个常见物体类别。当基于物体的语义标签是特定NeRF模型的重要组成部分时,有时会使用这个数据集。通常使用Blender等软件从ShapeNet CAD模型渲染具有已知姿态的训练视图。

Tanks and Temples数据集是一个基于视频的3D重建数据集。它包含14个场景,包括“坦克”和“火车”等单个物体,以及“礼堂”和“博物馆”等大型室内场景。真实3D数据使用高质量工业激光扫描仪捕获。真实点云用于通过对应点的最小二乘优化来估计摄像头姿态。数据集包含大型场景,其中一些在室外,对某些NeRF模型构成挑战。室外场景适合希望处理无界背景的模型。其真实点云也可用于某些数据融合方法或测试深度重建。

Matterport-3D数据集是一个真实数据集,包含90个建筑尺度场景的194,400张全局配准RGB-D图像中的10,800个全景视图。提供深度、语义和实例标注。每个全景图片的18个视点提供1280×1024分辨率的彩色和深度图像。90栋建筑中的每一栋平均包含2437平方米的表面积。总共提供了50,811个物体实例标签,这些标签被映射到40个物体类别。

Replica数据集是一个真实的室内数据集,包含18个场景和35个使用定制RGB-D设备(带红外投影仪)捕获的室内房间。某些3D特征(如小孔等精细网格细节)经过手动修复,反射表面也进行了手动分配。语义标注(88个类别)分两步进行:一次在2D,一次在3D。提供基于类别和基于实例的语义标签。

表 I: 在合成NeRF数据集选定的NeRF模型比较

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

KITTI是一个著名的城市尺度2D-3D计算机视觉数据集套件,创建用于训练和评估自动驾驶的视觉算法。套件包含用于立体3D语义和2D语义分割、光流、里程计、2D-3D物体检测、跟踪、车道检测以及深度预测/补全的带标签数据集。这些数据基于在德国卡尔斯鲁厄使用车载设置(配备GPS和惯性测量单元数据)记录的Velodyne LiDAR扫描仪和多个摄像头捕获的原始LiDAR和视频数据创建。深度预测/补全数据集是目前最大的,包含超过93,000个深度图及相应的RGB图像和原始LiDAR扫描。然而,由于相对于NeRF专用数据集其摄像头覆盖相对稀疏,这个数据集对NeRF训练构成挑战,在设计模型时需要稀疏视图的考量。所述套件最近的扩展KITTI-360包含一个新视角合成基准,其中列出了一系列NeRF模型。

Waymo开放数据集是最近发布的KITTI替代方案。覆盖72平方公里,这个数据集基于在美国旧金山湾区、山景城和凤凰城使用车载设置(配备五个LiDAR传感器和五个高分辨率针孔摄像头)捕获的点云和视频数据创建。除了匹配的点云和视频数据外,这个数据集同时包含用于2D和3D物体检测和跟踪的标注标签。数据集包含1150个独立场景(相比之下KITTI为22个),并具有更高的LiDAR和摄像头分辨率。其物体标注也广泛了两个数量级(8万 vs 1200万)。

Nerfies和HyperNerf数据集是专注于人脸的单一摄像头数据集,其运动由相对于主体移动安装在杆子上的两个摄像头产生。前者包含五个静止不动的人类主体,以及另外四个包含移动人类主体、一只狗和两个移动物体的场景。后者专注于拓扑变化,包括诸如人类主体睁眼闭眼、张嘴闭嘴、3D打印小鸡玩具以及扫帚变形等场景。

ZJU-MOCap LightStage数据集[61]是一个多视图(20+个摄像头)运动捕捉数据集,包含9个由类似运动的动作组成的动态人体序列。视频使用21个同步摄像头捕获,序列长度在60到300帧之间。

NeuMan数据集包含6个视频,每个时长10到20秒,由跟随行走中人类主体(执行额外简单动作如旋转或挥手)的移动手机摄像头捕获。

CMU Panoptic数据集是一个大型多视图、多主体数据集,包含参与社交互动的人群。数据集包含65个序列,150万个带标签的骨架。传感器系统由480个VGA视图(640×480)、超过30个高清(HD, 1920×1080)视图和10个RGB-D传感器组成。场景标有个体主体和社交群体语义、3D身体姿态、3D面部关键点以及带有说话者ID的文字记录。

1.3 质量评估指标

标准设置下通过NeRF进行的新视角合成使用视觉质量评估指标进行基准测试。指标尝试评估单个图像的质量,可以基于(全参考)或不基于(无参考)真实图像。峰值信噪比(Peak Signal to Noise Ratio, PSNR)、结构相似性指数(Structural Similarity Index Measure, SSIM)、学习感知图像块相似度(Learned Perceptual Image Patch Similarity, LPIPS)是迄今为止NeRF文献中最常用的指标。

PSNR↑ 是一个无参考质量评估指标:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 MAX(I) 是图像中像素可能的最大值(对于8位整数为255),MSE(I) 是在所有颜色通道上计算的逐像素均方误差。PSNR常用于信号处理且易于理解。

SSIM↑ 是一个全参考质量评估指标。对于单个图像块(patch),其公式为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 Cᵢ = (KᵢL)², L 是像素的动态范围(对于8位整数为255),K₁=0.01, K₂=0.03 是原作者选择的常数。我们注意到原始论文中有一个更通用的SSIM形式(公式12)。局部统计量 μ’s, σ’s 在一个 11×11 的圆对称高斯加权窗口内计算,权重 wᵢ 的标准差为1.5并归一化为1。

LPIPS↓是一个全参考质量评估指标,它使用学习到的卷积特征。分数由多层特征图的加权逐像素MSE给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 xʰʷₗ, yʰʷₗ 是参考图像和待评估图像在像素宽度 w、像素高度 h 和层 l 处的特征。Hₗ 和 Wₗ 是相应层特征图的高度和宽度。原始的LPIPS论文使用SqueezeNet、VGG和AlexNet作为特征提取主干网络。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

2. 高斯飞溅之前的神经辐射场

以基于方法的分类法组织选定的高斯飞溅之前的NeRF及相关论文,并保留一个单独的部分用于基于应用的分类。表I中提供了一个NeRF合成数据集的基准测试,比较了时代最具影响力的(纯)新视角合成聚焦的NeRF及相关工作。

2.1 合成视图和学习几何质量的改进

图像质量是视图合成的主要基准,许多后续的纯NeRF研究模型专注于提高视图合成质量。下面重点介绍旨在增强NeRF视图合成和3D场景表示的光度和几何方面的重要模型。

2.1.1 更好的视图合成

Mip-NeRF(2021年3月)使用锥体追踪近似代替了标准NeRF(2020年3月)体渲染的光追。这是通过引入集成位置编码(Integrated Positional Encoding, IPE)(图3)实现的。示意性地,为了生成单个像素,从摄像头中心沿观察方向通过像素中心投射一个锥体。锥体用一个多元高斯分布近似,其均值向量和协方差矩阵根据相应几何推导得出,从而得到集成位置编码。其公式为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 𝝁𝜸, 𝚺𝜸 是提升到具有 N 级的位置编码基上的多元高斯的均值和方差。由此产生的Mip-NeRF模型本质上是多尺度的,并能自动执行抗锯齿。它优于基线NeRF,尤其是在较低分辨率下。Mip-NeRF 36是Mip-NeRF的一个极具影响力的扩展,适用于无界场景。关键的技术改进包括一个由NeRF MLP而非直接由图像监督的proposal MLP。它P仅预测体密度,用于指导采样间隔。另外,专门为Mip-NeRF中的高斯设计了一种新颖的场景参数化。最后,引入了一种新的正则化方法来防止漂浮的几何伪影和背景塌陷。

Ref-NeRF(2021年12月)建立在mip-NeRF之上,旨在更好地建模反射表面。Ref-NeRF基于局部法向量反射的观察方向参数化了NeRF辐射。它将密度MLP修改为一个无方向的MLP,而MLP不仅输出密度和方向相关MLP的输入特征向量,同时输出漫反射颜色、镜面反射颜色、粗略度和表面法线。Ref-NeRF在反射表面上表现尤其出色,能够精确建模镜面反射和高光(图5)。

Ray Prior NeRF (RapNeRF)(2022年5月)提出了一种专为视图外推量身定制的NeRF模型,与擅长插值的标准NeRF形成对比。RapNeRF引入了随机光线投射,其中对于击中表面点 𝐯 = 𝐨 + t_z 𝐝 的训练光线,从 𝐯 向具有均匀采样角度扰动的新原点 𝐨’ 投射一条反向光线。另外,RapNeRF采用了光线图集,具体是通过从预训练的NeRF中提取粗略的3D网格,并将训练光线方向映射到其顶点之上。训练从一个基线NeRF开始以恢复粗略网格。随后,RRC和RA以预定概率增强训练光线。在合成NeRF数据集和MobileObject数据集的评估表明,相关增强提高了视图合成质量,并可适应其他NeRF框架。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

2.1.2 深度监督与点云

通过使用从LiDAR或SfM获取的点云对预期深度(公式6)进行监督,模型收敛更快,可收敛到更高的最终质量,并且比基线NeRF模型需要更少的训练视图。许多这些模型同时是为少样本/稀疏视图NeRF构建的。

Deng等人(2021年7月)使用来自点云的深度监督,方法名为Depth-Supervised NeRF/DS-NeRF。除了通过体渲染和光度损失进行颜色监督外,DS-NeRF同时使用通过COLMAP 从训练图像中提取的稀疏点云进行深度监督。深度建模为围绕稀疏点云记录的深度的正态分布。添加了一个KL散度项以最小化光线分布与该噪点深度分布之间的散度。

与DS-NeRF同时期的是Roessle等人的研究(2021年4月)。其中,他们使用COLMAP提取稀疏点云,并通过深度补全网络处理以生成深度和不确定性图。除了标准的体渲染损失外,他们同时引入了基于预测深度和不确定性的深度损失。模型在ScanNet和Matterport3D的RGB-D数据进行训练。

NerfingMVS(2021年9月)使用多视图图像,专注于深度重建。在NerfingMVS中,使用COLMAP提取稀疏深度先验作为点云。然后将其输入到一个针对场景微调的预训练单目深度网络中,以提取深度图先验。深度图先验通过仅在适当深度处允许采样点来指导体采样。在体渲染过程中,光线被划分为 N 个相等的区间,光线边界使用深度先验进行钳制。

PointNeRF(2022年1月使用特征点云作为体渲染之前的中间步骤。一个预训练的3D CNN从训练视图创建的成本体积生成深度和表面概率 γ,产生密集点云。一个预训练的2D CNN从训练视图提取图像特征。特征填充点云,为每个点 pᵢ 分配一个表面概率 γᵢ。给定输入位置和观察方向,一个类似PointNet的网络回归局部密度和颜色,然后用于体渲染。使用点云特征还允许模型跳过空白空间,导致速度比基线NeRF快3倍。

2.1.3 其他几何改进

SNeS(2022年6月)通过部分对称和部分隐藏的场景物体上的软对称约束学习可能的对称性来改进几何。

S3-NeRF(2022年10月)使用阴影和着色线索推断场景几何,并支持单图像NeRF训练,专注于几何恢复。S3-NeRF采用基于UNISURF的占据场3D表示代替密度,修改了基于物理的渲染方程,并使用基于占据的阴影计算作为关键的实现差异。所述方法在合成和真实世界数据集上,从单张图像实现了出色的深度图和表面法线重建。

2.2 训练和推理速度的改进

在Mildenhall等人的原始实现中,使用分层渲染来提高计算效率。两个网络表示场景:一个粗略网络和一个精细网络。粗略网络的输出指导精细网络的采样点选择,防止在精细尺度进行密集采样。在接下来的两年中,大多数加速NeRF训练和推理的努力大致分为两类:

  • 烘焙模型:第一类模型训练、预计算并将NeRF MLP评估存储到更易访问的数据结构中。这显著提高了推理速度,但不影响训练时间。
  • 非烘焙模型:第二类包括各种创新的非烘焙模型。一种常见的方法是通过混合表示从MLP参数中学习单独的场景特征。这使得MLP更小,以增加内存为代价提高了训练和推理速度。为了进一步推动这方面,有的方法完全省略了神经网络,使用纯显式的场景表示。尽管严格来说不是NeRF模型,但由于它们与NeRF的相关性和相似性,将它们包括在此。

其他技术包括光线终止(当累积透射率接近零时停止采样)、空间跳跃、以及如原始NeRF论文中那样使用粗略和精细MLP进行分层采样。相关方法通常与每篇论文的创新结合,以进一步提高训练和推理速度。

混合和显式场景表示方法与烘焙方法密切相关,因为场景特征直接在可访问的数据结构中进行优化。然而,在2020年至2022年间,烘焙与非烘焙的区分非常流行。

2.2.1 烘焙

Hedman等人(2021年7月)的一个模型将预计算的NeRF存储在稀疏体素网格上。所述方法称为Sparse Neural Voxel Grid/SNeRG,在一个稀疏体素网格上存储预计算的漫反射颜色、密度和特征向量,这个过程有时称为“烘焙”。在评估期间,一个MLP产生镜面反射颜色,颜色与沿光线的镜面反射颜色的alpha合成相结合,产生最终的像素颜色。所述方法比原始NeRF实现快约3000倍,速度与PlenOctree相当。

同时,Yu等人(2021年3月)的PlenOctree方法实现了比原始NeRF实现快约3000倍的推理时间。作者训练了一个球谐NeRF(NeRF-SH),它预测颜色函数的球谐系数,而不是直接预测颜色值。他们构建了一个由MLP颜色导出的预计算球谐(SH)系数的八叉树。在八叉树构建过程中,场景体素化,并剔除低透射率的体素。这个过程可以应用于标准NeRF模型,通过执行球谐分量的蒙特卡洛估计。PlenOctree可以使用初始训练图像通过相对于NeRF训练快速的微调程序进一步优化。值得注意的是,高斯飞溅实现中的球谐颜色直接改编自PlenOctree。

在FastNeRF(2021年3月)中,Garbin等人将颜色函数 𝐜 分解为两个MLP输出的内积:一个位置相关的MLP(也预测密度 σ)和一个方向相关的MLP。这种分解使FastNeRF能够有效地在密集场景网格上缓存颜色和密度评估,实现超过3000倍的推理加速。所述方法同时利用了硬件加速的光线追踪,跳过空白空间并在透射饱和度达到时终止光线。

Reiser等人(2021年5月)通过引入KiloNeRF改进了基线NeRF,它将场景划分为数千个单元,并为每个单元训练独立的MLP来预测颜色和密度。小型MLP使用从大型预训练教师MLP的知识蒸馏进行训练,这个过程与烘焙密切相关。所述方法同时采用了早期光线终止和空白空间跳跃。仅这两项技术就将基线NeRF的渲染速度提高了71倍。进一步将基线MLP拆分成数千个较小的MLP,使渲染速度提高了36倍,从而实现了总体2000倍的加速。

Sun等人(2021年11月)的一篇论文同样探讨了这个主题。作者直接优化了密度的标量体素网格。然而,他们没有使用球谐系数,而是使用了12维和24维特征以及一个小的浅层解码MLP(采用混合表示方法)。作者使用了类似于原始NeRF论文中粗略-精细采样的采样策略,首先训练一个粗略体素网格,然后基于粗略网格的几何形状训练一个精细体素网格。模型命名为Direct Voxel Grid Optimization/DVGO,在合成NeRF数据集仅用15分钟的训练就超越了基线NeRF(1-2天的训练)。

Fourier PlenOctree 方法由Wang等人在2022年2月提出。它专为人类轮廓渲染而设计,利用了领域特定的技术Shape-From-Silhouette。所述方法同时受到可泛化的图像条件化NeRF的启发。最初,使用从广义NeRF预测的稀疏视图和Shape-From-Silhouette构建一个粗略的视觉外壳。然后在该外壳内部密集采样颜色和密度,并存储在粗略的PlenOctree。从PlenOctree中采样密集视图,应用透射率阈值化以消除大多数空点。对于剩余的点,生成新的叶子密度和球谐颜色系数,并更新PlenOctree。随后使用傅里叶变换MLP提取密度和SH颜色系数的傅里叶系数,而系数输入到离散傅里叶逆变换中以恢复SH系数和密度。

MobileNeRF(2022年6月)框架训练了一个基于多边形网格的类NeRF模型,每个网格顶点附加了颜色、特征和不透明度MLP。Alpha值被离散化,特征超采样以进行抗锯齿。在渲染期间,具有相关特征和不透明度的网格根据观察位置进行栅格化,并使用一个小型MLP对每个像素进行着色。所述方法展示的速度比SNeRG快约10倍。

EfficientNeRF(2022年7月)基于PlenOctree,选择使用球谐函数并将训练好的场景缓存到树中。然而,它引入了几项改进。最重要的是,EfficientNeRF通过使用动量密度体素网格存储预测密度(通过指数加权平均更新)来提高训练速度。在粗略采样阶段,网格用于丢弃密度为零的采样点。在精细采样阶段,同时采用了枢轴系统来加速体渲染。枢轴点定义为满足 Tᵢ αᵢ > ϵ 的点 𝐱ᵢ,其中 ϵ 是预定义的阈值,Tᵢ 和 αᵢ 是公式(4)和(5)中定义的透射率和alpha值。在精细采样期间,仅考虑枢轴点附近的点。这两项改进将训练时间比基线NeRF加快了8倍。然后,作者将训练好的场景缓存到NeRF树中,实现了与FastNeRF相当的渲染速度,并比基线NeRF快数千倍。

R2L(2022年3月)通过深度残差MLP将神经辐射场提炼成神经光场。这种架构在不依赖2D图像之外数据的情况下提高了渲染效率。通过从预训练的NeRF中提炼进行训练,R2L在合成和真实场景中,在视觉质量上超越了NeRF和其他高效合成方法,同时将FLOPs减少了26-35倍,并将挂钟时间加速了28-31倍。

2.2.2 非烘焙

一个流行的原始NeRF在JAX中的重新实现,称为JaxNeRF(2020年12月),经常被早期寻求改进训练和渲染速度的研究用作基准比较。所述模型比NeRF的原始TensorFlow实现稍快,并且更适合分布式计算。

在Neural Sparse Voxel Fields,/NSVF(2020年7月)中,Liu等人开发了一个基于体素的NeRF模型,模型将场景建模为一组由体素包围的辐射场。特征表示通过插值存储在体素顶点上的可学习特征获得,然后由共享的MLP处理,计算 σ 和 𝐜。NSVF使用基于稀疏体素相交的点采样进行光线采样,这比密集采样或Mildenhall等人的分层两步方法高效得多。然而,由于在潜在的密集体素网格上存储特征向量,这种方法内存密集度更高。

AutoInt(2020年12月)近似了体渲染步骤。通过将离散体渲染方程(4)分段分离,他们开发了AutoInt,模型通过其梯度网络 Ψθᵢ 训练MLP Φθ。梯度网络与积分网络 Φθ 共享内部参数并用于重组积分网络。这种方法允许渲染步骤使用少得多的样本,导致速度比基线NeRF快十倍,而质量仅略有下降。

Light Field Networks/LFNs)(2021年6月)提出了一种新颖的神经表示,将摄像头光线直接映射到4D光空间中的辐射度,绕过了传统的体积查询。这使得实时渲染成为可能,同时显著减少了内存使用量,并将渲染速度提高了几个数量级。通过使用6D Plücker坐标参数化光线,LFN支持连续的360°场景表示,并编码外观和几何,从中可以解析地导出稀疏深度图。尽管缺乏固有的多视图一致性,LFN通过支持从稀疏2D输入重建光场的元学习框架解决了这个问题。

Deterministic Integration for Volume Rendering/DIVeR(2021年11月)从NSVF中汲取灵感,通过联合优化特征体素网格和解码器MLP,同时应用稀疏正则化和体素剔除。然而,他们创新了体渲染过程,通过在体素网格上执行确定性光线采样,为每个光线区间(由光线与特定体素的相交定义)产生一个集成特征。然后特征由MLP解码以产生光线区间的密度和颜色,有效地颠倒了NeRF方法中常见的体积采样和MLP评估的顺序。DIVeR在质量上优于PlenOctrees、FastNeRF和KiloNeRF等方法,且渲染速度相当。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

Instant-Neural Graphics Primitives/INGP(2022年1月)极大地提高了NeRF模型的训练和推理速度。作者提出了一种学习的参数化多分辨率哈希编码,编码与NeRF模型MLP同时训练(图6)。他们同时采用了先进的光线行进技术,包括指数步进、空白空间跳跃和样本压实。这种新的位置编码结合高度优化的MLP实现,显著加速了训练和推理,同时提高了所得NeRF模型的场景重建精度。在几秒钟的训练内,所述方法就达到了与之前NeRF模型数小时训练相当的结果。

2.3 少样本/稀疏训练视图NeRF

基线NeRF需要具有已知摄像头姿态的密集多视图图像来训练每个场景。基线NeRF的一个常见失败情况是训练视图变化不够或样本姿态变化不足。这导致对单个视图的过拟合和无意义的场景几何。然而,一个NeRF方法家族利用预训练的图像特征提取网络来大大减少成功进行NeRF训练所需的样本数量。有的作者将这个过程称为“深度图像特征条件化”。特定方法同样使用深度/3D几何监督来达到此效果。相关模型通常比基线NeRF模型具有更低的训练时间。

在pixelNeRF(2020年12月) 中,Yu等人使用预训练的卷积神经网络层(和双线性插值)来提取图像特征。然后,将NeRF中使用的摄像头光线投影到图像平面上,并为每个查询点提取图像特征。这些特征、观察方向和查询点随后被传递给NeRF MLP,而MLP产生密度和颜色。Trevithick等人的General Radiance Field/GRF(2020年10月)采用了类似的方法,关键区别在于GRF在规范空间中操作,而pixelNeRF在视图空间中操作。

MVSNeRF(2021年3月)采取了略有不同的方法。它使用预训练的CNN提取2D图像特征。这些2D特征通过平面扫描和基于方差的成本映射到3D体素化成本体积。一个预训练的3D CNN然后产生一个3D神经编码体积,体积通过插值生成逐点潜码。在体渲染期间,NeRF MLP使用特征以及点坐标和观察方向来预测密度和颜色。训练联合优化了3D特征体积和NeRF MLP。在DTU数据集上,MVSNeRF在15分钟内就达到了与基线NeRF数小时训练相当的结果。

DietNeRF(2021年6月)除了标准的光度损失外,同时引入了基于从Clip-ViT提取的图像特征的语义一致性损失 L_sc:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 ϕ 对训练图像 I 和渲染图像 Î 执行Clip-ViT特征提取。对于归一化的特征向量,这简化为余弦相似度损失(DietNeRF公式5)。DietNeRF在子采样的NeRF合成数据集和DTU数据集上进行了基准测试。用于单视图新颖合成的最佳性能方法是使用DietNeRF的语义一致性损失进行微调的pixelNeRF模型。

Liu等人的Neural Rays/NeuRay方法(2021年7月)同样使用了成本体积。从所有输入视图中,作者使用多视图立算法估计成本体积(或深度图)。从中,使用CNN创建特征图 G。在体渲染期间,从这些特征中提取可见性和局部特征,并使用MLP进行处理以提取颜色和alpha(α)。可见性计算为累积密度函数,表示为sigmoid函数的加权和。

NeuRay对新场景泛化良好,并且可以进一步微调以超越基线NeRF模型的性能。

GeoNeRF(2021年11月)使用预训练的特征金字塔网络从每个视图中提取2D图像特征。所述方法然后使用平面扫描构建级联的3D成本体积。从这两个特征表示中,对于沿光线的 N 个查询点中的每一个,提取一个视图无关和多个视图相关的特征令牌。令牌使用Transformer进行细化。然后,N 个视图无关令牌通过一个自动编码器进行细化,编码器返回沿光线的 N 个密度。N 组视图相关令牌分别馈送到一个提取颜色的MLP中。作者表明,所有这些网络都可以进行预训练,并能很好地泛化到新场景。另外,它们可以按场景进行微调,在DTU、NeRF合成和LLF前向数据集取得了优异的结果,优于pixelNeRF和MVSNeRF等方法。

与GeoNeRF同时期的是LOLNeRF(2021年11月),它能够单次(single-shot)合成人脸的视图。它的构建类似于 π-GAN,但使用了生成潜在优化而不是对抗训练。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

RegNeRF(2021年12月)旨在解决使用稀疏输入视图进行NeRF训练的问题。与大多数其他方法不同,RegNeRF采用了额外的深度和颜色正则化。深度平滑度鼓励世界几何分段平滑,定义为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 d(𝐫ᵢⱼ) 指的是从随机采样的未观察视角出发,通过大小为 Patch 的图像块中像素 i j 的光线的预期深度。它同样使用了颜色正则化,通过估计和最大化渲染图像块的似然。这是通过在多样的未标定数据集训练一个标准化流模型(如RealNVP ),然后估计和最大化渲染图像块的对数似然来实现的。设 ϕ 是一个从图像块到 Rᵈ(其中 d = Patch × Patch × 3)的学习到的双射(bijection)。颜色正则化损失定义为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 Pᵣ 是以 𝐫 为中心像素的预测RGB颜色块,-log p_z 是高斯 p_z 的负对数似然(negative log-likelihood)。另外,RegNeRF使用了采样空间退火,试图在训练开始时通过将所有输入图像的采样点范围限制在定义的小体积内,然后再扩展到整个场景,来修复具有高密度在光线原点处的发散NeRF模式。Mip-NeRF用作这些正则化和采样技术的骨干NeRF模型。模型在DTU和LLFF 数据集上进行了测试,并优于PixelNeRF、SRF和MVSNeRF等模型。不需要预训练的RegNeRF,在这些模型(在DTU上预训练并按场景微调)取得了相当的性能,在稀疏视图条件下优于Mip-NeRF和DietNeRF(见图7)。

NeRFusion(2022年3月)同样从CNN提取的2D图像特征中提取3D成本体积。然后体积由稀疏3D CNN处理成局部特征体积。所述方法对每一帧执行此步骤,然后使用GRU将这些局部特征体积融合成全局特征体积,而体积用于条件化密度和颜色MLP。NeRFusion在ScanNet、DTU和NeRF合成数据集上优于基线NeRF、NeRFingMVS、MVSNeRF。

AutoRF(2022年4月)专注于无背景物体的新视角合成。给定2D多视图图像,使用3D物体检测算法提取3D边界框和物体掩码。边界框用于定义归一化物体坐标空间,用于每个物体的体渲染。使用编码器CNN提取外观和形状编码,其使用方式与GRAF 中相同。除了标准的光度损失外,同时定义了一个额外的占据损失:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 Y 是物体掩码,W_occ 是前景或背景像素的集合。在测试时,使用相同的损失函数进一步优化形状编码、外观编码和边界框。

SinNeRF(2022年4月) 尝试通过整合多种技术从单张图像重建NeRF场景。他们使用图像扭曲和已知的摄像头内参和姿态为未见视图创建参考深度以进行深度监督。他们使用带有CNN判别器的对抗训练来提供块级纹理监督。另外,他们使用预训练的ViT从参考块和未见块中提取全局图像特征,使用L2损失项和全局结构先验进行比较。SinNeRF在NeRF合成数据集、DTU数据集和LLFF前向数据集上优于DS-NeRF、PixelNeRF和DietNeRF。

作为替代方法,GeoAug(2022年10月)通过使用DSNeRF作为基线并利用深度作为正则化器,渲染(带扭曲)具有新噪点摄像头姿态的新训练图像来进行数据增强。

2.4 生成式和条件式模型

受生成式2D计算机视觉进展的启发,生成式NeRF模型根据文本、图像或潜码生成3D几何。这种条件化使得一定程度的场景编辑成为可能。模型大致分为两类:基于生成对抗网络的方法和基于扩散的方法。通常,它们利用2D生成模型创建“场景”的图像,然后用于训练NeRF模型。在高斯飞溅之前的一个主要挑战是在保持2D一致性的情况下,生成基于摄像头姿态的条件化2D图像。另一个持续存在的问题是multi-face Janus problem,即生成式NeRF在头部周围创建具有多个面部的化身。即便在引入高斯飞溅之后,这个Janus问题依然是一个活跃的研究领域。

与后来基于扩散和流匹配的2D图像生成模型相比,早期NeRF时代的基于GAN的图像生成以潜码为条件,并且不容易通过基于文本和图像的条件化进行控制。

在NeRF-VAE(2021年1月)中,Kosiorek等人提出了一个生成式NeRF模型,模型能很好地泛化到分布外场景,并消除了每个场景从头训练的需要。NeRF-VAE中的NeRF渲染器以潜码为条件,使用Iterative Amortized Inference和ResNet编码器进行训练。作者同时引入了一个基于注意力的场景函数(与典型的MLP相对)。当场景视图数量较少(5-20)时,NeRF-VAE始终优于基线NeRF,但由于场景表达能力较低,当有大量视图可用时(100+)会被基线NeRF超越。

2.4.1 基于生成对抗网络(GAN)的方法

对抗训练通常用于生成式和/或潜码条件化的NeRF模型。生成对抗网络于2014年首次开发,这种生成模型采用一个生成器 G和一个判别器 D。生成器试图“欺骗”判别器,使其图像与“真实”训练图像无法区分。判别器则试图最大化其分类准确性。这两个网络以对抗方式进行训练,即优化以下minimax损失/价值函数:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中生成器基于从某个分布 p(z) 采样的潜码 z 生成图像,判别器将其与训练图像 x 进行比较。在基于GAN的生成式NeRF模型中,生成器 G 包含所有新视角合成步骤,被认为是NeRF模型。在这种情况下,生成器除了潜码外还需要一个输入姿态。判别器 D 通常是一个图像分类CNN。GRAF(2020年7月)是第一个以对抗方式训练的NeRF模型。它为许多后续研究铺平了道路。基于NeRF的生成器以外观编码 𝐳_a 和形状编码 𝐳_s 为条件,由下式给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

在实践中,形状编码(条件化场景密度)与嵌入位置拼接,作为方向无关MLP的输入。外观编码(条件化场景辐射)与嵌入观察方向拼接,作为方向相关MLP的输入。根据基线NeRF,通过体积采样生成图像。然后使用判别器CNN进行对抗训练,比较这些图像。

在GRAF之后的三个月内,Chan等人开发了 π-GAN(2020年12月),它同样使用GAN方法来训练条件化NeRF模型。生成器是一个基于SIREN的NeRF体渲染器,在密度和颜色MLP中用正弦激活取代了标准的ReLU激活。π-GAN在标准GAN数据集(上优于GRAF。

EG3D(2021年12月)使用新颖的混合三平面表示,特征存储在三个轴对齐的平面上,并使用一个小的解码器MLP在GAN框架中进行神经渲染。GAN框架由姿态条件化的StyleGAN2特征图生成器(用于三平面)、将三平面特征转换为低分辨率图像的NeRF渲染模块和一个超分辨率模块组成。超分辨后的图像随后馈入StyleGAN2判别器。模型在FFHQ数据集上取得了最先进的结果,生成了人脸的逼真图像和3D几何。

StyleNeRF(2022年1月)是一项极具影响力的研究,它通过使用NeRF将3D感知引入StyleGAN图像合成框架,专注于2D图像合成。StyleNeRF使用风格码条件化的NeRF(带有一个上采样模块)作为生成器,一个StyleGAN2判别器,并向StyleGAN优化目标引入了一个新的路径正则化项。

Pix2NeRF(2022年2月)提出作为一个以对抗方式训练的NeRF模型,模型可以在给定随机采样的潜码和姿态的情况下生成NeRF渲染的图像。除了基于 π-GAN的损失(对抗架构的基础)外,Pix2NeRF损失函数还包括以下内容:

1)重建损失,比较 z_predicted 和 z_sampled 以确保潜在空间的一致性;
2)重建损失,确保图像重建质量,在 I_real 和 I_reconstructed 之间,其中 I_reconstructed 是由生成器根据编码器产生的 z_pred, d_pred 对创建的;
3)条件对抗目标,防止模型塌陷到trivial poses(确切表达式见原文)。

2.4.2 联合优化的Latent Models

这些模型将潜码作为视图合成的关键方面,但将其与场景模型联合优化。下面列出的模型不是生成式,而是使用潜码来解释场景的各种可变方面。在生成潜在优化(GLO)中,一组随机采样的潜码 {𝐳₁, …, 𝐳_n}(通常为正态分布)与一组图像 {I₁, …, I_n} 配对。这些潜码输入到一个生成器 G,其参数与潜码使用某个重建损失 L(如 L₂)联合优化。即,优化公式化为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 𝐮_i 代表未优化的其他输入(NeRF中需要,但其他模型不一定需要)。根据GLO作者的说法,这种方法可以视为无判别器的GAN(Discriminator-less GAN)。

应该注意,在2020-2023时期,许多NeRF模型使用潜码来条件化场景的某些方面,例如NeRF-W中的外观和瞬态嵌入。这些模型通常使用GLO进行优化。除非潜码明确用于场景编辑作为论文的核心思想,否则不在这里列出它们。

Edit-NeRF(2021年6月)允许使用来自用户输入的图像条件进行场景编辑。Edit-NeRF的形状表示由一个类别特定的共享形状网络 F_shared 和一个实例特定的形状网络 F_inst 组成。F_inst 以 𝐳_s 为条件,而 F_shared 则否。理论上,F_shared 充当变形场。NeRF编辑表述为一个联合优化问题,同时优化NeRF网络参数和潜码 𝐳_s, 𝐳_a,使用GLO。他们首先在潜码上优化NeRF光度损失,然后在MLP权重上优化,最后联合优化潜码和权重。

在Edit-NeRF的基础上创新,CLIP-NeRF(2021年12月)的神经辐射场基于标准的潜在条件化NeRF,即NeRF模型以形状和外观潜码为条件。然而,通过使用对比语言-图像预训练(CLIP),CLIP-NeRF可以从用户输入的文本或图像中提取诱导的latent space displacements,方法是使用形状和外观映射器网络。然后,位移可用于根据这些输入的文本或图像修改场景的NeRF表示。这一步允许跳过Edit-NeRF中使用的逐次编辑潜码优化,从而在任务上加速约8-60倍。他们同时使用了一个变形网络,以帮助基于latent space displacements修改场景。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

2.4.3 扩散NeRF模型

扩散模型是2022年引起广泛关注的图像生成和编辑方法系列,并在高斯飞溅之后很大程度上取代了2D图像生成的GAN方法。扩散模型使用前向和反向扩散过程进行训练。前向扩散过程在T个步骤中向某个输入图像/特征图添加噪点。反向过程是生成式的,可用于从高斯噪点创建图像。扩散模型通过使用特定领域的编码器允许基于文本和图像的提示/条件化,从而提供了高度的图像生成控制。

DreamFusion(2022年9月)提出作为一个文本到3D的扩散NeRF模型。DreamFusion中的NeRF模型使用来自2D扩散模型的图像从头开始训练。对于要生成的每个物体或场景,将文本提示输入到扩散模型Imagen中,并训练一个基于mip-NeRF 360的NeRF模型。文本提示允许在扩散图像生成阶段控制主体的视角,某些提示使用关键词如“俯视图”、“前视图”和“后视图”。对NeRF训练的一个关键修改是表面颜色由MLP参数化而不是辐射度。尽管结果令人印象深刻,但Imagen图像是以64x64分辨率生成的。因此,生成的NeRF模型缺乏生成更精细细节的能力。一些结果如图8所示。

在Latent-NeRF(2022年11月)中,NeRF模型训练为输出64x64x4的潜在特征,Stable Diffusion在其上操作,然后经过解码器步骤产生512x512x3的RGB图像。所述方法允许文本引导和形状引导,既可用于进一步的形状细化,也可作为严格的形状约束。

在DreamFusion的基础上,Magic3D(2022年11月)针对由低分辨率扩散图像引起的问题。作者采用了两阶段粗-细(coarse-fine)方法。在粗略阶段,Magic3D使用Instant-NGP作为NeRF模型,使用图像扩散模型eDiff-I根据文本提示生成的图像进行训练。然后,从Instant-NGP提取的粗略几何被放置在一个网格上,在精细阶段使用潜在扩散模型生成的图像进行优化。作者指出,他们的方法允许基于提示的场景编辑、通过以主体图像为条件的个性化文本到3D生成,以及风格引导的文本到3D生成。他们对397个提示生成的物体进行的实验(每个由三名用户评分)显示用户偏好Magic3D胜过DreamFusion。

RealFusion(2023年2月)使用了一些相同的思路,但专注于单次(single-shot)场景学习。基础扩散模型是Stable Diffusion ,基础NeRF模型是Instant-NGP。作者使用单图像文本反演作为替代视图,通过增强输入2D图像并将其与一个新的词汇标记关联,以优化扩散损失,确保辐射场表示单视图摄影中的物体。然后使用NeRF光度损失以coarse-to-fine的方式训练3D场景。

SSDNeRF(2023年4月)通过单阶段3D潜在扩散模型学习可泛化的3D先验。与许多分别训练自动编码器和扩散模型(通常导致噪点潜在表示)的两阶段方法不同,SSDNeRF从多视图图像端到端地联合优化NeRF和扩散组件。即使在稀疏视图输入下,该策略也能实现稳健学习。此外,该模型支持灵活的测试时采样,允许从任意视图数量进行3D重建。在单物体数据集上的实验显示,在生成和重建任务上均表现强劲,向通用3D学习框架迈进了一步。

除了这些生成扩散模型,扩散模型同时用于通过图像条件化进行单视图NeRF场景学习(NeuralLift-360(2022年11月),NeRFDi(2022年12月, NerfDiff(2023年2月), PoseDiff(2024年1月)),以及用于几何正则化(DiffusioNeRF(2023年2月))。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

2.5 无界场景和场景组合

随着尝试在室外场景中使用NeRF模型,产生了将前景与背景(可能包含天空或地平线视图)分离的需求。这些室外场景在图像间光照和外观变化方面也带来了额外的挑战。下面介绍的方法使用各种方法处理这个问题,许多方法通过逐图像外观编码来适应潜在条件化。研究领域的某些方法同时执行语义或实例分割,以在3D语义标注中找到应用。

在NeRF in the Wild (NeRF-W) (2020年8月)中,Martin-Brualla等人解决了早期NeRF模型的两个关键问题。同一场景的真实照片可能包含由于光照条件导致的逐图像外观变化,以及每张图像中不同的瞬态物体。密度MLP在场景的所有图像中保持不变。然而,NeRF-W将他们的颜色MLP以逐图像外观嵌入为条件。另外,另一个以逐图像瞬态嵌入为条件的MLP预测瞬态物体的颜色和密度函数。

Zhang等人开发了NeRF++(2020年10月)模型,模型通过使用一个球体分离场景来适应为无界场景生成新视角。球体内部包含所有前景物体和所有虚拟摄像头视图,而背景则在球体外部。然后使用径向反演对球体外部进行重新参数化。训练两个独立的NeRF模型,一个用于球体内部,一个用于外部。摄像头光线积分也在两部分中评估。

GIRAFFE(2020年11月)的构建方法与NeRF-W类似,使用生成潜码,并分离背景和前景MLP进行场景组合。GIRAFFE基于GRAF,一个用于生成式场景建模的先前模型。该框架为场景中的每个物体分配其自己的神经特征场MLP,MLP产生一个标量密度和一个替代颜色的深度特征向量。MLP具有共享的架构和权重,将形状和外观潜在向量以及输入姿态作为输入。然后使用密度加权和特征来组合场景。然后使用体渲染从这个3D体积特征场创建一个小型的2D特征图,特征图被馈送到一个上采样CNN中以产生图像。GIRAFFE使用这个合成图像和一个2D CNN判别器进行对抗训练。由此产生的模型具有解耦的潜在空间,允许对场景生成进行精细控制。

Fig-NeRF (2021年4月) 处理场景组合,但专注于物体插值和离屏分割。他们使用两个独立的NeRF模型,一个用于前景,一个用于背景。他们的前景模型是可变形Nerfies模型。他们的背景模型是以潜码为条件的外观NeRF。他们使用了两个光度损失,一个用于前景,一个用于背景。Fig-NeRF在ShapeNet、Gelato和Objectron等数据集上实现了良好的离屏分割和物体插值结果。

Yang等人(2021年9月)创建了一个可以编辑场景内物体的组合模型。他们使用基于体素的方法,创建了一个联合优化MLP参数的特征体素网格。他们使用了两个不同的NeRF,一个用于物体,一个用于场景,两者都以插值的体素特征为条件。物体NeRF进一步以一组物体激活潜码为条件。他们的方法在ScanNet以及带有实例分割标签的内部ToyDesk数据集上进行了训练和评估。他们通过掩码损失项整合了分割标签,识别场景中的每个物体。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

NeRFRen(2021年11月)解决了NeRF视图合成中反射表面的问题。作者将辐射场分离为两个分量,透射 (σ_t, 𝐜_t) 和反射 (σ_r, 𝐜_r),最终像素值由下式给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 β 是由透射辐射场的几何形状给出的反射比例:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

T_{σ_i

t} 由公式(3)给出,α_i 由公式(5)给出。除了标准的光度损失外,作者同时使用了深度平滑损失 L_d(原文公式8)来鼓励透射辐射场产生正确的几何形状。同样,对反射辐射场使用了双向深度一致性损失 L_bdc(原文公式10)。NeRFRen能够在作者的RFFR数据集上渲染反射表面,优于基准方法(如基线NeRF和NerfingMVS)以及消融模型。该方法证明可以支持通过移除反射和替换反射来进行场景编辑。

2.6 姿态估计

NeRF模型需要输入图像和摄像头姿态来训练。在最初的2020年论文中,未知姿态使用COLMAP库获取,该库在后续许多NeRF模型中也经常使用(当摄像头姿态未提供时)。通常,构建同时执行姿态估计和基于NeRF的隐式场景表示的模型表述为离线运动恢复结构问题。在这些情况下,通常使用光束法平差来联合优化姿态和模型。然而,一些方法也将其表述为在线SLAM问题。

iNeRF(2020年12月)将姿态重建表述为一个逆问题。给定一个预训练的NeRF,使用光度损失8,Yen-Chen等人优化姿态而不是网络参数。作者使用兴趣点检测器并执行兴趣区域采样。作者同时进行了半监督实验,他们使用iNeRF姿态估计对未标定姿态的训练图像进行标注,以增强NeRF训练集,并进一步训练前向NeRF。作者表明,这种半监督将前向NeRF所需的姿态照片减少了25%。

NeRF–(2021年2月)联合估计NeRF模型参数和摄像头参数。这使得模型能够以端到端的方式构建辐射场并合成新视角图像。NeRF–在视图合成方面总体上取得了与使用COLMAP的2020年NeRF模型相当的结果。然而,由于姿态初始化的限制,NeRF–最适合前向场景,并且在旋转运动和物体跟踪运动方面存在困难。

与NeRF–同时期的是Bundle-Adjusted Neural Radiance Field/BARF(2021年4月),它也联合估计姿态和神经辐射场的训练。BARF还使用了coarse-to-fine registration,通过自适应掩蔽位置编码。总体而言,BARF在LLFF前向场景数据集(摄像头姿态未知)的结果比NeRF–平均高出1.49 PSNR(在八个场景上),并且比COLMAP配准的基线NeRF高出0.45 PSNR。BARF和NeRF–都为了简单起见使用了朴素的密集光线采样。

Jeong等人引入了一种用于NeRF的自校准联合优化模型(SCNeRF)(2021年8月)。他们的摄像头校准模型不仅可以优化未知姿态,还可以优化非线性摄像头模型(如鱼眼镜头模型)的摄像头内参。通过使用curriculum learning,他们逐渐将非线性摄像头/噪点参数引入联合优化。这种摄像头优化模型也是模块化的,可以轻松地与不同的NeRF模型一起使用。该方法在LLFF场景上优于BARF。

GNeRF(2021年3月)是Meng等人的另一种方法,它将姿态作为生成潜码。GNeRF首先通过对抗训练获得粗略的摄像头姿态和辐射场。这是通过使用一个生成器来实现的,该生成器接收随机采样的姿态并使用NeRF风格的渲染合成视图。然后,判别器将渲染的视图与训练图像进行比较。一个反演网络接收生成的图像并输出一个姿态,该姿态与采样的姿态进行比较。这产生了粗略的图像-姿态配对。然后通过光度损失以混合优化方案联合优化图像和姿态。GNeRF在合成NeRF数据集上略微逊色于基于COLMAP的NeRF,但在DTU数据集上优于基于COLMAP的NeRF。

GARF(2022年4月)在NeRF中使用高斯激活作为位置编码的有效替代方案,并结合光束法平差进行姿态估计。作者表明,GARF可以从未知摄像头姿态成功恢复场景表示,即使在具有低纹理区域的挑战性场景中,使其适用于实际应用。

2.7 NeRF和SLAM

Sucar等人引入了第一个基于NeRF的密集在线SLAM模型,名为iMAP(2021年3月)。模型联合优化摄像头姿态和隐式场景表示(NeRF模型形式),利用持续的在线学习。他们采用了迭代的两步方法:跟踪(相对于NeRF的姿态优化)和建图(姿态和NeRF模型参数的联合优化光束法平差)。iMAP通过并行运行更快的跟踪步骤,实现了接近摄像头帧率的姿态跟踪速度。iMAP还通过仅在稀疏且增量选择的图像集上进行场景优化来使用关键帧选择。

在iMAP的基础上,NICE-SLAM(2021年12月)改进了诸如关键帧选择和NeRF架构等各个方面。具体来说,他们使用场景几何的分层网格表示,能够填补iMAP在某些场景中重建大型未观察场景特征(如墙壁和地板)的空白。NICE-SLAM实现了比iMAP更低的姿态估计误差和更好的场景重建结果。NICE-SLAM使用的FLOPs约为iMAP的四分之一,跟踪时间为三分之一,建图时间为一半。

NeRF-SLAM(2022年10月)通过使用Instant-NGP作为其建图模块的NeRF模型,并结合最先进的SLAM流程,改进了现有的基于NeRF的SLAM方法,大大超越了之前在Replica数据集上的基准。

NICERSLAM-SLAM(2023年2月)是一个端到端的密集SLAM系统,仅使用RGB输入执行同时跟踪和建图,改进了NICE-SLAM。它引入了基于SDF的分层神经隐式表示,支持详细的3D几何和照片级真实感的新视图合成。该系统利用单目几何线索、光流和扭曲损失来指导优化,而无需深度监督。此外,它提出了一种局部自适应SDF到密度的转换,专为室内场景动态设计。

2.8 神经渲染的相关方法

2.8.1 显式表示和快速的无MLP体渲染

Plenoxel(2021年12月)遵循PlenOctree的脚步,将场景体素化并存储密度的标量值和方向相关颜色的球谐系数。然而,令人惊讶的是,Plenoxel完全跳过了MLP训练,而是直接在体素网格上拟合这些特征。他们取得了与NeRF++和JaxNeRF相当的结果,训练速度快了几百倍。结果表明,NeRF模型的主要贡献是在给定逐点密度和颜色的情况下进行新视角的体渲染,而不是密度和颜色MLP本身。HDR-Plenoxels (2022年8月) 通过从低动态范围图像学习3D高动态范围辐射场、场景几何和各种摄像头设置,将此想法适应到HDR图像。

TensoRF(2022年3月)将标量密度和向量特征(可以与球谐系数一起使用,或用于通过MLP解码的特征)存储为分解的张量。这些最初表示为秩3张量 T_σ ∈ R

{H×W×D} 和秩4张量 T_c ∈ R^{H×W×D×C},其中 H, W, D 是体素网格的高度、宽度和深度分辨率,C 是通道维度。作者随后使用了两种分解方案:规范分解/平行因子分析,将张量分解为纯向量外积;和向量矩阵,将张量分解为向量/矩阵外积。这些分解在使用CP时将Plenoxels的内存需求减少了200倍。他们的VM分解在视觉质量方面表现更好,尽管需要内存权衡。训练速度与Plenoxels相当,比隐式NeRF模型快得多。

Streaming Radiance Fields(2022年10月) 是一种显式表示方法,专门针对视频的NeRF训练,并改进了标准显式方法。作者采用基于模型差异的压缩来减少显式表示的内存需求。该方法还使用了窄带调整方法和各种训练加速策略。该方法实现了比Plenoxels快约90倍的训练速度,内存需求减少了100到300倍。

2.8.2 Ray Transformers

IBRNet (2021年2月) 于2021年发表,是一种用于视图合成的NeRF相关方法,在基准测试中被广泛使用。对于目标视图,IBRNet从训练集中选择 N 个观察方向最相似的视图。使用CNN从这些图像中提取特征。对于单个查询点,对于每个输入视图 i,使用已知的摄像头矩阵投影到相应的图像上以提取颜色 𝐜_i 和特征 𝐟_i。然后使用MLP来细化这些特征 𝐟_i’ 以使其具有多视图感知能力,并产生池化权重 w_i。对于密度预测,使用权重对这些特征求和。对每个查询点执行此操作,并将(沿光线的所有查询点的)结果连接在一起,馈入Ray Transformer以预测密度。

与NeRF模型相比,Scene Rendering Transformer/SRT(2021年11月)对体渲染采取了不同的方法。他们使用CNN从场景图像中提取特征块,这些特征块与摄像头光线和视点坐标 {𝐨, 𝐝} 一起馈入编码器-解码器Transformer,然后产生输出颜色。一次性查询整条光线,这与NeRF模型不同。SRT是几何无关的,不产生场景的密度函数,也不依赖于几何归纳偏差。

NeRFormer(2021年9月)是一个可比较的并发模型,也将Transformer作为体渲染过程的一部分。NeRFormer使用交替的池化层和光线级注意力层处理来自多个源视图的光线深度排序特征序列,实现有效的联合特征聚合和光线行进。论文同时引入了Common Objects in 3D数据集。

3. 高斯飞溅之前NeRF及相关方法的应用

对于下面介绍的选定研究,其创新点聚焦于NeRF的具体应用,最终形成一个组织分类树(图12)。分类树还包括某些先前在上一节中介绍过且具有强烈应用焦点的模型。

Adamkiewicz等人(2021年10月)的一项研究专注于定位和导航方面,展示了预训练NeRF在协助机器人通过教堂导航的真实应用。作者使用预训练的NeRF模型表示环境,机器人本身近似为用于碰撞检查的有限点集合。由于NeRF模型是预训练的,该方法不能被归类为姿态估计模型,而是展示了NeRF在现实生活中的有趣用途。

Dex-NeRF (2021年10月) 使用NeRF学习到的密度来帮助机器人抓取物体,特别关注透明物体,这些物体通常是某些RGB-D摄像头(如RealSense)产生的深度图的失败案例。该论文还提出了三个专注于透明物体的新数据集:一个合成数据集和两个真实世界数据集。Dex-NeRF通过使用沿光线的密度的固定经验阈值,在透明物体的计算深度方面改进了基线NeRF。然后,他们的NeRF模型用于产生深度图,供Dex-Net 进行抓取规划。Evo-NeRF(2022年11月)过重用序列抓取中的权重、提前终止和改进的辐射调整抓取网络改进了Dex-NeRF。

下面将NeRF方法的应用分类为城市重建、人脸和铰接体重建、表面重建和低级图像处理。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

3.1 城市

训练城市NeRF模型提出了一些独特的挑战。首先,室外环境是无界的;其次,摄像头姿态通常缺乏多样性;第三,需要大规模场景。

Urban Radiance Fields(2021年11月) 旨在将基于NeRF的视图合成和3D重建应用于城市场景,使用稀疏多视图图像并辅以LiDAR数据。除了标准的体渲染损失外,他们还使用了基于LiDAR的深度损失 L_depth 和视线损失 L_sight,以及基于天空盒的分割损失 L_seg。这些由以下公式给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

w(t) 定义为 T(t) σ(t)(公式3)。z 和 ẑ 分别是LiDAR测量的深度和估计深度(公式6)。δ(z) 是Dirac delta function。S_i(𝐫)=1 表示第i张图像中光线穿过天空像素,其中天空像素通过预训练模型分割,否则为0。深度损失强制估计深度 ẑ 匹配LiDAR获取的深度。视线损失强制辐射集中在测量深度的表面。分割损失强制穿过天空像素的光线采样点具有零密度。3D重建是通过在体渲染期间从NeRF模型提取点云进行的。为虚拟摄像头中的每个像素投射一条光线。然后使用预期深度将点云放置在3D场景中。泊松表面重建用于从这个生成的点云重建3D网格(见图11)。

Mega-NeRF(2021年12月) 从无人机航拍图像执行大规模城市重建。Mega-NeRF使用NeRF++反球体参数化将前景与背景分离。然而,作者通过使用更适合航拍视角的椭球体扩展了该方法。他们将NeRF-W的逐图像外观嵌入代码整合到模型中。他们将大型城市场景划分为单元,每个单元由其自己的NeRF模块表示,并且每个模块仅在具有潜在相关像素的图像上进行训练。对于渲染,该方法还将密度和颜色的粗略渲染缓存到八叉树中。

Block-NeRFs(2022年2月) 从280万张街道级图像执行城市尺度的NeRF重建。如此大规模的室外数据集带来了诸如瞬态外观和物体等问题。每个独立的Block-NeRF建立在mip-NeRF(使用其IPE)和NeRF-W(使用其外观潜码优化)之上。另外,作者使用语义分割在NeRF训练期间掩蔽掉瞬态物体(如行人和汽车)。一个可见性MLP被并行训练,使用NeRF MLP生成的透射函数(公式3)和密度值进行监督。这些用于丢弃低可见性的Block-NeRF。单元划分为具有重叠的区块,在每个区块上训练一个Block-NeRF。在重叠区域中采样图像,并在外观编码匹配优化后使用反距离加权进行组合。

其他有影响力的方法,如S-NeRF(2021年4月)、BungeeNeRF(2021年12月),也执行基于NeRF的城市3D重建和视图合成,尽管使用的是遥感图像。

3.2 人脸、人体化身和铰接体

NeRF模型的一个关键应用是人体化身的重建,在虚拟现实/增强现实、数字娱乐和通信中找到应用。两个NeRF模型家族针对这些应用:那些重建人类(或动物)面部的模型和那些重建人体/铰接体的模型。人脸的重建要求NeRF模型在面部表情变化下具有鲁棒性,这通常表现为拓扑变化。模型通常通过额外的MLP参数化变形场,可能以潜码为条件,允许从基线人脸进行受控变形。值得注意的是,许多基于GAN的NeRF模型或GAN框架中的NeRF模型是在人脸数据集上训练和调整的,因此可以说应放在本节。人体提出了一系列不同的挑战。NeRF模型必须在铰接体的姿态变化下保持鲁棒,这通常被建模为具有模板人体模型的变形场。

Park等人引入了Nerfies(2020年11月),一个使用变形场构建的NeRF模型。变形场极大地提高了模型在存在场景非刚性变换(例如动态场景)时的性能。通过引入一个额外的MLP,并通过添加弹性正则化、背景正则化和通过自适应掩蔽位置编码的从粗略到精细的变形正则化,他们能够精确重建某些非静态场景,而基线NeRF在这些场景上完全失败。作者发现的一个有趣应用是创建多视角“自拍”。与Nerfies同时期的是NerFace(2020年12月),它也使用每帧学习的潜码,并将面部表情作为从Face2Face构建的可变形模型的76维系数添加。随后,Park等人介绍了HyperNeRF(2021年6月),它建立在Nerfies之上,通过将规范空间扩展到更高维度,并使用一个slicing MLP描述如何使用环境空间坐标返回到3D表示。然后使用规范坐标和环境空间坐标来条件化基线NeRF模型的常用密度和颜色MLP。HyperNeRF在合成具有拓扑变化的场景视图方面取得了很好的效果,例如人类张嘴闭嘴,或剥香蕉皮。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

Neural Body(2020年12月) 将NeRF体渲染应用于视频中具有移动姿态的人体化身。作者首先使用输入视频锚定一个基于顶点的可变形人体模型(SMPL)。在每个顶点上,作者附加了一个16维潜码 𝐙。然后使用人体姿态参数 𝐒(在训练期间从视频估计,在推理时可以输入)来变形人体模型。使用带有神经变形场的基线SMPL骨架模型成为人体化身神经场渲染的基础方法。结果如图13所示。

NELF(2021年7月)提出了一个神经体积渲染框架,使用光传输向量建模场景外观,仅需五张输入图像即可实现人类肖像的真实感重光照和新视图合成。UNet风格的CNN提取每视图特征,MLP回归体积密度和传输向量,同时估计环境贴图以解缠光照。在合成数据上训练并通过域适应模块适应真实图像,该方法实现了照片级真实、光照一致的渲染,在质量和效率上均优于现有方法。

CoNeRF (2021年12月) 建立在HyperNeRF之上,但允许通过滑块轻松控制照片编辑,滑块的值被提供给每属性Hypermap变形场,该场由MLP参数化。这是通过滑块属性值的稀疏监督标注和图像块掩码实现的,对滑块属性值使用 L₂ 损失项,对掩码监督使用交叉熵损失。CoNeRF在其示例数据集上取得了良好的效果,使用滑块调整面部表情,这可能具有广泛的商业应用,用于虚拟人化身。RigNeRF(2022年6月) 也在这个主题上进行了创新,使用由可变形3D人脸模型引导的变形场MLP,创建具有可控姿态和表情的完整3D人脸肖像。

标准NeRF方法在处理移动身体时遇到困难,而Neural Body的网格变形方法能够在帧之间和姿态之间进行插值。为动画化铰接体建立了一个流行的范式,使用基线骨架,并在其上装备基于MLP的变形场或神经场的其他实现。在接下来的两年中,这激发了大量的研究,如A-NeRF(2021年2月)、Animatable NeRF(2021年5月)及其后续论文Animatable Implicit Neural Representation(2022年3月15日)、DoubleField(2021年6月)、HumanNeRF(2022年1月)、Zheng等人(2022年3月)、NeuMan (2022年3月)、PINA(2022年3月)、TAVA(2022年6月)、Fast-SNARF(2022年11月)、ELICIT(2022年12月)、X-Avatar(2023年3月),这些都在这个主题上进行了创新。

PREF(2022年9月)特别关注图像序列中的动态和运动,通过正则化以潜在嵌入为条件的估计运动。尽管PREF在人体化身的图像序列上训练和测试,但它应该适用于其他领域。许多上述论文,如NeuMan和TAVA,也专注于在(人体主体)新姿态和动作下动画化主体。

LISA(2022年4月)专门通过将人手近似为一组刚性部分来对手部进行建模。查询点输入到MLP中,用于预测几何(通过SDF)和颜色。

另一个流行的研究子领域专注于面部化身,其约束/要求基于动画化表情或面部拓扑。该研究领域正在从HyperNeRF和NeRFies 的开创性研究中延续并改进。一些有影响力的作品包括Neural Head Avatar(2021年12月)、IMAvatar(2021年12月)、INSTA(2022年11月)。

2022年,一个新兴的研究领域是基于扩散的3D化身模型生成,该模型结合神经场和NeRF,由文本引导提供支持。DreamAvatar(2023年4月)、DreamHuman(2023年6月)、AvatarVerse(2023年8月)在概念上相似,使用SMPL模型作为形状先验,并使用文本引导的2D图像生成(通过扩散)在类似DreamFusion的3D生成流程中创建训练数据,其中流程结合了NeRF和扩散。

3.3 图像处理

Mildenhall等人创建了RawNeRF(2021年11月),将Mip-NeRF应用于高动态范围图像视图合成和去噪。RawNeRF在线性色彩空间中使用原始线性图像作为训练数据进行渲染。这允许改变曝光和色调映射曲线,本质上是在NeRF渲染之后应用后处理,而不是直接使用后处理图像作为训练数据。RawNeRF使用可变曝光图像进行监督,NeRF模型的“曝光”根据训练图像的快门速度进行缩放,以及每个通道的学习缩放因子。它在夜间和低光照场景渲染和去噪方面取得了令人印象深刻的结果。RawNeRF特别适合光照较弱的场景。

与RawNeRF同时期的是Xin等人的HDR-NeRF(2021年11月),它也致力于HDR视图合成。然而,HDR-NeRF通过使用具有可变曝光时间的低动态范围训练图像来处理HDR视图合成,而不是RawNeRF中的原始线性图像。RawNeRF建模了一个HDR辐射 𝐞(𝐫) ∈ [0, ∞),取代了标准公式(1)中的 𝐜(𝐫)。HDR-NeRF建立在基线NeRF之上,使用相同的位置编码和采样策略。该模型在作者收集的合成HDR数据集上进行了训练。HDR-NeRF在低动态范围重建方面显著优于基线NeRF和NeRF-W,并在HDR重建上取得了高视觉评估分数。

DeblurNeRF(2021年11月)对模糊过程进行建模,以从模糊输入中恢复清晰的NeRF。它使用可变形稀疏核模块,用稀疏光线近似密集模糊核,联合优化光线起点以捕捉来自不同来源的光线混合。DSK通过MLP参数化适应空间变化的模糊,实现跨模糊类型的泛化。训练仅依赖于模糊输入,而推理时移除DSK以渲染清晰的新视图。

NeRF-SR(2021年12月) 引入了一种超采样策略,该策略在子像素级别强制多视图一致性,改善了图像和深度的超分辨率。超采样从任何像素的子像素网格中采样光线方向,而不是单一光线方向;其次,它平均子像素的颜色以进行监督。为了进一步增强细节,基于patch-wise warp-and-refine使用估计的3D几何在场景中传播高分辨率参考块,计算开销最小。与依赖配对LR-HR数据的先前方法不同,NeRF-SR仅需要姿态多视图图像,并利用内部场景统计。这标志着第一个在主要低分辨率输入下产生高质量多视图超分辨率的框架。

NaN(2022年4月)整合了视图间和空间感知,增强了噪点鲁棒性,在大运动和高噪点等挑战性条件下实现了burst denoising的最先进结果。在IBRNet的基础上,该方法仅需最少输入即可泛化到未见场景,避免逐场景训练。

3.4 语义NeRF模型

训练具有语义理解或语义视图合成能力的NeRF模型是高斯飞溅之前NeRF研究的一个关键发展领域。许多后续基于高斯飞溅的语义视图合成和场景理解模型都建立在先前的基于NeRF的方法之上。

Semantic-NeRF(2021年3月)是一个能够为新视图合成语义标签的NeRF模型。这是通过一个额外的方向无关MLP(分支)实现的,该MLP以位置和密度MLP特征为输入,并产生逐点语义标签 𝐬。语义标签也通过体渲染生成:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

语义标签使用分类交叉熵损失进行监督。该方法能够使用稀疏语义标签数据(10%标记)进行训练,并从逐像素噪点和区域/实例级噪点中恢复语义标签。该方法还可用于语义标签超分辨和标签从稀疏逐点标注的传播。它也可以用于多视图语义融合,优于非深度学习方法。先前介绍的Fig-NeRF也采用了类似的方法。

Panoptic NeRF (2022年3月) 专注于城市场景,特别是3D到2D标签传播,这是扩展城市自动驾驶数据集的关键任务。该方法使用两个语义场:一个由语义头学习,另一个是刚性的,由3D边界框确定。根据作者的说法,基于刚性边界框的语义强制模型学习正确的几何形状,而学习的语义头改进了语义理解。他们的方法在KITTI-360上进行了评估,优于先前的语义标签转移方法。

Panoptic Neural Fields(2022年5月) 首先将“stuff”(作者命名),即背景静态物体,与“things”,即场景中移动的物体分离开来。“stuff”由单个(大型场景中为两个,一个用于前景,一个用于背景)辐射场MLP表示,输出颜色、密度和语义逻辑值,而每个动态“things”在其动态边界框内由其自己的辐射场表示。总损失函数是光度损失函数和逐像素交叉熵函数的总和。该模型在KITTI 和KITTI 360上进行了训练和测试。除了新视图合成和深度预测合成外,该模型还能够进行语义分割合成、实例分割合成以及通过操作物体特定MLP进行场景编辑。

Kobayashi等人(2022年5月)将现成的2D特征提取器的知识提炼到3D特征场中,他们将这些特征场与场景内辐射场联合优化,以产生具有语义理解的NeRF模型,从而允许场景编辑。从基于CLIP的特征提取器进行的提炼允许从开放集文本标签或查询中进行zero-shot segmentation。

SS-NeRF(2022年6月)采用一个编码函数和两个位置解码函数(一个方向相关,一个方向无关),均由多层感知器表示。该网络被训练产生各种场景属性,在Replica数据集测试:颜色、语义标签、表面法线、着色、关键点和边缘,使用包括颜色的MSE、表面法线的MSE、着色的MAE、关键点和边缘的MAE以及语义标签的交叉熵的组合损失。这项研究表明,通过体渲染和简单的NeRF训练(无需使用高级神经架构)即可轻松实现场景属性合成。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

3.5 表面重建

NeRF模型的场景几何是隐式的,隐藏在神经网络内部。然而,对于某些应用,需要更显式的表示,例如3D网格。对于基线NeRF,可以通过评估和阈值化密度MLP来提取粗略几何。本节介绍的方法使用创新的场景表示策略,改变了密度MLP的基本行为。严格来说,这些方法不是NeRF,而是归类为通用神经场。在高斯飞溅之后,作者倾向于强调这种区别。

UNISURF(2021年4月)通过将离散体渲染方程(公式4)中使用的第i个采样点处的alpha值 aᵢ(公式5)替换为离散占据函数 o(𝐱) = 1(在占据空间中),o(𝐱) = 0(在自由空间中),来重建场景表面。这个占据函数也由一个MLP计算,本质上取代了体积密度。然后通过沿光线求根来检索表面。UNISURF在包括在基线NeRF模型中使用密度阈值以及IDR等基准方法上表现出色。占据MLP用于定义场景的显式表面几何。特斯拉最近的一个研讨会表明,其自动驾驶模块的3D理解是由一个这样的类NeRF占据网络驱动的。

Neural Surface/NeuS(2021年6月) 模型执行类似于基线NeRF模型的体积渲染。然而,它使用SDF来定义场景几何。它将输出密度的MLP替换为输出SDF值的MLP。然后,在体渲染方程(公式2)中替代 σ(t) 的密度 ρ(t) 构造为:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 Φ(·) 是sigmoid函数,其导数 dΦ/dt 是逻辑密度分布。作者表明,他们的模型优于基线NeRF模型,并为他们的方法及其基于SDF的场景密度实现提供了理论和实验证明。HF-NeuS(2022年6月)通过将低频细节分离到基础SDF中,将高频细节分离到位移函数中,极大地提高了NeuS的重建质量。同时,Geo-NeuS(2022年5月)为SDF引入了新的多视图约束,形式为由稀疏点云监督的多视图几何约束,以及多视图光度一致性约束。SparseNeus(2022年6月)同时期提出,通过使用具有可学习图像特征的几何编码体积作为混合表示方法,改进了NeuS对稀疏视图SDF重建的关注。

Azinovic等人(2021年4月)的一项并发研究将密度MLP替换为截断SDF MLP。他们反而将像素颜色计算为采样颜色的加权和:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

wᵢ 由sigmoid函数的乘积给出:

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

其中 tr 是截断距离,它截断离单个表面太远的任何SDF值。为了考虑可能的多光线-表面相交,后续的截断区域被加权为零,不贡献于像素颜色。作者还使用了NeRF-W的逐帧外观潜码来解释白平衡和曝光变化。他们通过在其截断SDF MLP上使用行进立方体,在ScanNet 和一个私有的合成数据集上实现了干净的重建结果。

4. 高斯飞溅之后的神经渲染和NeRF

3D高斯飞溅是一种用于3D场景表示和新视角合成的方法,它使用一组各向异性的3D高斯来表示场景。每个高斯编码位置、尺度、方向、不透明度和颜色,允许通过快速可微分飞溅过程渲染场景,该过程在屏幕空间投影和混合这些基元。高斯飞溅方法通常快得多,并产生略高质量的图像,但需要更多的内存和存储空间。

自原始论文以来,基于高斯飞溅的方法在许多新视角合成及相关任务上超越了NeRF及相邻的神经渲染方法。研究动力的转变如此剧烈,以至于隐式和混合神经场方法开始疏远“NeRF”这个关键词。尽管如此,这些方法在隐式神经场表示具有优势的特定应用中仍然很受欢迎。在本节中,将详细介绍相关的隐式和混合神经场方法以及NeRF方法。

4.1 使用隐式/混合神经场表示改进可微分体渲染

NeuRBF(2023年9月)是一种混合神经场模型,通过将自适应径向基函数(RBF)与基于网格的RBF插值相结合,提高了表示的准确性和紧凑性。它推广了早期的基于特征网格的神经场方法,引入多频正弦组合(multi-frequency sinusoidal composition)来扩展每个基函数编码的频率。然后通过一个用于体渲染和SDF重建的MLP解码这些特征。NeuRBF在2D图像拟合、3D符号距离场重建和神经辐射场合成等任务中实现了最先进的性能。

FastSR-NeRF(2023年12月)在NeRF流程中引入了一个简单的超分辨率/上采样CNN。该方法训练一个小型、快速、高效的NeRF模型来生成低分辨率3D一致特征,并使用一个快速SR模型对这些特征进行上采样,显著降低了体渲染的计算成本。与之前依赖复杂训练过程、蒸馏或高分辨率参考图像的NeRF+SR方法不同,FastSR-NeRF不需要架构更改或繁重计算。它引入了一种称为随机块采样的新颖增强技术,通过增加块多样性来提高SR性能。该方法特别适合消费级硬件,使神经渲染更易普及。

Viewing Direction Gaussian Splatting,/VDGS(2023年12月) 是一种混合方法,结合了高斯飞溅的快速高效渲染与NeRF的视角相关建模能力。VDGS使用3D高斯飞溅表示几何,并使用基于NeRF的颜色和不透明度编码。VDGS继承了高斯飞溅的实时推理性能,同时显著减少了视角相关伪影。

MulFAGrid(2024年5月)是一个通用的基于网格的神经场模型,它将乘法滤波器与傅里叶特征集成。受新的Grid Tangent Kernel理论指导,该方法强调高频率区域的光谱效率,相比InstantNGP和NeuRBF等先前模型,提供了更好的泛化能力和学习容量。MulFAGrid支持规则和不规则网格,并通过网格和核特征的联合优化进行训练。在2D图像拟合、3D符号距离场重建和新视角合成等任务上的结果显示其卓越性能,在基于NeRF的基准测试中表现出色。虽然比3DGS等实时渲染器慢,但MulFAGrid为神经场表示提供了一个稳健、灵活的替代方案。

4.2 3D场景表示的发展

4.2.1 3D场景理解与语义

GP-NeRF(2023年11月)是一个将NeRF与2D语义分割模块集成的统一框架,以实现上下文感知的3D场景理解。与先前将语义标签和辐射场独立处理的方法不同,GP-NeRF使用Field Aggregation Transformer和Ray Aggregation Transformer联合学习辐射场和语义嵌入场。该架构允许在新视图中联合渲染和优化这两个场。

DP-RECON(2025年3月)提出了一种分解式3D重建方法,将生成扩散先验与神经隐式表示相结合。给定姿态多视图图像,该方法重建单个物体和背景,同时使用预训练Stable Diffusion模型的分数蒸馏采样优化几何和外观。为了解决生成先验与观测数据之间的冲突,引入了一种新颖的可见性引导优化。这种可见性图通过基于体积透射率的可微分网格学习,用于调节每个像素的SDS和重建损失。该方法实现了高保真重建,特别是在遮挡区域,即使输入视图显著减少也优于基线方法。此外,它支持详细的场景编辑、风格化,并输出带有UV贴图的分解网格。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

4.2.2 NeRF及相关神经渲染方法

Language Embedded Radiance Fields/LERF(2023年5月)是一种通过将CLIP特征嵌入3D辐射场,将自然语言理解直接集成到NeRF中的方法。尽管严格来说不是高斯飞溅之后的方法,但这篇有影响力的论文因其对新颖且主要在后高斯飞溅时代的研究领域的影响而被纳入本节。LERF使用来自训练视图的多尺度特征金字塔构建语言场,将每个3D位置与尺度感知的语言语义相关联。为了增强语义稳定性和结构,该框架还通过共享瓶颈整合了自监督DINO特征。其结果是一个模型,能够响应自然语言查询生成3D一致的相关性图,优于投影到3D中的基于2D的开放词汇检测器。LERF支持实时、语义感知的3D交互,适用于机器人、场景理解和视觉语言接地等用例。

OV-NeRF(2024年2月)是一个执行开放词汇3D语义分割的NeRF模型。该方法使用区域语义排序来增强单视图语义精度,RSR利用来自SAM的区域级线索来提高语义图中的边界质量。为了解决跨视图的语义不一致性,OV-NeRF引入了跨视图自增强,利用NeRF的3D一致性来精炼相关性图并生成用于额外监督的新语义视图。这些组合策略减少了CLIP引起的歧义,并提高了多视图一致性。在Replica和ScanNet的实验显示,mIoU比先前方法有显著提升,证明了OV-NeRF在开放词汇3D场景分割中的有效性和泛化性。

Hierarchical Neural Radiance/HNR(2024年4月)通过预测未来候选环境的鲁棒多级语义特征,增强了视觉与语言导航。利用基于CLIP的视觉语言嵌入,该模型将3D感知的语言对齐视觉特征编码到分层特征云中,并使用体渲染推断未见或遮挡区域的语义上下文。这种分层编码相比先前的2D生成方法提高了预测质量和空间理解。集成到一个由跨模态图编码Transformer组成的lookahead VLN框架中,用于通过未来路径树进行路径规划。整个框架允许使用基于神经场的3D视觉系统进行基于语言的路径规划。

Large Language and NeRF Assistant/LLaNA(2024年6月)是一个集成了NeRF的多模态语言模型。NeRF MLP权重使用编码器嵌入到预训练语言模型的潜在空间中。这种方法绕过了渲染图像或提取几何的需要,保留了NeRF表示。作者还提出了一个新的源自ShapeNet的NeRF-语言数据集,用于基于NeRF的问答任务。作者在后续工作Scaling-LLaNA(2025年4月)中引入了大规模训练,提出了一个新的大规模NeRF-语言数据集,并分析了LLM大小。

4.3 扩散和神经场

4.3.1 用于3D生成和编辑的扩散

Shum等人(2023年9月)提出了一种使用文本到图像扩散模型与NeRF集成的语言驱动3D场景编辑方法。该方法通过合成包含目标物体和背景的多视图图像(由文本提示引导),实现物体插入和移除。这些图像用于通过姿态条件化数据集更新策略迭代优化NeRF,该策略逐步整合新视图以保持一致性并稳定训练。与依赖显式几何、深度或掩码的先前方法不同,该方法仅需用户通过3D边界框进行粗略输入。作者通过大量实验展示了系统执行高质量、视角一致编辑的能力,并只需最少手动输入,在基于NeRF的场景操作方面展示了最先进的结果。

ReconFusion(2023年12月)利用2D扩散先验来增强NeRF质量,尤其是在稀疏视图条件下。一个从预训练潜在扩散主干微调而来的多视图条件化扩散模型,在真实和合成数据集上训练以合成新视图。该模型通过类似分数蒸馏的方法在NeRF训练循环中充当正则化器。该方法提高了不同设置下的重建保真度——在密集捕获中减轻floaters和fog等伪影,并在有限视图场景中实现合理的几何。该方法为鲁棒的NeRF优化提供了通用有效的先验。

Comps4D(2024年3月)引入了一个用于生成组合式4D场景(即动画3D场景)的框架。该方法超越了先前的以物体为中心的方法。它将过程解耦为两个主要阶段:(1) 场景分解以创建静态3D资源;(2) 由LLM引导的运动生成。静态物体使用NeRF表示生成。LLM根据文本输入规划全局轨迹,而局部变形通过可变形3D高斯表示学习。这种设置支持灵活渲染和鲁棒的运动学习,即使在存在遮挡时。组合分数蒸馏机制优化物体动态。结果显示,与现有方法相比,在视觉保真度、真实运动和连贯物体交互方面表现优越。

LN3Diff(2024年3月)提出了一种用于条件3D生成的潜在空间3D扩散框架。该流程采用变分自编码器将输入图像映射到紧凑的3D感知潜在空间,然后通过基于Transformer的架构解码为三平面表示。训练利用具有多视图或对抗监督的可微分渲染,每个场景仅需两个视图。卷积分词器和Transformer层支持跨3D令牌的结构化注意力,促进连贯几何。潜在表示支持快速摊销推理和可扩展的扩散学习。LN3Diff在ShapeNet、FFHQ和Objaverse上针对3D重建和生成任务实现了最先进的性能,优于现有的GAN和基于扩散的基线,同时提供高达3倍的推理速度。

4.3.2 辅助图像处理的扩散

Inpaint4DNeRF(2023年12月)引入了一种使用扩散模型的文本引导生成式NeRF修复方法,并自然扩展到4D动态场景。给定用户指定的前景掩码和文本提示,该方法使用Stable Diffusion修复选定的种子视图,然后从这些视图推断粗略几何。剩余视图通过以种子图像及其几何为引导的基于扩散的修复进行细化,确保多视图一致性。

DiSR-NeRF(2024年4月)解决了仅从低分辨率多视图图像生成高分辨率、视角一致NeRF的挑战,因为使用LR图像是NeRF训练中常见的做法(由于计算成本)。简单的2D超分辨率会导致跨视图的细节不一致。为了解决这个问题,DiSR-NeRF引入了两个新颖组件。首先,迭代式3D同步在2D基于扩散的超分辨率和NeRF训练之间交替,逐步在3D空间中对齐细节。其次,本文引入了再噪分数蒸馏,通过优化中间去噪潜在特征来产生更清晰、更一致的结果。DiSR-NeRF无需高分辨率训练数据,在生成高保真、超分辨NeRF方面优于现有方法。

MVIP-NeRF(2024年5月)引入了一种基于扩散的方法,用于神经辐射场的多视角一致修复。与先前依赖独立逐视图2D修复(导致不一致和几何质量差)的方法不同,MVIP-NeRF跨视图联合优化以确保一致性。它采用带有文本条件扩散模型的分数蒸馏采样来引导掩码区域的修复,同时在可见区域进行RGB重建。为了强制几何一致性,该方法还蒸馏法线图。新的多视图SDS公式进一步增强了在大视角变化下的视图一致性。MVIP-NeRF实现了NeRF修复的最先进结果。

Neural Gaffer(2024年6月)提出了一个类别无关的、基于2D扩散模型的单视图重光照框架。与之前局限于特定物体类别的模型不同,它使用HDR环境贴图在任意类别和光照环境下实现泛化。在具有基于物理材质和HDR光照的合成数据集上训练,该模型捕捉了丰富的照明先验,从而能够从单张图像进行准确且高质量的重光照。Neural Gaffer在合成和真实数据上均优于现有方法,可集成到图像编辑任务中,并通过NeRF扩展到3D重光照。它为2D和3D领域的重光照建立了一个通用的基于扩散的先验。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

4.4 使用隐式和混合神经场的SLAM

CP-SLAM(2023年11月)是一个基于神经点的(混合神经场)SLAM系统,支持多智能体协作定位和建图,同时支持单个智能体的loop closure。它引入了一种新的关键帧关联神经点表示,灵感来自Point-NeRF,允许在姿态图优化期间轻松调整逐点特征。为确保跨智能体一致性,CP-SLAM采用两阶段分布式到集中式训练方案:初始解码器为每个智能体单独训练,然后融合并联合微调。该系统将里程计、闭环检测、子图融合和全局优化集成到一个统一框架中。图16展示了3D重建结果的可视化。

SNI-SLAM(2023年11月)是一个密集的基于NeRF的RGB-D SLAM系统,专为精确的实时3D语义建图而设计。它解决了语义SLAM中的两个核心挑战:(1) 外观、几何和语义的相互依赖性;(2) 多视图外观和语义优化的相互不一致性。为此,SNI-SLAM引入了分层语义编码和交叉注意机制,实现模态间的相互增强。它进一步提出了一种新颖的单向解码器设计,以增强模态间信息流而不受反向干扰。

DNS-SLAM(2023年11月) 是一个密集语义感知SLAM框架,它基于按类别分解场景的混合基于点的神经场建图模块。与vMAP等仅关注重建的先前工作不同,DNS-SLAM引入了多类神经场景表示,显式地将物体类别与摄像头姿态关联。它利用2D语义先验和多视图图像特征,通过反向投影的几何约束加强姿态估计。一个通过自监督训练的轻量级粗略模型加速了跟踪。为了进一步优化几何,DNS-SLAM使用高斯分布先验监督占据。

Neural Graph Mapping(2023年12月)引入了一种动态多场场景表示,由锚定在姿态图中关键帧上的小型轻量神经场组成。这些场在闭环期间随更新的姿态变形,实现一致的体积建图,而无需昂贵的重新整合或固定的场景边界。所提出的RGB-D SLAM框架将准确的稀疏视觉跟踪与密集神经建图相结合,在不同场景中实现鲁棒性能。

DDN-SLAM(2024年1月)将语义先验与基于NeRF的表示集成,以区分动态和静态物体。跟踪和基于NeRF的建图被分离到四个线程中。分割线程识别并抑制动态特征点和区域。跟踪线程提取特征,通过语义和几何线索过滤它们,计算静态光流,并产生摄像头姿态和关键帧。建图线程整合输入稀疏点云以指导基于NeRF的光线采样,并使用动态感知掩码驱动关键帧选择和体渲染,保留静态表面几何。闭环检测线程检测重访区域并执行全局光束法平差,增强长程一致性。

PIN-SLAM(2024年1月)是一个使用基于点的隐式神经表示的全局一致SLAM系统。它用神经特征点取代网格结构,提供空间灵活性并在闭环期间进行弹性校正。建图与里程计交替进行。建图步骤基于具有显式神经点和隐式MLP解码器的混合神经SDF表示。里程计通过无对应关系的扫描到地图优化执行。滑动窗口重放缓冲区确保稳定的增量更新。闭环触发姿态图优化和神经点的弹性变形,实现大规模一致建图。

KN-SLAM(2024年3月)集成本地特征对应关系,为基于NeRF的建图模块进行粗略姿态初始化,联合优化光度损失和特征重投影损失。全局图像特征和局部匹配用于显式闭环检测,随后进行姿态图优化和神经地图的全局精炼以确保一致性。

SLAIM(2024年4月)引入了从粗到精的跟踪流程,并通过高斯滤波图像信号改进了光度束调整,提高了图像对齐的收敛性。它保持了NeRF的原始体积密度公式,同时引入了在光线终止分布上的KL正则化。它解决了NeRF中高频率渲染阻碍图像对齐的挑战。

HERO-SLAM(2024年7月)采用了一种新颖的基于多尺度块的损失,通过扭曲对齐特征点、地图和RGB-D像素。使用类似INGP的多分辨率混合特征网格+MLP表示进行神经SDF学习。在标准基准上的广泛评估显示,其优于先前的基于隐式场的SLAM方法,尤其是在挑战性条件下。

MNE-SLAM(2025年6月)是第一个完全分布式的多智能体神经SLAM框架,支持准确的协作建图和鲁棒的摄像头跟踪,无需集中训练或原始数据交换。该系统使用三平面+MLP混合神经场表示作为建图模块。它引入了intra-to-inter闭环策略,通过点对点特征共享和全局一致性损失减少姿态漂移并跨智能体对齐子图。为支持基准测试,作者创建了INS数据集,这是一个具有高精度、时间连续轨迹和3D网格真实值的真实世界数据集,适用于在各种神经SLAM系统下进行评估。

4.5 使用隐式和混合神经场的人体化身

4.5.1 面部

HQ3D(2023年3月)引入了一种使用带有多分辨率哈希编码的体素化特征网格和解码MLP生成高度照片级真实感面部化身的方法。在多视图视频数据上训练,该模型在测试时仅需单目RGB输入,且不需要网格模板或空间修剪。通过以视频提取特征为条件的新颖规范空间,并通过光流损失进行正则化以实现无伪影、时间一致的重建。该方法支持新视图和表情,以2K分辨率渲染,训练速度比先前研究快4-5倍,并实时运行。他们同时引入了一个包含16个身份的4K多视图新数据集。

Qin等人(2023年10月)引入了一个3D头部化身框架,通过提出Spatially-Varying Expression/SVE克服了NeRF中全局表情条件化的局限性。与先前在整个3D空间使用统一全局表情编码的方法不同,SVE整合了空间和表情特征,以实现对面部几何和渲染的细粒度控制。生成网络通过结合3DMM表情参数和位置特定特征来生成SVE。从粗到精的训练策略通过初始化和自适应采样进一步细化几何和渲染。所得方法以显著高于基于全局表情的NeRF的保真度捕捉皱纹和眼部运动等复杂细节。

NeRF技术五年发展梳理综述:从神经辐射场到3D视觉应用的全面演进

BakedAvatar(2023年11月) 提出了一种用于在消费设备上实时渲染4D头部化身的新颖表示,目标是照片级真实感和效率。与传统的基于网格或NeRF的方法(要么难以处理头发等精细细节,要么需要密集采样)不同,BakedAvatar引入了一个与头部表面紧密对齐的学习流形。从中提取分层网格代理以近似体积渲染,同时实现快速栅格化(见图17)。

Bai等人(2024年4月)提出了一个3D神经化身系统,通过基于网格锚定的哈希表混合形状现实时渲染、高保真度和精细控制。3DMM网格的每个顶点链接到一个本地哈希表,允许表情相关的嵌入和局部面部变形。这些局部混合形状使用由驱动信号在UV空间中预测的逐顶点权重进行组合。使用带有解码MLP的哈希编码(混合神经隐式场)从3D查询预测颜色和密度,进行体渲染。

LightAvatar(2024年9月)是一个基于神经光场NeLF的头部化身模型,消除了对显式网格或体渲染的依赖,实现流线化、高效流程。预训练的化身模型通过蒸馏监督LightAvatar。为避免教师监督带来的性能限制,训练结合了伪数据和真实数据。然而,由于3DMM拟合在真实数据上不完美,引入了变形场网络来校正拟合误差并提升质量。渲染在低分辨率下完成,并使用超分辨率模块生成高分辨率图像。

4.5.2 身体

Xu等人(2023年8月)提出了一种从稀疏或单目视频创建可重光照和可动画化人体化身的方法。化身被建模为在规范空间预测材质属性(光可见性、反照率、粗略度)和几何属性(SDF和表面法线)的MLP,通过神经变形场变换到世界空间。分层距离查询算法混合世界空间KNN和规范SDF距离,通过球体追踪实现准确的像素-表面相交,并改进了任意姿态下的渲染。该方法还将距离场软阴影计算扩展到变形的SDF,允许高效的软阴影渲染。

NECA(2024年3月)是一个可定制的神经化身框架,可在任意姿态、视角和光照下实现照片级真实渲染,同时支持形状、纹理和阴影的细粒度编辑。NECA在规范空间和基于表面的UV切线空间中联合学习人体表示,以捕获共享结构和高频姿态相关细节。几何、反照率和阴影通过独立的MLP预测,并优化环境光照。通过使用光度和法线约束进行自监督训练,该框架建立在SMPL模型之上,并使用基于属性的神经场处理SDF、反照率和阴影。

MeshAvatar(2024年7月)引入了三角形人体化身的混合表示,通过结合显式网格几何与神经符号距离和材质场,实现从多视图视频的端到端学习。该系统利用可微分行进四面体桥接网格和隐式组件,兼容传统渲染管道和硬件加速光线追踪。为增强表面重建和重光照,该方法整合了阴影感知基于物理的渲染、用于高频细节的姿势驱动2D神经编码器,以及用于弱监督的立体估计法线图(。该设计无需表面跟踪或预定义模板即可实现高质量动态几何和外观。

HumanAvatar(2024年10月)引入了一个快速流畅的动态人体NeRF模型,从单目视频重建可动画化的人体化身。它结合了HuMoR (用于时间一致姿态估计)、Instant-NGP(用于加速规范形状学习)和Fast-SNARF(用于高效变形到姿态空间)。为克服动态设置中传统体渲染的低效性,该方法提出了姿态敏感空间缩减和动态占据网格,用于在渲染期间跳过空白区域。这种混合设计显著提高了重建质量和速度。

5 讨论

5.1 NeRF vs. 高斯飞溅

NeRF和高斯飞溅都是新视角合成方法。它们的表示不同:NeRF及相邻的神经场渲染方法使用隐式或混合神经场来表示3D场景,而高斯飞溅方法使用场景的显式3D点云状表示。它们的渲染范式也不同:本综述中介绍的NeRF及相关神经场渲染方法使用类似光线追踪的可微分体渲染,沿着虚拟摄像头光线采样神经密度和颜色场;而高斯飞溅方法使用基于椭圆形3D高斯基元的2D投影的可微分栅格化,并且不沿着摄像头光线显式采样颜色值。因此,类NeRF方法通常更节省内存和存储。然而,类NeRF方法通常比高斯飞溅方法慢得多,并且视图合成质量通常略低。

许多高斯飞溅方法(2023-2025)直接改编或深受2020-2022时代NeRF研究的启发。尽管近年来新视角合成研究的势头转向了高斯飞溅,但NeRF和基于神经场的方法在某些应用中仍然具有优势。在技术方面,如前所述,与高斯飞溅等显式表示相比,隐式和混合表示(如神经场)以速度为代价换取内存和存储效率。高斯飞溅中“飞溅”式栅格化的实现也比NeRF和神经场方法的体渲染方法更快,且不牺牲视图合成质量。

然而,体渲染方法更适合体积场景元素,如灰尘或雾:这些场景元素在标准高斯飞溅方法中会导致floaters。最后,神经场方法更适合某些计算。神经场可以在3D坐标的连续体上进行查询,并且非常适合表示空间分布属性。这与离散的3D点云状表示形成对比,后者必须经过进一步设计才能表示空间分布属性。

由于更快的训练和推理时间以及更高的视图合成质量,高斯飞溅方法在很大程度上已经超越了NeRF相邻方法在新视角合成及相关研究领域(包括3D模型生成、带有场景语义的视图合成和3D场景表示-重建-编辑)的应用。这体现在高斯飞溅时代之后,隐式和混合神经场出版物在这些研究领域的数量和影响力要低得多。

5.2 高斯飞溅之后NeRF和神经场渲染的应用

随着大语言模型、视觉语言模型和预训练2D基础模型的快速发展,3D场景理解和3D grounding成为一个新的研究领域。然而,尽管该领域最近取得了一定进展,但grounded 3D场景表示和基于VLM的3D表示研究(包括3D问答和语义理解)主要由基于高斯飞溅的方法主导。

SLAM和3D人体化身仍然是一个受欢迎的研究领域。一个可能的原因是隐式和混合神经场表示对这两个应用具有优势。这些表示需要更少的内存和存储,并且更容易查询(只需在空间中特定点调用神经场),这与点云状的3D高斯飞溅表示相反。3D场也可以从框架的表述中自然产生,就像铰接人体化身建模的情况一样。

在SLAM中,隐式和混合表示比高斯飞溅等显式表示具有更低的内存和存储需求。这对于设计在平台本身上执行SLAM的方法可能是相关的。此外,如第V-D节所述,一个新兴的研究领域是将SLAM与自主智能体导航相结合(与用户控制导航相对)。某些自主导航算法可能更喜欢易于查询的隐式3D表示,而不是3D点云状的高斯飞溅表示。

对于3D人体化身,主导范式是在基线铰接SMPL骨架模型之上构建神经场。NeRF及相关方法更自然地适应这个框架。许多基于SMPL的高斯飞溅方法使用神经场和高斯基元表示的组合[257, 258, 259]。因此,隐式和混合神经场方法在这个研究领域仍然很受欢迎也就不足为奇了。

相关论文NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review

https://arxiv.org/pdf/2210.00379

6. 结论

自Mildenhall等人的原始论文以来,NeRF和隐式/混合神经场渲染方法在速度、质量和训练视图要求方面取得了巨大进步,解决了原始模型的弱点。NeRF模型在城市场景测绘、摄影测量、图像编辑、标注、处理以及人体化身和城市环境的3D重建和视图合成等领域找到了众多应用。尽管计算机视觉界的研究兴趣在许多关键研究领域已转向高斯飞溅,但在隐式/混合表示或体渲染方法具有优势的应用中,业界对NeRF和隐式/混合神经场渲染依然有非常大的兴趣。另外,诸多高斯飞溅方法都受到早期NeRF方法的启发。通过研究早期的NeRF和神经场渲染论文,未来的研究人员可能会为其他基于新视角合成的研究找到进一步的灵感。

NeRF是新视角合成、3D重建、3D场景表示及其应用的一个令人兴奋且有趣的范式。通过提供本综述,团队旨在向更多计算机视觉从业者介绍这一领域,提供现有NeRF模型和数据集的实用参考,并通过相关讨论激发未来的研究。

本文链接https://news.nweon.com/131742
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯