Facebook为体三维3D内容提出MVP动态渲染,实现高性能解码和高效渲染
产生了更高质量、更可驱动的模型
(映维网 2021年05月29日)根据二维图像数据进行动态三维对象和场景的图像真实感绘制是计算机视觉和图形学领域的一个研究热点。近年来,基于学习的方法获得了令人印象深刻的实证结果。受其推动,体三维表示在图形社区重新引起了人们的兴趣。利用诸如深度神经网络这样的泛型函数逼近器,相关方法通过直接监控原始图像像素来获得令人信服的结果。所以,它们避免了分配几何和辐射特性这一通常非常困难的任务。利用体三维模型固有的简单性,众多研究致力于扩展小幅运动建模方法、光照变化、减少数据需求,以及学习效率等。
尽管在体三维模型方面取得了进展,但它们依然需要做出权衡;要么内存占用量大,要么渲染的计算开销大。巨大的内存占用极大地限制了所述方法的分辨率,并导致高频细节的缺乏。另外,高计算成本限制了对实时应用的适用性,例如VR临场感。理想的表示应该是内存效率高、渲染速度快、可驱动且具有较高的渲染质量。
Neural Volumes是一种用于学习、渲染和驱动动态对象的方法(动态对象使用外向内摄影头装备捕获)。由于统一的体素网格是用来模拟场景,这一方法适用于对象,而不是场景。由于场景的大部分都是由空的空间组成,所以Neural Volumes使用一个扭曲场来最大化可用分辨率的效用。然而,这种方法的有效性受到扭曲分辨率和网络以无监督方式学习复杂逆扭曲的能力的限制。
Neural Radiance Fields(NeRF)则使用紧凑表示法解决分辨率问题。另外,NeRF只处理静态场景。另一个挑战是运行时,因为多层感知器(MLP)必须沿着camera光线在每个采样点进行评估。要合成单个高分辨率图像,这将导致数十亿次MLP评估,导致渲染时间非常慢,大约每帧30秒。
简单来说,三角形网格很难对头发等薄结构进行建模。在合理的内存预算下,Neural Volumes等体三维表示的分辨率太低,而Neural Radiance Fields等高分辨率隐式表示的实时应用速度太慢。
针对这个问题,Facebook Reality Labs团队提出了Mixture of Volumetric Primitives(MVP)。
MVP是一种用于渲染动态3D内容的表示方法,它将体三维表示的完整性与基于原语的渲染(如基于点或基于网格的方法)的效率结合了起来。
所述的神经场景表示方法的灵感来自于基于原语的方法,例如三角形网格。它可以将表示能力集中在空间的占用区域而忽略空白区域,从而高效地渲染高分辨率的三维空间模型。Facebook Reality Labs方法的核心是一组最小重叠和动态移动的体三维原语,其一起参数化颜色和不透明度随时间在空间中的分布。每个原语基于统一的体素网格对局部空间区域进行建模。这提供了两个主要优点,共同致使场景表示实现高效内存且渲染速度快:1)由于其均匀的网格结构而在每个原语内快速采样;以及2)在光线行进期间进行条件采样以避免空白空间和完全遮挡的区域。这两种情况下,原语的运动以及它们的颜色和不透明度分布都由卷积网络参数化,使得它们之间能够共享计算,从而实现高效的解码。
简单来说,MVP利用光线追踪的条件计算来消除空间空白区域的计算。占据非空空间的体三维原语的生成利用了卷积深度神经网络的共享计算特性,避免了对附近区域共同中间特征的浪费性重新计算。
通过机会主义地将原语的估计位置与追踪结果联系起来,Facebook Reality Labs的方法可以自然地利用先前定义的通信或追踪结果。这将产生合适的运动插值。
团队表示,MVP能够直接解决现有体三维方法的内存和计算限制,同时保持理想的完备性和基于图像的直接监控。
在与几种最先进的方法进行比较时,所述方法产生了更高质量、更可驱动的模型,并且可以比现有技术更快地进行评估。
总结来说,研究团队的主要技术贡献包括:
- 提出了一种基于混合体三维的体三维表示方法,其结合了体元和基于体元的方法的优点,从而实现了高性能解码和高效渲染。
- 提出了一种新的体素网格运动模型,其能够更好地捕捉场景运动,最小化原语重叠以增加表现力,最小化原语大小以更好地建模和利用自由空间
- 提出了一种高效的数据并行实现,其能够更快地训练和实时呈现学习模型。
相关论文:Mixture of Volumetric Primitives for Efficient Neural Rendering
名为Mixture of Volumetric Primitives for Efficient Neural Rendering的论文介绍了更多关于技术性的原理和公式,具体请点击参阅。