Meta Reality Labs分享MVP体三维3D动态渲染技术的灵感和挑战

编辑：刘余欣 | 分类：论文 | 2021年12月21日

介绍了相关研究的灵感，出发点和下一步等等

（映维网 2021年12月21日）在名为《Mixture of Volumetric Primitives for Efficient Neural Rendering》的论文中，Meta为体三维3D内容提出了一种MVP动态渲染技术，其结合了体元和基于体元的方法的优点，可实现高性能解码和高效渲染。日前，Meta旗下Reality Labs的研究科学家史蒂芬·隆巴迪（Stephen Lombardi）接受了SIGGRAPH的专访，并进一步介绍了相关研究。

延伸阅读：Facebook为体三维3D内容提出MVP动态渲染，实现高性能解码和高效渲染

Meta Reality Labs分享MVP体三维3D动态渲染技术的灵感和挑战

在神经体三维方面，团队提出了一种仅在给定多视图图像数据的情况下根据新视图实时重建和渲染运动对象的方法。这是一个非常令人兴奋的研究领域，因为它将在虚拟现实和增强现实中实现引人注目的交互式内容。

神经体三维背后的主要思想是，用体三维表示法对场景进行建模。体三维表示法包括空间中每个点的RGB颜色和不透明度值。在那篇论文中，团队探索了一种基于体素的体三维表示法。基于体素的方法有一系列的优点。首先，可以使用3D卷积实时生成体素网格，从而为动态场景建模。其次，可以使用三线性插值快速采样体三维的颜色和不透明度值。所述优点使得‘Neural Volumes’模型能够实时呈现。然而，‘Neural Volumes’在场景的三维范围内均匀分布体素，这使得难以对高分辨率对象建模。

为了解决这个问题，团队提出了‘Mixture of Volumetric Primitives（MVP）’。不是使用一个大型三维体素网格对场景建模，而是使用一组更小的移动体素网格对场景建模。通过允许模型更好地控制场景不同部分的体素密度，并使用原语的运动对场景的运动进行建模，MVP能够以比‘Neural Volumes’更高的分辨率和更快的帧速率对动态场景进行建模。

创建移动体三维原语的集合涉及两个主要部分：原语的初始化和从多视图视频数据训练系统的学习框架。

对于初始化，使用了经典的人脸建模技术（例如关键点检测、三维重建、混合形状追踪）生成人脸的动态三角形网格。要初始化原语，只需将它们放置在三角形网格的表面之上，均匀分布在人脸网格的UV空间中。这种初始化对于获得真正高质量的结果非常重要，因为在训练期间，学习框架可能会陷入局部最小值。通过将原语初始化为均匀分布在人脸表面之上，可以确保使用所有原语，并且整个人脸模型分辨率大致相似。

......（全文 1242 字，剩余 449 字）

wx_mp