Meta Reality Labs分享MVP体三维3D动态渲染技术的灵感和挑战
介绍了相关研究的灵感,出发点和下一步等等
(映维网 2021年12月21日)在名为《Mixture of Volumetric Primitives for Efficient Neural Rendering》的论文中,Meta为体三维3D内容提出了一种MVP动态渲染技术,其结合了体元和基于体元的方法的优点,可实现高性能解码和高效渲染。日前,Meta旗下Reality Labs的研究科学家史蒂芬·隆巴迪(Stephen Lombardi)接受了SIGGRAPH的专访,并进一步介绍了相关研究。
在神经体三维方面,团队提出了一种仅在给定多视图图像数据的情况下根据新视图实时重建和渲染运动对象的方法。这是一个非常令人兴奋的研究领域,因为它将在虚拟现实和增强现实中实现引人注目的交互式内容。
神经体三维背后的主要思想是,用体三维表示法对场景进行建模。体三维表示法包括空间中每个点的RGB颜色和不透明度值。在那篇论文中,团队探索了一种基于体素的体三维表示法。基于体素的方法有一系列的优点。首先,可以使用3D卷积实时生成体素网格,从而为动态场景建模。其次,可以使用三线性插值快速采样体三维的颜色和不透明度值。所述优点使得‘Neural Volumes’模型能够实时呈现。然而,‘Neural Volumes’在场景的三维范围内均匀分布体素,这使得难以对高分辨率对象建模。
为了解决这个问题,团队提出了‘Mixture of Volumetric Primitives(MVP)’。不是使用一个大型三维体素网格对场景建模,而是使用一组更小的移动体素网格对场景建模。通过允许模型更好地控制场景不同部分的体素密度,并使用原语的运动对场景的运动进行建模,MVP能够以比‘Neural Volumes’更高的分辨率和更快的帧速率对动态场景进行建模。
创建移动体三维原语的集合涉及两个主要部分:原语的初始化和从多视图视频数据训练系统的学习框架。
对于初始化,使用了经典的人脸建模技术(例如关键点检测、三维重建、混合形状追踪)生成人脸的动态三角形网格。要初始化原语,只需将它们放置在三角形网格的表面之上,均匀分布在人脸网格的UV空间中。这种初始化对于获得真正高质量的结果非常重要,因为在训练期间,学习框架可能会陷入局部最小值。通过将原语初始化为均匀分布在人脸表面之上,可以确保使用所有原语,并且整个人脸模型分辨率大致相似。
尽管初始化为众多体三维原语(尤其是面部)提供了合适的初始位置,但对于其他区域(如头发和肩部),初始化通常是错误的。为了解决这个问题,训练模型生成基本位置、方向和内容,以最佳匹配从多视图捕获系统捕获的图像。这个训练过程允许从任意角度制作出高质量的人物效果图。
最大的挑战是决定探索的研究方向。尽管可学习的体三维建模和渲染技术在过去几年中变得非常流行,但在当时,我们还不知道这种方法会有多成功。即使是现在,我们仍在努力提升MVP的实时性能,使其能与更传统的表示法相竞争,如三角形网格。但考虑到模型的复杂性,这非常困难。
实时如此重要的原因是,Meta该团队的任务是在虚拟现实中创造逼真的虚拟化身,并最终在AR实现仿佛共在的感觉,允许你与对方能够轻松地交流想法和情感,这不仅仅只是通过言语,同时要包括面部表情和身体姿势。
可以想象,考虑到所有这一切,需要有大量的人员参与其中。除了开发算法的研究团队外,还有一个大型团队负责管理捕获系统硬件和软件、管理数据捕获过程、管理数据存储和预处理(例如,开发和运行经典人脸追踪算法)的团队。实际上,这篇论文是该团队位于宾夕法尼亚州匹兹堡的实验室多年努力工作的结果。