英伟达发布神经表面渲染AI模型Neuralangelo,从2D视频实现复杂场景3D结构重建
无需深度数据,直出3D结构。
(映维网Nweon 2023年06月03日)三维表面重建旨在从不同视点观测到的多幅图像中恢复密集的几何场景结构。回收的表面为众多下游应用提供了有用的结构信息,例如用于增强现实/虚拟现实/混合现实的3D asset生成。使用单目RGB摄像头的摄影测量表面重建特别有趣,因为它允许用户方便地创建现实世界的数字孪生。
日前,英伟达和约翰斯·霍普金斯大学的研究团队就这一主题发布了相关的研究。效果如何:只需向AI提供一段普通视频,它就能自动完成复杂的建筑场景3D重建。无需深度数据,直出3D结构。
神经表面重建已证明是一种使用基于图像的神经渲染来恢复密集3D表面的强大方法,但众多现有的方法都难以提供足够详细的表面结构模型。
为了解决这个问题,团队发布了结合多分辨率3D Hash Grid和神经表面渲染能力的Neuralangelo。这个方法主要得益于两个关键方面,首先是使用数值梯度计算高阶导数作为平滑操作。然后,对生成的Hash Grid进行coarse-to-fine优化,控制不同细节层次。
即使没有额外的摄像头输入,Neuralangelo都可以有效地从剪辑中产生密集的3D表面结构,而其保真度明显优于大多数以前的方法。
由于Neuralangelo可以生成具有复杂细节和纹理的3D结构,用户可以将3D对象导入3D和设计应用程序中,并进一步编辑它们以供生产使用。
为什么不直接使用摄影测量呢?
基于图像的摄影测量技术使用Volumetric Occupancy Grid来表示它所捕获的场景。如果从各种原始摄像头视图中对应的投影图像像素之间存在紧密的颜色恒定,则会访问摄影测量中的每个体素并标记为“已占用”。
当你使用自动曝光或拍摄反射表面(非朗伯)材料时,光度一致性假设通常会失败,这在现实世界中非常常见。当进行NeRF 3D重建时,NeRF技术不再需要跨多个视图的颜色恒定约束。相比之下,NeRF通过视图依赖效果实现逼真的结果。
工作原理
你可以使用多视角立体技术来构建点云,但这通常会导致缺失或充满嘈点的表面,并且依然需要与非朗伯材料作斗争。NeRF使用基于坐标的多层感知器将场景表示为隐式函数,从而实现具有视图依赖效果的逼真图像。
它使用MLP对3D场景进行编码,而MLP将3D空间位置映射为颜色和体积密度。利用MLP固有的连续性和Neural Volume Rendering可以允许优化的表面在空间位置之间进行插值,从而产生光滑和完整的表面表示。
当然,MLP神经渲染的问题在于它们不能很好地缩放。但最近研究学界已经解决了所述问题。新的可伸缩表示称为Instant NGP。
Instant NGP引入了一种具有多分辨率Hash编码和可扩展的轻量级MLP的混合3D网格结构。混合表示大大提高了神经场的能力,并在表示非常细粒度的对象细节方面取得了巨大的成功。
在团队的研究中,他们使用这种新技术为Neuralangelo提供高保真的表面重建。其中,Neuralangelo采用Instant NGP作为3D场景的神经渲染表示,并通过神经表面渲染优化多个不同视图。
Neuralangelo可以从多视图图像中重建场景,从视频剪辑中沿着摄像头视图采样3D位置,并使用多分辨率Hash编码对位置进行编码。Neuralangelo提供的过程简单而有效:使用高阶导数的数值梯度加上coarse-to-fine优化优化策略,它为神经表面重建提供了多分辨率Hash编码的能力。
结果显示,Neuralangelo能够有效地恢复以对象为中心的捕获和大规模室内/室外场景的密集场景信息,并且具有极高的细节,可以从普通视频中进行详细的大规模场景重建。
延伸阅读:Neuralangelo: High-Fidelity Neural Surface Reconstruction
Neuralangelo可以支持复杂现实世界纹理和复杂材料的对象,比如屋顶瓦片、玻璃窗格和光滑的大理石。所述方法的高保真输出使其3D重建更加有用。
团队指出:“Neuralangelo提供的3D重建能力将给创作者带来巨大的帮助,允许他们在数字世界中重建现实世界。这个工具最终可以支持开发者导入从小雕像到大型建筑的详细对象,并用于虚拟环境,游戏或数字孪生。”