谷歌和康奈尔大学提出复杂运动场景单目视图的3D重建
系统保留了先前方法在模拟复杂场景和视图依赖效果方面的优势,但同时能够从具有无约束camera路径的复杂场景动态的长视频中合成逼真的新视图
(映维网Nweon 2023年07月17日)计算机视觉方法现在可以产生具有惊人质量的静态3D场景的自由视点渲染。但移动的场景又如何呢?从动态场景的单目视频中合成新视图是一个十分具有挑战性的动态场景重建问题。
近来,业界在空间和时间合成新视图方面取得了进展,这主要得益于HyperNeRF和NSFF等新时变神经体三维表示,它们可以在基于坐标的多层感知器MLP中对时空变化的场景内容进行体三维编码。
但这种动态NeRF方法存在局限性,无法应用于in-the-wild视频。NSFF这种基于局部场景流的方法难以扩展到无约束camera运动捕获的较长输入视频,而HyperNeRF则局限于具有受控camera路径的对象中心场景,并且在具有复杂物体运动的场景中可能会失败。
在名为《DynIBaR Neural Dynamic Image-Based Rendering》的论文中,谷歌和康奈尔大学的研究人员提出了一种全新的方法,而它可以扩展到长持续时间,无界场景,不受控camera路径,以及具有快速而复杂对象运动的动态视频。
团队提出的方法保留了体三维场景表示的优势,可以用视图依赖效果建模复杂的场景几何。与最近业界提出的方法相比,它显著提高了静态和动态场景内容的渲染保真度,如图1所示。
最近的静态场景渲染方法通过聚合来自极线附近视图的局部图像特征来合成新图像。然而,运动中的场景违反了所述方法假定的极外约束。所以,研究人员建议在scene motion–adjusted光线空间中聚合多视图图像特征,从而能够正确地推断时空变化的几何和外观。
在将基于聚合的方法扩展到动态场景时,团队遇到了诸多效率和鲁棒性方面的挑战。为了有效地跨多个视图建模场景运动,他们使用跨越多个帧的motion trajectory fields来建模运动。
另外,为了在动态场景重建中实现时间相干性,研究人员引入了一种在motion-adjusted光线空间中运行的新时间光度损失。最后,为了提高新视图的质量,团队提出在贝叶斯学习框架内通过一种基于IBR的运动分割技术将场景分解为静态和动态component。
概括来说,给定一个包含帧(I1,I2,…, IN)和已知camera参数(P1,P2,…, PN)的动态场景单目视频,团队的目标是在视频中任何期望的时间合成一个新的视点。
类似于许多其他方法,研究人员对每个视频进行训练,首先优化模型来重建输入帧,然后使用模型来呈现新的视图。团队没有直接在MLP的权重中编码3D颜色和密度,而是将经典的IBR理念集成到体三维渲染框架中。与显式表面相比,体三维表示可以更容易地模拟具有视图依赖效果的复杂场景几何。
在两个动态场景基准测试中,团队方法可以渲染非常详细的场景内容,并将整个场景以及与动态对象对应的区域的LPIPS误差平均减少了50%以上。实验同时表明,所述方法可以应用于长时间,复杂的场景运动和不受控camera路径的in-the-wild视频。
两个基准数据集的定量结果如表1和表2所示。团队提出的方法在所有误差度量方面都有显著改进。值得注意的是,所述方法在整个场景的PSNR上比第二好的方法分别提高了2dB和4dB。同时,它将LPIPS误差(与真实图像相比感知质量的主要指标)降低了50%以上。结果表明,这个框架在恢复高度详细的场景内容方面更有效。
研究人员对图6和图7中两个数据集的测试视图进行了定性比较,将所述方法与之前三种最先进的方法进行了比较。先前的Dynamic-NeRF方法难以渲染运动对象的细节,如气球、人脸和衣服的纹理等过度模糊的动态内容。
相比之下,团队的方法综合了静态和动态场景内容的照片真实感新视图,并且最接近ground truth图像。
他们同时对复杂动态场景的wild视频进行了定性比较。图8中展示了与基于Dynamic-NeRF的方法的比较,而图9则显示了与使用深度的点云渲染的比较。
可以看出,团队的方法合成了逼真的新视图,而之前的Dynamic-NeRF方法无法恢复静态和运动场景内容的高质量细节,例如图8中的衬衫褶皱和狗毛。另一方面,明显的深度翘曲会在离视场较近和视场外的区域产生孔洞。我们建议读者参阅补充视频以进行全面比较。
当然,如图10所示,团队的方法存在局限。与静态或准静态场景设计的方法相比,团队方法仅限于相对较小的视点变化。由于初始深度和光流估计不正确,所述方法无法处理快速移动的小物体。另外,与之前的Dynamic-NeRF方法相比,合成视图不具有严格的多视图一致性,静态内容的呈现质量取决于选择的源视图。
总的来说,团队提出了一种从描述复杂动态场景的单目视频中合成时空视图的新方法。通过在体三维IBR框架内表示动态场景,所述方法克服了最近方法的局限性,即不能对具有复杂camera和对象运动的长视频进行建模。实验证明,研究人员的方法可以从wild动态视频中合成逼真的新视图,并且可以在动态场景基准上实现比先前最先进方法的显着改进。