韩国中央大学团队开发MoBluRF技术从模糊单目视频重建清晰4D场景
查看引用/信息源请点击:techxplore
从模糊的单目视频中重建清晰4D场景并实现新视角合成,同时无需掩模监督
(映维网Nweon 2025年09月23日)神经辐射场(NeRF)是一项令人着迷的技术,它能够从不同角度拍摄的一组2D图像中创建场景的3D表征。所述技术通过训练深度神经网络来预测三维空间中任意点的颜色和密度实现这一目标。
具体而言,NeRF通过从摄像头投射虚拟光线穿透所有输入图像的每个像素,沿着光线采集具有3D坐标和观察方向的采样点。利用相关信息,NeRF即可重建3D场景,并能从全新视角进行渲染,这一过程称为新视角合成(NVS)。
除了静态图像,这项技术同样可应用于视频,将视频的每一帧视为静态图像进行处理。但现有方法对视频质量高度敏感,不可避免地会因对象快速移动或摄像头抖动而产生运动模糊,导致难以生成清晰的动态新视角合成画面。这是因为现有基于去模糊的NVS方法多针对静态多视角图像设计,无法有效处理全局相机运动和局部物体运动。另外,模糊视频往往会导致camera位姿估计失准和几何精度损失。
为解决这个问题,韩国中央大学团队联合开发了MoBluRF:一种针对NeRF的双阶段运动去模糊方法。研究人员表示,这项技术可以帮助减少虚拟现实和增强现实中对专业拍摄组件的需求。
团队解释道:“我们的框架通过运动分解技术,能够从模糊的单目视频中重建清晰4D场景并实现新视角合成,同时无需掩模监督,显著推进了NeRF领域发展。”
MoBluRF包含两个核心阶段:基础光线初始化(BRI)和基于运动分解的去模糊(MDD)。现有基于去模糊的NVS方法试图通过变换称为基础光线的射线来预测模糊图像中隐藏的清晰光线(潜在锐利射线)。但直接将模糊图像中的输入射线用作基础射线会导致预测失准。BRI阶段通过从模糊视频中粗略重建动态3D场景,并优化来自不精确摄像头射线的基础射线初始化来解决这一问题。
在MDD阶段,基础射线通过增量潜在锐利射线预测(ILSP)方法精准预测潜在锐利射线。ILSP将运动模糊逐步分解为全局摄像头运动和局部物体运动分量,极大提升了去模糊精度。MoBluRF同时引入了两种新颖的损失函数:一种无需运动掩模即可分离静态与动态区域,另一种能提升动态物体的几何精度,而这两个领域正是以往方法的薄弱环节。
凭借创新设计,MoBluRF在多类数据集上以显著优势在定量和定性方面超越现有先进方法,并对不同程度模糊具有鲁棒性。团队指出:“这项技术可以减少虚拟现实和增强现实中对专业拍摄组件的需求。”
相关论文:MoBluRF: Motion Deblurring Neural Radiance Fields for Blurry Monocular Video
MoBluRF为NeRF技术开辟了新方向,使得通过日常设备拍摄的普通模糊视频实现高质量3D重建成为可能。