雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

4DGS-Wild:单目视频动态场景的不确定性感知高斯泼溅重建

查看引用/信息源请点击:映维网Nweon

的4D Gaussian Splatting

映维网Nweon 2025年04月22日)动态场景的新视图合成在增强现实和虚拟现实等各种应用中变得越来越重要。在一项研究中,韩国首尔大学团队提出了一种全新的4D Gaussian Splatting(4DGS)算法,并用于单目视频中的动态场景。

为了过拟合问题,研究人员引入了一种不确定性感知的正则化,以识别具有少量观测值的不确定区域,并基于扩散模型和深度平滑选择性地在相关区域施加额外的先验。所述方法不仅提高了新视图合成的性能,又提高了训练图像重建的质量。

团队同时确定了快速移动动态区域中4DGS的初始化问题,亦即SfM算法无法提供可靠的3D landmark。为了在所述区域中初始化高斯基元,他们提出了一种使用估计深度图和场景流的动态区域密度化方法。实验表明,这一解决方案提高了4DGS视频重建的性能,并且在few-shot静态场景重建中同样可以达到相当出色的效果。

动态新视图合成(DVS)旨在从捕获的视频中重建动态场景,并为视点和时间步长的任意新组合生成逼真的帧。随着增强现实和虚拟现实技术的快速发展,这项任务已成为3D视觉领域的一个重要研究领域。

早期的DVS研究主要依赖于神经辐射场,而现在则更多集中在3DGS。最近的研究已经扩展了3DGS,以考虑动态场景中额外的时间维度。这一方法称为4DGS。

尽管4DGS模型取得了成功,但它们的适用性依然主要局限于受控和专用环境。大多数现有模型都是在多视图视频设置下开发和测试。有数种方法可以解决单目视频设置,但它们依然是受控,并且无法满足in the wild场景。例如保持多视图特性,亦即camera捕获围绕缓慢移动的对象的宽弧。

另外,HyperNeRF依赖于不切实际的训练测试分割,从相同的视频轨迹中采样,这使得任务更接近视频插值,而不是真正的新视图合成。

在研究中,韩国首尔大学团队关注更自然、真实的单目视频,其中单个手持摄像头在快速移动的对象周围移动。

随意录制的单目视频往往缺乏足够的多视角信息,4DGS算法容易对真实场景中的训练帧进行过拟合。为了解决这个问题,可以应用正则化技术来为未见视图提供额外的先验。

然而,正则化技术通常涉及一个平衡问题:尽管它们在测试过程中有效地提高了新视图合成性能,但它们固有地牺牲了训练图像的重建精度。由于重建精度和新视图合成质量在团队的目标任务中同样重要,所以直接应用正则化技术所造成的权衡不可取。

在研究中,研究团队用一个简单而有效的解决方案来解决这个平衡问题:不确定性感知正则化。

首先,根据每个高斯原语对训练图像渲染的贡献来量化其不确定性。然后,采用α-混合方法对未见视图构建二维不确定性图。在扩散和深度平滑先验的指导下,有选择地将正则化应用于不确定区域,而训练数据已经提供足够重建细节的低不确定性区域则不正则化,如图1所示。

这种方法在训练和测试性能之间取得了更好的平衡,实现了合适的性能。但在涉及快速运动的现实世界场景中,特别是在随意录制的视频中,4DGS在初始化方面依然面临相当大的挑战。

基于GS的高斯基元初始化算法是利用SfM获得的点云来初始化高斯基元。然而,SfM很难重建动态区域,特别是快速运动的区域,它们通常被视为噪点,而不初始化区域的原语。

这种不完整的初始化破坏了训练,导致静态区域中的原语被反复克隆和分割,以试图填充动态区域,而这可能导致原语数量过多,有时会出现内存不足的问题。

为了解决这一限制,团队提出了一种动态区域致密化技术,在动态区域中初始化额外的高斯原语。

相关论文4D Gaussian Splatting in the Wild with Uncertainty-Aware Regularization

总的来说,团队主要提出了一种新的4DGS训练框架,目标是从随意记录的单目谁想投捕获的动态场景。不确定性感知正则化,结合扩散和深度平滑先验,有效地提高了新视图合成性能,同时保持了训练图像的重建质量。

另外,研究人员通过引入动态区域密度来解决快速移动场景中高斯原语的初始化挑战。所述方法证明了在动态场景重建和少量静态场景重建中,性能优于基线方法。他们通过广泛的实验进行了详细的分析,并相信这项研究可以为领域提供有价值的见解。

当然,在随意录制单目视频的新视图合成性能依然落后于多视图或更简单的数据集,这突出了未来研究的潜在改进领域。同时,正则化技术依赖于使用二维不确定性映射的图像级正则化,而未来的研究可以通过在高斯原语水平上加入正则化来增强这一点,以直接利用每个高斯原语的不确定性。

同时,动态区域致密化没有考虑原始初始化的时间一致性,但这个问题可以通过集成长期追踪算法来解决。

本文链接https://news.nweon.com/129292
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯