雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

研究员提出新颖单视图三维重建框架M3D,双流特征融合实现复杂场景高精度建模

查看引用/信息源请点击:映维网Nweon

提高重建质量并保留复杂的细节

映维网Nweon 2025年05月20日)从复杂场景中的单个RGB图像精确重建3D物体是虚拟现实等领域的关键挑战。现有的神经隐式三维表示方法在平衡全局和局部特征提取方面存在非常大的困难,特别是在多样化和复杂的环境中,重建精度和质量不足。

在一项研究中,日本筑波大学和香港理工大学团队提出了M3D,一个新颖的单视图三维重建框架。

所述框架采用基于选择性状态空间的双流特征提取策略,有效地平衡了全局特征和局部特征的提取,从而提高了场景的理解和表示精度。另外,并行分支提取深度信息,有效地整合视觉和几何特征,以提高重建质量并保留复杂的细节。

实验结果表明,通过双分支特征提取将多尺度特征与深度信息融合,显著提高了图像的几何一致性和保真度,实现了最先进的重建性能。

近年来,由于在虚拟现实等领域的广泛应用,对单视图图像的高保真度3D重建的需求激增。单视图三维重建旨在从单个RGB图像推断物体的完整三维结构。但由于固有的模糊性和缺乏深度信息,这是一项具有挑战性的任务。

为了实现精确和鲁棒的3D重建,模型必须有效地捕获全局和局部特征来表示对象结构,同时保持场景复杂性。现有的方法在这一领域取得了进展,但依然存在显著的局限性。

卷积神经网络CNN在三维重建中广泛应用,擅长提取局部特征。然而,它们有限的接受野阻碍了其捕获全局背景的能力,经常导致在有遮挡的复杂场景中出现不完整或扭曲的几何形状。

另一方面,基于transformer的架构可以有效地捕获远程依赖关系,但通常无法对复杂的局部细节进行建模,特别是在重构具有复杂几何形状的对象时。所述限制突出了提高单视图三维重建质量的主要瓶颈。

为了解决相关问题,最近的研究提出了各种方法来增强特征提取,例如联合布局和物体网格重建的方法,从单幅图像中实现全面的三维理解。类似地,有人使用隐式表示来模拟整体场景理解。

尽管业界提出的方法对3D重建的进步做出了重大贡献,但在实现全局结构和局部细节的平衡特征提取方面依然存在挑战。

引入深度信息有助于解决遮挡区域的模糊问题,并通过增强几何一致性和解决复杂场景中的模糊问题来提高几何一致性。因此,日本筑波大学和香港理工大学团队设计了一个双流结构,有效地将深度信息融入到模型中。

基于先前研究的上述局限性,研究人员提出了M3D框架,这是一种用于单视图3D重建的新型双流特征提取框架。这种新颖的方法通过双流特征提取策略解决了单视图3D重建的挑战。

所提出的框架集成了选择性状态空间模型(SSM),它结合了用于捕获浅层特征的优化残差卷积层和用于获取远程上下文信息的基于transformer的组件。这种设计有效地平衡了全局特征和局部特征的提取,增强了模型对复杂场景的理解。

观察遮挡对重建精度的影响,所以他们进一步引入了专用的深度估计流,以精确的几何背景补充RGB特征。这种双流结构使模型能够从RGB和深度数据中捕获互补信息,从而显著提高重建质量和细节精度。

深度估计模块采用了最先进的单图像深度估计模型,提高了精度,同时减少了计算负担,为特征提取提供了一致的几何基础。实验表明,M3D在具有遮挡和复杂细节的复杂场景中表现更好,显著优于现有方法。具体来说,与Front3D数据集上的基线方法相比,M3D在CD方面提高了36.9%,F-score提高了13.3%,NC方面则提高了5.5%。

相关论文M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction

总的来说,团队提出的M3D是一个单视图三维重建框架,并解决了全局和局部特征集成的限制。通过利用双流架构,结合深度引导的几何特征和选择性SSM增强上下文建模,M3D实现高保真重建,具有卓越的精度和细节。

消融研究验证了每个模块的贡献,展示了在深度信息、优化剩余块和高级特征融合的重建指标方面的实质性改进。考虑到3D数据集的稀缺性,团队的目标是通过探索半监督学习来减少数据依赖性。这一进步将大大有利于高质量的3D重建更容易用于虚拟现实等领域。

本文链接https://news.nweon.com/129844
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯