SIGGRAPH最佳论文:CAST实现单张RGB图像重建高质量3D场景
从单张RGB图像重建高质量3D场景
(映维网Nweon 2025年06月24日)在计算机图形学中,从单个RGB图像中恢复高质量的3D场景是一项具有挑战性的任务。在一项研究中,上海科技大学和华中科技大学团队提出了一种用于3D场景重建和恢复的新方法:CAST(Component-Aligned 3D Scene Reconstruction from a Single RGB Image)。
CAST首先从输入图像中提取物体级2D分割和相对深度信息,然后使用基于GPT的模型分析物体间的空间关系,从而确保更连贯的重建。然后,CAST采用一个能够感知遮挡的大规模3D生成模型来独立生成每个物体的完整几何形状,并使用MAE和点云调节来减轻遮挡和部分物体信息的影响,确保与源图像的几何形状和纹理精确对齐。
为了使每个物体与场景对齐,对齐生成模型计算必要的转换,允许生成的网格被精确地放置并集成到场景的点云中。最后,CAST集成了一个物理感知的校正步骤,利用细粒度关系图生成约束图。约束图指导物体姿态的优化,确保物理一致性和空间一致性。通过使用SDF,模型有效地解决了遮挡、物体穿透和漂浮等问题,确保生成的场景准确反映了现实世界的物理交互。
空间中的物体并非孤立存在,它们的放置、设计和材料源于物理限制、功能角色和人类设计意图,并影响着我们如何移动、互动和感知空间。例如,灯的光与周围的表面相互作用,投射出阴影,塑造了整个场景。认识到这种关系对于准确的场景解析、建模、以及3D生成至关重要,从而确保虚拟环境与现实世界一样逼真和连贯。
在从文本或图像提示生成单个对象方面取得了重大进展。神经渲染方法优化隐式表示,而原生3D生成器通过端到端学习直接创建3D形状和纹理。尽管相关方法在单个对象方面显示出前景,但将它们应用于通过顺序组装对象来生成整个场景时面临着明显的缺点。
一个关键的挑战是准确的姿态估计。现有的方法通常假设对象可视,而这在现实场景中很少出现。物体可能出现在不同的方向,并受到设计、物理或部分遮挡的限制。然而,大多数现有方法优先考虑几何保真度而不是姿态对齐,这一关键方面尚未得到充分探索。
一个更根本的问题来自于缺乏对象间的空间关系。即便有精确的姿势,生成的场景都经常受到伪影的影响:物体相互穿透,漂浮或在必要时无法接触。相关错误源于空间和物理约束的缺失。
有的研究人员使用编码器-解码器架构隐式编码空间关系,但它们依然局限于特定领域,如室内场景。其他场景级生成器在全局坐标系中定位对象,但忽略了它们的相对姿势和依赖关系,进一步损害了下游应用的真实感和可用性。
针对这个问题,上海科技大学和华中科技大学团队提出了CAST,用于从单张RGB图像重建高质量3D场景。CAST为单个对象生成高质量的3D网格,以及它们的相似转换(旋转,平移,缩放),确保与参考图像对齐并强制物理合理的相互依赖性。
CAST首先使用2D基础模型处理非结构化RGB图像,以开放词汇的方式识别、定位和分割对象。现成的单目深度估计器提供了部分3D点云和物体间空间关系的初始估计,包括相对变换和尺度。
CAST的第一个核心组件是感知3D实例生成器,有两个模块:一个遮挡感知对象生成模块和一个姿态对齐生成模块。对象生成模块采用基于latent扩散的生成模型,根据部分图像片段和可选点云生成高保真目标网格。模块集成了一个能够推断遮挡区域的遮挡感知2D图像编码器,确保图像条件下的鲁棒特征提取。
为了提高对现实世界点云调节的鲁棒性,在训练过程中模拟了具有遮挡区域的部分点云,使模型能够有效地处理遮挡。姿态对齐模块有一个对齐生成模型,可产生一个转换后的部分点云,与隐式表示在latent空间中的完整几何图形对齐。将变换后的点云与camera估计的部分点云进行相似度变换。与直接位姿回归方法不同,团队提出的方法通过生成来估计变换,捕获姿势对齐的多模态性质。
CAST的第二个核心组成部分处理对象间空间关系。尽管有精确的像素对齐,但如果没有明确的物理约束建模,可能会出现难以置信的伪影,如穿透或漂浮。CAST引入了物理意识校正过程,以确保空间和物理一致性。另外,GPT-4v用于识别基于输入图像的常识性物理关系,然后基于约束优化物体姿态。这个过程确保重建的场景表现出真实的物理相互依赖性,使它们适合模拟、编辑和渲染等应用。
值得注意的是,CAST擅长从各种各样的图像中生成感知逼真的3D场景。CAST在对象和场景级几何质量方面优于室内数据集3D-Front中的强基线。在视觉语言模型和用户研究的验证下,它在各种图像(包括in the wild场景)的感知和物理现实性方面同样表现出色。
CAST只需要一张图像就可以忠实地重建具有详细几何形状,物体生动纹理,以及空间和物理相互依赖关系的场景。
相关论文:CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
总的来说,团队介绍了一种单图像3D场景重建方法CAST。它结合了几何保真度、像素级对齐和物理接地约束。通过集成场景分解、感知3D实例生成框架和物理校正技术,CAST解决了姿势不对齐、物体相互依赖和部分遮挡的关键挑战。这种结构化的管道产生了视觉上准确和物理上一致的3D场景。广泛的实验和用户研究验证了CAST,证明了在视觉质量和物理合理性方面比最先进方法具有显著的性能改进。
研究人员指出:“我们预计CAST将成为未来3D生成、场景重建和沉浸式内容创作发展的坚实基础。”
值得一提的是,这项研究获评为SIGGRAPH 2025最佳论文。