清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

语义感知场景重建

映维网Nweon 2025年10月16日)基于虚拟现实等新兴应用的需求,从稀疏视图重建语义感知的3D场景成为一个具有挑战性但至关重要的研究方向。现有的逐场景优化方法需要密集的输入视图且计算成本高昂,而通用化方法往往难以重建输入视锥范围之外的区域。在一向研究中,清华大学团队提出了OGGSplat,一种通过开放高斯生长实现通用化3D重建视场扩展的方法。

研究人员的核心洞察是:开放高斯的语义属性为图像外推提供了强先验,既能保证语义一致性又能保持视觉合理性。具体而言,在从稀疏视图初始化开放高斯后,引入应用于选定渲染视图的RGB-语义一致性修复模块。

所述模块通过图像扩散模型与语义扩散模型实现双向控制,随后将修复区域投影回3D空间进行高效渐进的高斯参数优化。为评估方法性能,团队建立了高斯外推基准测试,从语义质量和生成质量两个维度评估重建的开放词汇场景。即使直接使用智能手机拍摄的两张视图图像,OGGSplat都展现出优秀的语义感知场景重建能力。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

构建具有现实意义且蕴含语义信息的3D世界表征已成为计算机视觉领域的重要目标,这受到虚拟现实等应用的驱动。除重建生动纹理和精确几何结构外,现代系统日益需要语义感知能力以支持对3D环境的高级理解与交互。这种对几何保真度与语义可解释性的双重需求为场景表征带来了新挑战。

近期研究通常通过将开放词汇特征与3D高斯等重建表征相结合来解决问题。基于逐场景优化的方法利用密集多视图输入,可实现具有细粒度语义对齐的结构化3D几何。相比之下,新兴的前馈方法通过训练好的神经网络直接从稀疏输入视图预测语义感知的3D表征,提升了跨场景的可扩展性和泛化能力。

尽管取得显著进展,现有方法依然存在明显局限。逐场景优化方法通常需要数百张输入视图且计算耗时高昂(每场景常需25-50分钟)。通用化方法虽能快速推理并高效处理稀疏输入,但其性能受限于输入视图的有限范围。当处理外推视角时,相关模型往往产生扭曲几何和语义不合理的内容。

这迫切需要一个能可靠扩展视场、同时保持几何连贯性与语义一致性的通用化3D重建框架。清华大学团队认为,利用开放词汇特征中的语义线索可为想象未知区域的合理内容提供宝贵指导,从而扩展通用化重建的应用边界。

研究人员通过OGGSplat解决上述挑战,这是一个专为在输入视图覆盖范围外推语义化3D高斯的开放高斯生长框架。他们的目标是增强开放词汇高斯表征的能力,使其能生长出新的语义感知高斯,从而扩展从稀疏输入重建场景的视场。方法的关键在于:开放高斯固有的语义属性为语义合理的外推提供了强先验。

为此,OGGSplat采用渐进式高斯生长策略,基于稀疏视图的初始重建。其核心是新颖的RGB-语义一致性修复模块,它可以实现图像与语义修复的双向交互:语义图指导图像补全,而修复后的图像反过来优化语义特征,确保像素级对齐。合成的RGB图像与语义图随后用于高效优化新增高斯。这一策略使得OGGSplat能在计算效率与重建质量间取得平衡,即便在输入覆盖极度有限的情况下也是。

研究人员在ScanNet++进行了大量实验,并建立了新高斯外推基准测试。高斯外推基准旨在评估外推区域的视觉保真度与语义合理性,采用多个先进2D开放词汇语义分割模型生成真值,从而在生成指标FID之外支持分割平均交并比的量化评估。他们将OGGSplat部署于手机直接拍摄的图像,其优异效果凸显了在便携设备的应用潜力。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

如图2所示,OGGSplat包含三个阶段:首先从稀疏输入初始化3D高斯重建并向高斯参数注入开放词汇语义表征;随后引入RGB-语义一致性修复器,通过双向控制机制确保语义与外观的像素级对齐——语义图指导图像补全,修复图像反哺语义特征优化;最后设计渐进式高斯生长策略使3D高斯结构与生成内容协同扩展。

第二三阶段迭代执行以逐步扩展初始视场外的高斯表征。实际应用中,OGGSplat仅需两张未标定图像即可通过三阶段处理生成富含开放词汇语义的扩展3D高斯场景,支持从任意视角实时渲染RGB图像及其语义特征图。

对比基线方法:选择LangSplat(逐场景优化模型)和Splatt3R(通用化模型)作为基线。LangSplat严重依赖COLMAP初始化,在仅有两张输入图像时不可靠。为公平对比,使用Splatt3R预测的点云位置初始化LangSplat,使其更专注于学习语义表征。由于Splatt3R原版不支持开放词汇语义预测,为其添加训练的语义头。评估时,所有模型仅累计不透明度>0.01的高斯渲染区域参与IoU计算,以过滤低置信区并保证一致性。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

量化对比(表1):在GO基准上,OGGSplat在视觉保真度(FID)和语义合理性(mIoU)均显著优于基线。值得注意的是,所有方法的FID均较高,主因是验证集语境对数量有限(为保持扫描场景采样一致性限定每场景10对)。语义方面,OGGSplat在椅子、桌子、床等常见大物体上表现优异,但在天花板类别稍弱。团队归因于APE编码局限及Splatt3R主干网区分颜色纹理相似的顶墙的困难,未来可通过更强视觉语言模型和优越高斯重建方法解决。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

定性对比(图3):OGGSplat在新视角渲染和开放词汇查询均更优。LangSplat易过拟合语境视图导致新视角渲染模糊;Splatt3R在输入视场外呈现大面积黑色;而OGGSplat借助语义信息合理外推未知区域。开放词汇查询中,OGGSplat能准确识别并查询未见区域物体,展现更强泛化与语义理解能力。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

模型泛化能力:除训练集ScanNet++外,团队同时在不同分布数据上测试了OGGSplat(图4)。使用S3DIS样本成功重建具有扩展视场的语义感知场景。图4(b)列展示了手机拍摄图像的实际应用,椅子区域的修复图像与语义查询结果良好,凸显了日常应用潜力。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

为获取修复区域的可靠语义,研究人员训练了语义扩散模块。若直接采用离线开放词汇分割模型(,会导致与原始高斯语义不一致(图5),甚至在原正确预测区域产生错误,进而影响高斯生长。而团队提出的语义扩散模型保持未修复区域语义一致性,并利用可见语境语义先验显著提升修复区域语义准确性。

清华大学提出OGGSplat实现稀疏视图语义感知3D场景重建视场扩展

通过开放词汇语义,设计边缘转换器从高斯边界提取语义线索以指导图像/特征补全。表2首行移除边缘转换器而改用通用文本提示(”a room”)后,多数类别分割性能下降。图6定性对比显示生成内容更模糊且语义基础更弱,验证了语义→RGB控制对高保真语义一致高斯生长的有效性。

OGGSplat中语义修复模型显式受修复图像控制。表2次行及图6第三行移除该控制后,生成RGB图像与语义图空间对齐差,导致分割精度显著下降。引入RGB→语义控制后明显改善空间一致性并提升性能。

相关论文OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View

https://arxiv.org/pdf/2506.05204

总的来说,团队设计了用于扩展视场的通用化重建方法OGGSplat。通过利用开放高斯的语义线索和双向控制下的RGB-语义一致性修复,所提出方法有效扩展视场并确保视觉保真度与语义连贯性。通过高效高斯优化过程渐进细化视场外区域。为促进评估,提出了高斯外推基准测试以量化评估开放词汇场景重建的生成与语义质量。

大量实验证明OGGSplat在输入视锥外推方面性能优越,是通用化灵活3D重建的重要进展。当前OGGSplat仅适用于室内场景,因室外深度估计更困难会导致基线模型Splatt3R性能下降。但研究人员相信,未来结合更强大通用化的高斯重建模型,所述方法在室外场景都能取得良好性能。

本文链接https://news.nweon.com/135139
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯