上海交大等团队提出3D场景实时修复方法InstaInpaint

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

InstaInpaint相比先前方法实现了1000倍的速度提升

映维网Nweon 2025年10月27日)3D场景重建技术的最新进展使得在虚拟现实和增强现实中的实时浏览成为可能。为了支持交互式操作(例如移动或编辑物体)以提升沉浸感,业界提出3D场景修复方法以用于修复或补全改变后的几何结构。然而,当前的方法依赖于耗时且计算密集的优化过程,这使得它们难以用于实时或在线应用。

在一项研究中,上海交通大学,加利福尼亚大学默塞德分校,新加坡科技设计大学团队提出了InstaInpaint。这是一个基于参考的前馈框架,能在0.4秒内根据2D修复提案生成3D场景修复结果。研究人员开发了一种自监督的掩码微调策略,使得能够在大规模数据集上训练定制的大型重建模型(LRM)。

通过大量实验,团队分析并确定了几个能够提升泛化能力、纹理一致性和几何正确性的关键设计。InstaInpaint相比先前方法实现了1000倍的速度提升,同时在两个标准基准测试中保持了最先进的性能。另外,研究人员展示了InstaInpaint能够很好地泛化到灵活的下游应用,如物体插入和多区域修复。

上海交大等团队提出3D场景实时修复方法InstaInpaint

神经重建技术的最新进展实现了虚拟现实和增强现实中的照片级真实感和实时渲染,使用户能够在真实世界环境的数字孪生中自由导航。然而,仅浏览而无法与数字内容进行有意义的交互缺乏实际应用价值,这促使人们对操纵和编辑重建后的3D场景的兴趣日益增长。

由于现有框架在编辑前都依赖于基于优化方法重建的场景,很直观地会想到设计同样基于优化的编辑算法。遗憾的是,这种设计选择导致操作时间冗长,带来难以忍受的等待时间和不可行的资源需求。有的方法通过基于参考的算法设计缓解了执行时间问题:首先生成一张2D参考图像,然后通过将外观传播到其他视图来实现3D编辑。然而,它们仍然需要不切实际的计算时间,并且用2D外观来规范3D几何形成了一个不适定问题,其中手工设计的启发式方法常常效果不佳并导致伪影。

为了解决执行速度问题,一个自然的解决方案是利用大型重建模型(LRM),它们可以在不到一秒的时间内从前馈方式从稀疏视图图像生成3D几何。通过从大规模3D场景数据中学习,LRM即使在未见过的数据上也能产生高质量和高保真度的重建结果。然而,LRM要求输入图像呈现一致的3D信息,并利用跨视图对应关系求解几何。

上海交大等团队提出3D场景实时修复方法InstaInpaint

图3展示了当前最先进的扩散模型(即MVInpainter)生成的跨视图3D一致性不足以让LRM求解出合理的几何,导致明显的模糊。另外,多视图扩散模型引入了巨大的计算时间开销,这与实时3D修复目标相冲突。相关观察结果促使上海交通大学,加利福尼亚大学默塞德分校,新加坡科技设计大学团队开发一种单阶段、端到端的方法,学习在LRM内部构建3D几何。

在一项研究中,上海交通大学,加利福尼亚大学默塞德分校,新加坡科技设计大学团队提出了InstaInpaint,这是LRM的一个新变体,专门用于同时实现前馈重建和编辑。

给定一组与3D一致的2D掩码配对的图像,以及其中一个经过修复并作为参考视图的视图,InstaInpaint预测每像素的高斯飞溅(GS)参数来重建场景。对于跨视图可见的像素,该模型仍然像其他LRM一样求解几何。同时,模型学习从周围上下文中识别被标记为参考像素(这些像素没有来自其他视图的几何线索)的几何。例如,同一平面上扩展的几何应具有平滑的深度过渡,而插入的物体应具有清晰的分离并位于背景前方。

由于缺乏同时提供以下内容的大规模数据集,训练这样的模型具有挑战性:(a) 带有camera姿态的多视图图像,(b) 物体被物理移除前后的图像对,以及 (c) 被移除物体的精确掩码。因此,研究人员设计了一种自监督的掩码微调方案,利用符合(a)的大规模数据集,同时规避了对(b)和(c)的需求。

在这项研究中,团队表明获得有意义的训练掩码是最关键的设计。通过用灰色像素掩盖编辑区域,可以迫使模型忽略编辑前的外观并直接产生编辑后的结果。他们人工创建了三种类型的掩码:使用现成视频分割模型的跨视图一致物体掩码、使用LRM自预测深度的跨视图一致几何掩码,以及没有跨视图一致性的随机采样图像掩码。

对于每个训练样本,从场景中二次采样几帧作为InstaInpaint的输入视图,而将其他帧留作候选监督视图。选择一个输入视图作为参考视图,而其余视图中的编辑区域用灰色像素掩盖。InstaInpaint将掩盖的输入视图、参考视图和掩码都作为输入。然后,网络进行端到端训练。

上海交大等团队提出3D场景实时修复方法InstaInpaint

研究人员在两个标准的3D修复基准测试上进行了大量实验,包含多样且具有挑战性的真实世界场景。图2强调InstaInpaint在速度和质量两个轴上都达到了最先进的性能。团队同时对掩码策略和编码设计的关键设计选择进行了消融研究。

上海交大等团队提出3D场景实时修复方法InstaInpaint

与最先进方法的比较。 如表1和图6所示,InstaInpaint在数量和质量上都优于最先进的方法。与基于优化的方法相比,InstaInpaint以前馈方式重建场景,获得了1000倍的速度提升。InstaInpaint同时在修复边界处提供了更平滑的过渡。

与基于LRM的方法的比较。 如表2所示,InstaInpaint在FID/KID相关分数上优于两个基于LRM的基线方法。如图7所示,InstaInpaint比两个提出的基于LRM的基线产生了更清晰、几何更一致的结果。

上海交大等团队提出3D场景实时修复方法InstaInpaint

为了更好地评估基于参考的方法对所提供的参考图像的遵循程度,提供真实图像作为参考,并在像素级指标上进行评估。如表3所示,InstaInpaint相比其他基于参考的方法显示出竞争优势。

上海交大等团队提出3D场景实时修复方法InstaInpaint

参考图像的选择是基于参考的修复方法的关键因素。如图8所示,Infusion在给定场景中心作为参考时表现良好,但在参考图像接近场景边缘时会产生明显的伪影。InstaInpaint在两种情况下都表现稳定。

另外,InstaInpaint可以通过使用文本驱动的扩散修复器提供2D参考,轻松扩展到文本驱动的物体插入任务。图9显示基线方法无法预测正确的几何形状,并将修复后的纹理像贴纸一样粘贴到背景上,而InstaInpaint能够准确推断出完整修复物体的几何形状并无缝地将其融入原始场景。同时,图10表明即使有多个不相交的修复区域,InstaInpaint也能产生一致的修复场景。

表4对三种多视图掩码进行了消融研究。引入几何掩码和随机图像掩码减轻了物体偏差,并有效缩小了训练-验证差距,产生了更好的LPIPS、FID和KID分数。尽管使用或不使用物体掩码进行训练产生的量化指标相似,但可以观察到物体掩码显著增强了插入实例的几何一致性,如图11所示。这可以归因于物体掩码强大的跨视图一致性,约束模型保持刚性的物体结构。没有物体掩码训练会导致前景实例(倾斜的交通锥和扭曲的小黄人)的几何形状更容易变形。

上海交大等团队提出3D场景实时修复方法InstaInpaint

当然,尽管InstaInpaint在静态场景修复中产生了高质量的结果,但在处理具有快速移动物体的动态场景时,其性能会下降。InstaInpaint需要四张输入图像进行稀疏视图重建,这可能导致视图覆盖范围有限。

相关论文InstaInpaint: Instant 3D-Scene Inpainting with Masked Large Reconstruction Model

https://arxiv.org/pdf/2506.10980

总的来说,团队提出的InstaInpaint是一个基于参考的前馈框架,可在0.4秒内根据2D修复提案生成3D场景修复结果。通过利用自监督的掩码微调策略,InstaInpaint有效地将大型重建模型(LRM)适配用于3D修复。InstaInpaint在保持两个标准基准测试中最先进性能的同时,相比先前方法实现了1000倍的速度提升,并在多种编辑应用中展现出强大的灵活性。

本文链接https://news.nweon.com/135453
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯