中外多机构联合研发MMGDreamer模型实现几何可控3D场景生成
可控制的3D场景生成
(映维网Nweon 2025年06月05日)可控制的3D场景生成在虚拟现实领域有着广泛的应用。场景图为应用提供了合适的数据表示。然而,当前基于图形的场景生成方法仅限于基于文本的输入,对灵活的用户输入的适应性不足,阻碍了精确控制对象几何形状的能力。
为了解决这个问题,北京大学,北京航空航天大学,北京数原数字化城市研究中心,Theta Labs和慕尼黑工业大学团队提出了MMGDreamer。这是一个用于场景生成的双分支扩散模型,包含一个新的混合模态图、视觉增强模块和关系预测器。
混合模态图允许对象节点集成文本模态和可视化模态,节点之间的关系是可选的。它增强了对灵活用户输入的适应性,并能够在生成的场景中对对象的几何形状进行细致的控制。
视觉增强模块通过使用文本嵌入构建视觉表示来丰富纯文本节点的视觉保真度。另外,关系预测器利用节点表示来推断节点之间的缺失关系,从而产生更连贯的场景布局。大量的实验结果表明,MMGDreamer表现出对对象几何形状的优越控制,实现了最先进的场景生成性能。
深度生成模型开启了人工智能生成内容的新时代,推动了自然语言生成、视频合成和3D生成的发展。可控场景生成是指根据输入提示生成逼真的3D场景,允许对场景中的特定对象进行精确控制和调整。它广泛应用于虚拟现实,提供沉浸式体验并增强决策过程。
其中,场景图作为一个强大的工具,通过简洁地抽象场景上下文和对象之间的相互关系,实现直观的场景操作和生成。尽管基于检索的、半生成的和完全生成的方法在基于图的可控场景生成方面取得了重大进展,但它们主要依赖于文本描述来构建输入场景图。另外,场景图中的每个节点仅包含对象类别的文本信息,限制了其对灵活用户输入的适应性。
为了解决所述限制,北京大学,北京航空航天大学,北京数原数字化城市研究中心,Theta Labs和慕尼黑工业大学团队提出了MMGDreamer。这是一种设计用于处理多模态信息的双分支扩散模型,并将一种新的混合模态图作为关键组件。
如图1所示,MMG的节点可以用三种方式表示:文本、图像或两者的组合。另外,可以根据用户输入选择性地提供或省略节点之间的边。这种灵活的图形结构支持五种类型的用户输入。它显著增强了对不同用户需求的适应性,在生成的场景中实现对对象几何形状的精确控制。
为了充分利用MMG的功能,MMGDreamer具有两个关键模块:视觉增强模块和关系预测器。当输入场景图的节点只包含文本信息时,视觉增强模块使用文本嵌入来构建这些节点的视觉表示。通过结合与文本相关的视觉先验,所述方法丰富了节点的视觉内容,增强了对生成对象的几何控制。
关系预测器是一种基于GCN的关系分类器,它利用场景中的先验知识和节点表示,在缺乏显式关系信息的情况下推断节点之间的关系。通过捕获全局和局部场景对象关系,模块确保生成更连贯和上下文适当的场景布局。
如图2所示。MMG是一种新颖的图结构,其中节点可以选择携带文本或视觉信息,从而更有效地适应灵活的用户输入。MMGDreamer首先利用CLIP和嵌入层对MMG进行编码,生成潜在混合模态图(LMMG)。然后,应用视觉增强模块在LMMG的节点中构建视觉信息,生成视觉增强图。接下来,利用关系预测器预测节点之间缺失的边,形成混合增强图。最后,利用Graph Encoder对场景内部的关系进行建模,并采用双分支扩散模型生成相应的布局和形状,从而合成三维室内场景。
研究人员利用场景级保真度(FID和KID)和平均场景图一致性(mSG)来定量评估MMGDreamer中不同模块的有效性,如表3所示。
可以观察到,与基线(第一行)相比,带有VEM的配置(第二行)显示FID和KID显著降低,表明VEM增强了场景生成的保真度。当引入RP模块(第三行)时,mSG有显著的改进,表明RP有效地预测对象之间的关系,从而产生更连贯的场景布局。很明显,包括VEM和RP在所有指标都实现了最佳性能,突出了模块在产生高质量场景生成方面的互补优势。
相关论文:MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation
总的来说,MMGDreamer是一个用于几何可控3D室内场景生成的双分支扩散模型,并利用了一种集成了文本和视觉模式的新型混合模态图。所述方法通过视觉增强模块和关系预测器增强,提供对对象几何形状的精确控制,并确保连贯的场景布局。大量实验表明,MMGDreamer显著优于现有方法,在场景保真度和对象几何可控性方面取得了最先进的结果。