中外多机构联合研发MMGDreamer模型实现几何可控3D场景生成

编辑：刘余欣 | 分类：论文 | 2025年6月5日

加入映维网会员

可控制的3D场景生成

（映维网Nweon 2025年06月05日）可控制的3D场景生成在虚拟现实领域有着广泛的应用。场景图为应用提供了合适的数据表示。然而，当前基于图形的场景生成方法仅限于基于文本的输入，对灵活的用户输入的适应性不足，阻碍了精确控制对象几何形状的能力。

为了解决这个问题，北京大学，北京航空航天大学，北京数原数字化城市研究中心，Theta Labs和慕尼黑工业大学团队提出了MMGDreamer。这是一个用于场景生成的双分支扩散模型，包含一个新的混合模态图、视觉增强模块和关系预测器。

混合模态图允许对象节点集成文本模态和可视化模态，节点之间的关系是可选的。它增强了对灵活用户输入的适应性，并能够在生成的场景中对对象的几何形状进行细致的控制。

视觉增强模块通过使用文本嵌入构建视觉表示来丰富纯文本节点的视觉保真度。另外，关系预测器利用节点表示来推断节点之间的缺失关系，从而产生更连贯的场景布局。大量的实验结果表明，MMGDreamer表现出对对象几何形状的优越控制，实现了最先进的场景生成性能。

......（全文 1549 字，剩余 1154 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限