从文本到沉浸式3D世界,Meta发布端到端系统WorldGen
仍处于研究阶段,尚未对开发者开放
(映维网Nweon 2025年11月24日)想象一下,只需输入一个简单的描述,如”卡通中世纪村庄”或”火星上的科幻基地站”,就能在数分钟内生成一个交互式的3D世界。这个世界在风格和主题方面将是协调一致:你的火星基地里不会出现世纪中期的现代建筑,你的中世纪村庄里也不会有维多利亚时代的家具。它同时是合理且可通行的,不同区域以某种方式连接,允许角色自由漫游而不会卡住。在几年前,这听起来可能还像是科幻小说,但随着生成式AI技术的最新发展,人们已经能够基于单一的文本或图像提示制作出引人入胜的短视频片段。
Meta日前正式发布WorldGen:这个先进的端到端系统能够从单一文本提示生成交互式且可导航的3D世界。WorldGen建立在程序化推理、基于扩散模型的3D生成和对象感知的场景分解技术相结合的基础之上。其结果是生成几何结构一致、视觉效果丰富且渲染高效的3D世界,适用于游戏、模拟和沉浸式社交环境。

我们已经见证了在使用生成式AI基于文本和/或图像提示生成高质量3D资产方面取得的巨大进步。WorldGen结合并创新了多项现有的2D和3D生成技术:首先,WorldGen生成3D场景的图像,然后进行图像到3D的重建,所有这些都发生在以下多个阶段:
规划
程序化区块布局生成
导航网格提取
参考图像生成
重建
图像到3D基础模型
基于导航网格的场景生成
初始场景纹理生成
分解
使用加速版AutoPartGen进行场景部件提取
用于场景分解的数据整理
优化
图像增强
网格优化模型
纹理贴图模型
现有的其他方法从图像或文本提示生成交互式3D世界时,通常基于单一指定视点并由此向外构建,而不是依据全局参考图像或完整布局进行条件化生成。尽管中心视点附近的几何结构和纹理质量很高,但当你仅移动3到5米远时,质量就会迅速下降。相比之下,WorldGen能够生成横跨50 x 50米范围、完全带纹理的场景,并始终保持风格和几何结构的完整性。而且我们的目标是未来实现更大的世界尺寸。
当然,这项工作依然处于研究阶段,尚未对开发者开放,但WorldGen生成的内容与包括 Unity 和 Unreal 在内的标准游戏引擎兼容,无需额外的转换或渲染管道。
Meta表示:”WorldGen已将我们的研究朝着生成多样化、交互式和可导航世界的方向推进了一步,但当前模型依然存在一些我们正在努力解决的局限性。例如,未来版本的WorldGen将能够生成更大的空间并降低生成延迟。3D内容的创作复杂、耗时,而且坦率地说,对许多人来说门槛很高。WorldGen展现了在各行业节省大量时间和成本的潜力,同时有助于3D内容创作的大众化。这支持了我们在Connect大会分享的愿景:未来,任何人都将能够构建整个虚拟世界,而无需接触一行代码。“


