英伟达与普渡大学联合推出Scenethesis框架，实现文本到3D场景的智能生成

编辑：刘余欣 | 分类：论文 | 2025年8月22日

AI 摘要

英伟达与普渡大学团队开发的Scenethesis框架创新性地结合大语言模型与视觉引导优化，通过四阶段流程实现高保真3D场景生成：1）LLM生成粗略布局；2）视觉模块提取图像结构与深度信息；3）物理感知优化确保无碰撞的物体位姿；4）GPT-4o驱动的评判模块验证空间一致性。该系统突破传统方法依赖小规模数据集或LLM空间真实性不足的局限，在室内外场景中实现物体层级精确摆放（如架子分层放置物品），支持简单/详细文本提示输入，并通过符号距离场技术提升物理合理性，为VR和AI训练提供高可用性数字环境。当前版本受限于静态物体数据库，未来拟整合生成式3D技术以支持关节物体合成。

本摘要由 AI 自动生成，可能与原文存在偏差。

查看引用/信息源请点击：映维网Nweon

综合实验表明，Scenethesis能够生成多样化、真实且物理合理的3D交互场景

（映维网Nweon 2025年08月22日）从文本生成交互式3D场景对于虚拟现实和具身人工智能等领域至关重要。然而，现有方法面临诸多挑战。基于学习的方法依赖小规模室内数据集，限制了场景多样性和布局复杂度。尽管大语言模型能够利用多样化的文本领域知识，但它们在空间真实性方面存在不足，常常产生违背常识的不自然物体摆放。

在一项研究中，英伟达和普渡大学团队提出，视觉感知能够弥补大语言模型所缺乏的真实空间指导。为此，他们提出了 Scenethesis。这是一个免训练的代理框架将基于大语言模型的场景规划与视觉引导的布局优化相结合。给定一个文本提示，Scenethesis首先使用大语言模型生成一个粗略布局。随后，视觉模块通过生成图像指导和提取场景结构来细化该布局，以捕获物体间关系。

接着，一个优化模块迭代地强制执行精确的姿态对齐和物理合理性，防止物体穿透和不稳定等伪影。最后，一个评判模块验证空间连贯性。综合实验表明，Scenethesis能够生成多样化、真实且物理合理的3D交互场景。

英伟达与普渡大学联合推出Scenethesis框架，实现文本到3D场景的智能生成