英伟达与普渡大学联合推出Scenethesis框架,实现文本到3D场景的智能生成
综合实验表明,Scenethesis能够生成多样化、真实且物理合理的3D交互场景
(映维网Nweon 2025年08月22日)从文本生成交互式3D场景对于虚拟现实和具身人工智能等领域至关重要。然而,现有方法面临诸多挑战。基于学习的方法依赖小规模室内数据集,限制了场景多样性和布局复杂度。尽管大语言模型能够利用多样化的文本领域知识,但它们在空间真实性方面存在不足,常常产生违背常识的不自然物体摆放。
在一项研究中,英伟达和普渡大学团队提出,视觉感知能够弥补大语言模型所缺乏的真实空间指导。为此,他们提出了 Scenethesis。这是一个免训练的代理框架将基于大语言模型的场景规划与视觉引导的布局优化相结合。给定一个文本提示,Scenethesis首先使用大语言模型生成一个粗略布局。随后,视觉模块通过生成图像指导和提取场景结构来细化该布局,以捕获物体间关系。
接着,一个优化模块迭代地强制执行精确的姿态对齐和物理合理性,防止物体穿透和不稳定等伪影。最后,一个评判模块验证空间连贯性。综合实验表明,Scenethesis能够生成多样化、真实且物理合理的3D交互场景。
......(全文 3696 字,剩余 3294 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限