英伟达与普渡大学联合推出Scenethesis框架,实现文本到3D场景的智能生成
综合实验表明,Scenethesis能够生成多样化、真实且物理合理的3D交互场景
(映维网Nweon 2025年08月22日)从文本生成交互式3D场景对于虚拟现实和具身人工智能等领域至关重要。然而,现有方法面临诸多挑战。基于学习的方法依赖小规模室内数据集,限制了场景多样性和布局复杂度。尽管大语言模型能够利用多样化的文本领域知识,但它们在空间真实性方面存在不足,常常产生违背常识的不自然物体摆放。
在一项研究中,英伟达和普渡大学团队提出,视觉感知能够弥补大语言模型所缺乏的真实空间指导。为此,他们提出了 Scenethesis。这是一个免训练的代理框架将基于大语言模型的场景规划与视觉引导的布局优化相结合。给定一个文本提示,Scenethesis首先使用大语言模型生成一个粗略布局。随后,视觉模块通过生成图像指导和提取场景结构来细化该布局,以捕获物体间关系。
接着,一个优化模块迭代地强制执行精确的姿态对齐和物理合理性,防止物体穿透和不稳定等伪影。最后,一个评判模块验证空间连贯性。综合实验表明,Scenethesis能够生成多样化、真实且物理合理的3D交互场景。
从文本合成交互式3D场景对于虚拟现实和具身人工智能等领域至关重要。与生成单一场景几何或可微分渲染基元不同,交互式3D场景合成的重点在于排列单个物体以构建真实的布局,同时保持自然的交互、功能角色和物理原理。例如,椅子应面向桌子以便就坐,小物品通常应放置在橱柜、抽屉和架子内部而不发生穿透。捕获这种空间关系对于生成真实场景至关重要,它可以令虚拟环境反映真实世界的结构和连贯性。
传统的交互式场景生成方法通常属于劳动密集型且难以扩展;而程序化方法生成的场景过于简化,无法捕获现实世界中多样的空间关系。近年来,基于深度学习的场景生成方法,如自回归模型和扩散方法,已能实现3D布局的端到端生成。然而,它们依赖于像3D-FRONT这样规模小、局限于室内环境,并且常常包含碰撞的带物体标注数据集。所述数据集主要建模大型家具布局,忽略了小物体及其功能交互。
大语言模型LLM的出现通过利用文本中的常识知识(例如基于人类意图哪些物体应该共现)扩展了场景多样性。然而,它们缺乏视觉感知,无法准确再现真实世界的空间关系,导致物体摆放不真实,忽视了功能角色、人类意图和物理约束。如图2所示,LLM生成的场景经常出现物体方向错误(例如椅子朝向橱柜)和位置错误(例如橱柜靠窗放置);小物体被限制在预定义的位置(例如只能在橱柜顶部而不能在内部)。这种真实性的缺失破坏了物体功能性,削弱了空间连贯性,阻碍了结构一致性,最终使得LLM生成的场景在实际可用性和交互性方面不实用。
基于视觉基础模型的见解——模型编码了紧凑的空间信息并生成反映真实世界布局的连贯场景分布——英伟达和普渡大学团队提出了 Scenethesis。这是一个免训练的代理框架,它集成了基于LLM的场景规划和视觉引导的空间优化。在缺乏真实世界感知能力的LLMs之上,Scenethesis强制执行基于视觉的空间约束以增强真实感和物理合理性。
给定文本提示,Scenethesis使用LLM进行粗略布局的推理,使用视觉模块进行布局优化、深度估计和结构提取,并采用一种新颖的优化方法,通过语义对应匹配和基于符号距离场的物理约束,迭代地将物体摆放与视觉先验对齐,确保无碰撞且稳定地融入数字环境。最后,一个评判模块验证空间连贯性。定量和定性结果表明,Scenethesis在场景多样性(生成室内外场景)、布局真实性和物理合理性方面优于SOTA方法。
相关的流程如下:
Scenethesis根据用户提示生成空间真实、物理合理的交互式3D环境。其流程概览如图3所示,包含四个关键阶段:
LLM模块:起草粗略的场景规划。
视觉模块:利用视觉指导和结构提取优化布局。
物理感知优化模块:提炼先验知识并调整物体摆放以实现空间连贯性和物理合理性。
场景评判模块:验证空间一致性。
粗略场景规划
Scenethesis 支持简单提示(例如,“日落时宁静的海滩”)以实现灵活的场景生成,或支持详细提示以实现可控的场景生成(例如,描述详细空间关系的场景规划)。对于简单提示,LLM通过对用户输入进行推理来生成粗略的场景规划。它首先解读提示,审查可用3D数据库中的所有物体类别,选择通常关联的物体,然后生成一个描述粗略空间关系的上采样提示,如图3所示。当给定详细提示时,LLM检查数据库中是否存在所有指定物体,推断相关物体类别,并跳过提示上采样过程。
在选定的物体中,LLM根据先前研究确定一个锚定物体。锚定物体作为中心参考点,占据除地面之外最高的空间层级。然后,LLM建立一个粗略的空间层级结构,将物体相对于锚定物体定位,并将这些关系纳入上采样提示中。例如,在一个舒适的客厅中,沙发作为锚定物体位于中心,而书架则放置在背景中,靠墙对齐。其他物体,如咖啡桌或椅子,则被放置在沙发的前面或旁边。
布局视觉优化
Scenethesis的一个关键见解是:图像生成模型通过学习大规模图像数据集中的常见共现和空间排列,内在地编码了物体功能和空间关系。视觉模块通过以下步骤优化粗略布局:
图像指导:生成图像以细化空间关系,确保真实性和物体功能性。
场景图生成:分割物体,估计深度和3D边界框(3DBB),并构建一个编码物体间关系的图以建立初始布局。
资源检索:选择3D资源和环境贴图用于最终场景组合。
图像生成 :视觉模块将上采样提示优化为视觉结构化的场景表示。生成的图像作为分割、深度估计和资源检索的基础。
场景图生成 :利用视觉基础模型,视觉模块构建一个场景图,使用3D边界框定位物体,并识别结构组件,包括锚定物体、父物体和子物体(见图3)。为了初始化资源的5自由度位姿,视觉模块使用语义线索分割物体,估计深度图,并将其投影到3D点云中。然而,由于遮挡、有限视角和分割误差,裁剪后的图像指导可能无法完全显示物体,导致3D边界框估计存在偏差,而这需要在后续阶段调整位姿。场景图为下一阶段优化中的迭代5自由度位姿调整奠定了基础。由于Scenethesis专注于地面层级的物体布局,背景元素(例如墙壁装饰)由检索到的环境贴图在视觉上定义。
资源检索:不同于现有的3D物体生成和重建技术,它们虽能产生逼真的视觉效果,但存在伪影和几何不一致性问题。它们缺乏可编辑网格、UV贴图和可分解的PBR材质,使其与标准生产流程不兼容。为了解决所述限制,Scenethesis采用基于检索的方法选择资源,确保下游应用所需的几何保真度和可编辑性。团队从Objaverse构建了一个高质量资源子集(类似于Holodeck),并补充了自定义的环境贴图数据集。在最后一步,检索3D资源和环境贴图以组合成视觉连贯的场景。
物理感知优化
直接根据图像指导的估计点云放置3D资源面临重大挑战:
现实场景中的遮挡导致3D点云不完整,从而产生物体朝向、尺度和位置误差。
检索到的资源与图像指导在纹理和形状上的差异使得精确位姿估计困难。
为了克服所述问题,Scenethesis采用了一种物理感知优化,并由鲁棒的语义特征匹配和符号距离场提供支持。此优化过程迭代地细化物体位姿,以确保位姿对齐和物理合理性。
为了解决由遮挡、分割或资源不匹配引起的位姿估计误差,采用RoMa的稠密对应匹配,利用语义空间特征来应对遮挡和部分视图的鲁棒性。图像指导与检索资源之间在纹理和形状上不可避免的差异,通过关注高层语义而非底层细节来缓解。对于每个物体,在2D空间中匹配渲染物体与图像指导中部分可见区域的N个对应点。然后,最小化这N个对应点在2D和3D空间位置上的均方误差(MSE)损失,通过反向传播梯度来优化尺度、平移和直立旋转,如图3所示。
真实世界的3D场景遵循物理约束,确保物体在接触面上保持稳定且无碰撞。然而,仅靠与图像指导的位姿对齐并不能保证物理合理性——由于形状差异和场景理解误差,物体可能相交、漂浮或下沉。见图9(b)示例。现有方法使用3D边界框(近似物体几何,这过度简化了形状并导致简化的物体间关系,并导致场景多样性受限,特别是在物体间关系复杂的紧凑空间中。
为了解决所述挑战,使用符号距离场取代基于3D边界框的近似方法,实现精确的物体几何表示,用于准确的碰撞检测和稳定性约束。物理感知优化过程迭代地构建基于SDF的物理结构,遵循场景图层级:首先处理锚定物体以建立稳定基础,然后是父物体和子物体。该优化结合了碰撞约束和稳定性约束。由于检索到的3D资源是直立的,它们的旋转限制在方位角调整范围内。
场景评判
迭代优化物体摆放后,一个由GPT-4o驱动的场景评判器评估生成的3D场景与布局优化阶段产生的图像指导之间的空间对齐度,确保物体间关系的一致性。为了评估这种对齐度,团队设计了三个指标:
物体类别准确度:比较生成场景与图像指导中的物体类别。
物体朝向对齐度:衡量物体朝向与参考布局的匹配程度。
整体空间连贯性:捕获场景布局的整体一致性。
每个指标都归一化在0(最低)到1(最高)之间。如果任何指标低于预设阈值,场景评判器会触发重新规划步骤。
图6展示了Scenethesis生成的各种场景,在室内外环境中均表现出高保真度和多功能性。与基于LLM的方法相比,Scenethesis通过利用图像指导和物理感知优化,在真实感和物理合理性方面表现出色,有效捕获了真实世界的空间复杂性和多样性。
图7展示了根据同一文本提示生成的各种3D布局,突出了多样化的资源选择和空间排列。Scenethesis支持简单和详细提示——简单提示支持灵活、用户友好的生成,而详细提示允许可控的3D场景生成。
Holodeck将小物体的放置限制在较大物体顶部的预定义区域。相比之下,Scenethesis支持细粒度定位,将小物体放置在支撑结构(例如架子、推车)的不同层级上,如图8所示。缺乏视觉感知的LLM方法难以实现这种空间真实度。
物理感知优化包含三个组件:位姿对齐、碰撞约束和稳定性约束。团队进行消融研究以评估它们的有效性。结果如表3所示,位姿对齐显著提高了空间一致性,而碰撞和稳定性约束则增强了物理合理性,使场景可用于仿真。图9展示了定性可视化结果。
相关论文:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
总的来说,Scenethesis是一个免训练的代理框架,通过利用基于LLM的粗略场景规划、视觉引导的布局优化以及用于物体位置调整的物理感知优化,来生成高保真的交互式3D场景。一个场景评判模块确保了空间连贯性。实验结果表明,它在布局连贯性、空间真实性和合理性方面显著优于SOTA基线方法。
不过,所述方法受限于检索数据库,因为生成式3D方法目前尚无法处理关节物体。未来生成式3D技术的进步若能实现关节物体的合成,将有望克服这一限制,从而增强场景多样性。