清华等机构联合提出VIPScene框架实现自动化三维场景生成

编辑：刘余欣 | 分类：论文 | 2025年11月14日

AI 摘要

清华大学、慕尼黑工业大学、苏黎世联邦理工学院等机构联合提出VIPScene创新框架，通过利用视频生成模型内嵌的物理世界常识，实现语义准确、布局连贯且物理合理的自动化三维场景生成。该方案分为场景理解与场景组装两阶段：首先生成第一人称探索视频并重建三维点云，再通过2D-3D联合策略检测分割物体并检索匹配的3D资产进行姿态优化；同时提出FPVScore评估新标准，以第一人称全景视图替代传统俯视图，显著提升评估可靠性。实验表明VIPScene在布局合理性和人类偏好度上均优于现有技术，有望推动VR等内容创作领域的自动化场景构建效率。

本摘要由 AI 自动生成，可能与原文存在偏差。

查看引用/信息源请点击：映维网Nweon

成功生成了语义准确、布局连贯且物理合理的三维场景

（映维网Nweon 2025年11月14日）长期以来，自动化生成高质量、布局合理的三维场景一直是计算机视觉和图形学领域追求的目标。传统的三维场景创建高度依赖专业人士的手工建模，费时费力。尽管近年来基于大型语言模型或图像生成模型的方法取得了一定进展，但在空间合理性和多视角一致性方面仍存在明显短板。

针对这个问题，清华大学，慕尼黑工业大学，苏黎世联邦理工学院，慕尼黑机器学习中心，微软和斯坦福大学团队发布了一项名为VIPScene的创新研究，并提出了一种全新的解决方案。通过巧妙利用视频生成模型中蕴含的物理世界常识，他们成功生成了语义准确、布局连贯且物理合理的三维场景，为虚拟现实等领域带来了新的可能性。

清华等机构联合提出VIPScene框架实现自动化三维场景生成