从文本生成可探索3D世界,这一新方法可兼顾全景视场与长距离漫游
兼顾全景视场与长距离漫游
(映维网Nweon 2026年05月25日)随着虚拟现实的日益普及,生成沉浸式且可导航的3D环境变得越来越普遍。然而,大多数现有方法面临一个根本性的限制:它们无法生成同时满足以下两点的3D世界:能够进行长距离空间漫游,覆盖完整的全向视场。
为了应对这一挑战,法国研究团队引入了SphericalDreamer,一种从文本提示生成完全沉浸式、长距离户外3D环境的方法。这一解决方案基于生成多个全景图像,随后将其提升到3D,并在融合过程中保持视觉和几何一致性。与先前方法相比,SphericalDreamer能生成高度细节化、完全沉浸式的3D环境,同时在规模和可导航性方面有显著提升。

研究团队提出的分阶段生成3D环境框架首先根据文字描述(如“火星沙漠”“水下峡谷”)生成多张全景深度图,并分别转换为独立的球形点云块;随后通过一种“生成式融合”方法,将这些球块连接起来,并自动补全连接处的空缺区域,最终形成一个大范围、无死角的完整3D世界。
与现有几类方法相比,SphericalDreamer在定量评估中表现出更稳定的图像质量和更高的场景覆盖率。无论是仅旋转camera、仅平移,还是同时旋转和平移,它都能持续渲染出完整内容,而对比方法通常在某一类运动中就会出现大片的黑色未生成区域。另外在文本匹配度、跨视角语义一致性和渲染质量等辅助指标上,这一方法也取得了最优分数。
当然,研究团队指出了当前方法的局限:对于需要精确平面结构的场景(如城市建筑或室内房间),球形图像深度估计的精度仍有不足,可能造成几何弯曲。未来若能进一步提升全景深度估计的准确性,框架有望拓展到更广泛的环境类型。
在计算效率方面,生成一个包含三个全景图拼接点的完整世界,在单张A100 GPU上约需40分钟;世界规模扩大时,耗时近似线性增长。
相关论文:SphericalDreamer: Generating Navigable Immersive 3D Worlds with Panorama Fusion
总的来说,这一方法为虚拟现实等需要快速构建大型沉浸式场景的领域提供了一种新思路。

