雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

复旦+字节团队联合开发轻量化3D场景生成技术BloomScene

查看引用/信息源请点击:映维网Nweon

轻量级的结构化3DGS

映维网Nweon 2025年05月23日)随着虚拟现实应用的广泛应用,3D场景生成已成为一个新的挑战性研究前沿。3D场景具有高度复杂的结构,需要确保输出是密集的,连贯的,并包含所有必要的结构。目前大多数3D场景生成方法依赖于预训练的文本到图像扩散模型和单目深度估计器。然而,生成的场景占用了大量的存储空间,并且往往缺乏有效的正则化方法,导致几何扭曲。

在一项研究中,由复旦大学和字节跳动等机构组成的团队提出了BloomScene。这个轻量级的结构化3DGS用于跨模式场景生成,可以从文本或图像输入中创建多样化和高质量的3D场景。具体而言,研究人员提出了一种利用增量点云重建和3DGS生成连贯场景的跨模渐进场景生成框架。

另外,他们提出了一种基于层次深度先验的正则化机制,利用深度精度和平滑度的多级约束来增强生成场景的真实感和连续性。

最后,团队提出了一种结构化上下文导向的压缩机制,利用结构化哈希网格对无组织锚属性的上下文进行建模,从而显著消除了结构冗余并降低了存储开销。跨多个场景的综合实验表明,与多个基线相比,所提出框架具有显著的潜力和优势。

目前,人们对虚拟现实中的3D内容需求越来越大。然而,创建3D内容非常耗时,并且需要深厚的专业知识,这使得3D内容生成成为一个具有挑战性的前沿。在2D领域,足够多的带注释数据集极大地促进了文本到图像生成模型的发展,使得用户能够通过自然语言生成图像。

然而,缺乏带注释3D数据集限制了监督学习在3D内容生成中的应用。为了应对这一挑战,最近的研究通过耗时的蒸馏过程从扩散模型中提取2D先验,以优化3D内容的生成。然而,相关方法在扩展到细粒度场景时存在局限性。

随着NeRF 在新颖视图合成任务中的广泛应用,Text2NeRF以渐进式框架生成以NeRF为代表的3D场景。尽管这种方法可以生成高质量的场景,但生成时间比较长。近年来,3DGS由于其出色的生成质量和实时渲染能力,广泛用于高质量的场景生成。

尽管之前基于3DGS的方法在3D场景生成方面取得了进展,但它们依然存在以下局限性:

  • 在场景优化过程中仅依赖光度损失,缺乏足够的正则化技术,容易产生伪影和歧义。

  • 3DGS需要数百万个3D高斯来表示每个场景,导致高内存需求,增加存储成本,增加终端设备负担。

为了解决上述问题,团队提出了Bloom Scene,一种轻量级的结构化3DGS,并用于高质量的跨模态3D场景生成。

BloomScene有以下三个核心贡献:

  • 提出了一个跨模渐进场景生成框架,通过渐进点云重建和3DGS来生成3D场景。

  • 提出了一种基于层次深度先验的正则化机制,通过实施多层次深度精度约束和平滑性约束来增强场景的真实感和连续性。

  • 提出了一种结构化上下文导向的压缩机制,利用结构化哈希网格对无组织锚属性的上下文进行建模,从而充分压缩模型存储空间。

为了最大限度地提高所提出的BloomScene的泛化能力,团队使用预训练的模型来构建整个架构。具体来说,Stable Diffusion v1.5用于从文本提示生成初始图像。如果输入是没有相应文本描述的图像,则使用LLaVa 从图像生成相应的文本提示,从而构成图像-文本对。

他们使用Stable Diffusion v1.5 Inpainting模型作为文本条件下的图像Inpainting模型,并将ZoeDepth作为单目深度估计器。为了生成3D场景,以0.63弧度的旋转移动摄像头。所有的实验都是在单个NVIDIA A800 GPU完成。

综合实验表明,框架生成的场景在保真度和几何一致性方面明显优于基线,证明了其在复杂3D场景生成中的巨大潜力和优势。

相关论文BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation

总的来说,BloomScene是一个轻量级的结构化3DGS,用于跨模态场景生成。具体而言,他们提出了一种跨模式渐进场景生成框架,用于增量生成连贯场景。另外,基于层次深度先验的正则化机制利用深度精度和平滑度的多级约束来增强生成场景的真实感和连续性。最后,结构化上下文导向的压缩机制利用结构化哈希网格对无组织锚属性的上下文进行建模,从而显著降低了存储开销。

跨多个场景的综合定性和定量实验表明,所提出的框架比多个基线具有显著的优势。团队指出,所述框架为未来的虚拟现实应用开辟了更多的可能性。

本文链接https://news.nweon.com/129901
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯