雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

北京大学提出HoloDreamer,基于文本生成高质量3D场景

查看引用/信息源请点击:映维网Nweon

3D高斯飞溅

映维网Nweon 2025年01月14日)诸如VR等领域对3D场景生成有着非常高的需求。由于文本到图像扩散模型的强大生成能力提供了可靠的先验,仅使用文本提示创建3D场景已经成为可能,从而大大推进了文生3D场景的研究。

为了从二维扩散模型中获得多视图监督,常用的方法通常是使用扩散模型生成初始局部图像,然后使用扩散模型迭代地绘制局部图像,逐渐生成场景。然而,这种基于outpainting的方法容易产生全局不一致的场景生成结果,没有高度的完整性,限制了它们的广泛应用。

为了解决这些问题,北京大学团队提出了HoloDreamer。这个框架首先生成高清全景作为完整3D场景的整体初始化,然后利用3D高斯飞溅快速重建3D场景,从而促进创建视图一致和的3D场景。

综合实验表明,在生成全封闭场景时,所述方法在整体视觉一致性和协调性以及重建质量和渲染鲁棒性方面优于先前的研究。

3D内容生成已成为计算机视觉领域的重要任务。文本提示可以直观、全面地描述用户的需求,zero shot文生3D场景可以降低新手的进入门槛,并节省大量的3D建模人工。这使得它在诸如虚拟现实等行业中具有广阔的应用前景。

然而,与2D领域丰富的文本到图像配对数据不同,目前文本到3D配对数据非常稀缺。3D数据集的创建通常需要大量的人力和物力资源,导致了从用户提示直接训练3D内容生成的挑战。尽管在利用扩散模型进行3D内容的端到端前馈生成方面已有很多努力,但结果依然受到训练数据的大小和质量的限制,导致细节表现不佳。

为了克服这一限制,有人利用预训练的文本到图像模型的高级先验来指导3D表示的优化,以实现zero shot效果。然而,它们仅限于生成简单的几何形状,而且camera都集中在对象位置。为了生成camera方向向外发散的更复杂场景,业界开始逐步使用扩散模型绘制初始图像,然后集成单目深度估计网络以获得后续3D重建的深度信息。

不过,大范围视场需要大量增加的绘制迭代次数。每次迭代的outpainting过程都是基于现有的场景,导致在长时间的outpainting过程中难以保持全局的一致性和和谐。生成的场景视觉混乱,特别是当场景完全封闭时。另外,场景对外部预设视图的渲染鲁棒性较低。

在研究中,北京大学团队介绍了一个名为HoloDreamer的框架。与之前的方法不同,研究人员提出了风格化的等矩形全景生成,利用文本到图像扩散模型直接从文本提示生成高度一致的360度等矩形全景。

生成的全景具有出色的视觉质量,其特点是高分辨率的细节。具体来说,为了保持等矩形投影的准确性,首先使用在全景数据库微调的扩散模型生成基本全景图,然后使用条件控制扩散模型进行风格转移和细节增强,确保全景图不仅细节丰富,而且美观,符合从文本描述推断的视觉风格。

研究人员选择3D高斯飞溅作为场景的3D表示,因为它具有在各种场景中表示高粒度细节的强大能力,并且具有显著的优化速度,可以实现具有全景视场的快速,高保真3D重建。他们提出了增强的两阶段全景重建。

首先,利用单目深度估计模型提供的深度先验对全景进行深度估计。然后将得到的RGBD数据转换为点云并作为三维高斯的初始化。另外,为了增强场景渲染的鲁棒性,团队设计了一种两阶段3D高斯飞溅优化流程来重建3D场景。

在预优化阶段,从点云中投影多个额外的透视图像,以在优化过程中对三维高斯函数应用多视图约束。这种策略克服了全景中单一视点的限制,防止了伪影的产生。

在预优化结果之后,使用2D补图模型来填充从场景中渲染的图像中的缺失区域。最后,将绘制的图像作为转移优化阶段的监督,以实现最终重构场景的高完整性。

结果显示,所提出的HoloDreamer可以基于文本描述生成高度一致的沉浸式全封闭3D场景,另外,管道显示出高度的通用性。所述方法在生成全封闭场景时,在整体视觉一致性和和谐性,重建质量和渲染鲁棒性方面优于其他文本驱动的3D场景生成方法。

相关论文HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions

总的来说,团队介绍的HoloDreamer可用于生成高度一致的、全封闭的3D场景,并基于文本描述增强了渲染鲁棒性。管道由两个模块组成:风格化等矩形全景生成和增强两阶段全景重建。

所述方法不仅提高了视觉一致性和视觉协调性,而且增强了场景的完整性和渲染的鲁棒性。广泛的实验结果表明,HoloDreamer代表了3D场景创建领域的重大进步,提供了一个全面的解决方案,可以将文本描述转换为复杂的、身临其境的、视觉上连贯的3D场景。

本文链接https://news.nweon.com/127040
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯