ScalingGaussian框架:结合3D和2D扩散模型优化高质量3D内容生成
这一解决方案可以有效地生成高质量的3D asset
(映维网Nweon 2025年01月15日)高质量3D asset的创建对于虚拟现实等领域非常重要。现有的3D内容生成方法难以同时实现详细的纹理和强烈的几何一致性。针对这个问题,华东理工大学,华盛顿大学,哥本哈根大学和清华大学团队提出了一种创新的3D内容创建框架ScalingGaussian。
它结合了3D和2D扩散模型,在生成的3D asset中实现详细的纹理和几何一致性。首先,3D扩散模型生成点云,然后通过选择局部区域,引入高斯噪点,接下来使用局部密度加权选择来致密化点云。
为了细化三维高斯分布,研究人员利用带有SDS损失的2D扩散模型,引导3D高斯分布进行克隆和分裂。最后,将3D高斯分布转换为网格,利用MSE和GPP损失对表面纹理进行优化。
团队指出,所述方法解决了3D扩散中常见的稀疏点云问题,从而改善了几何结构和细节纹理。图像到3D任务的实验表明,这一解决方案可以有效地生成高质量的3D asset。
3D asset生成包含了大量的应用,包括AR/VR领域。3D asset的创建通常需要高技能的专业人员的专业知识,这个过程涉及到复杂技术和工具的应用。
随着游戏和VR领域的发展,以及3D建模工具的广泛采用,对3D asset的需求相应增加。图像到3D[和文本到3D等技术的出现有助于降低专业人员投入的成本,从而允许非专业人员创建3D内容。
图像到3D和文本到3D开发的主要目标是快速生成高度详细的3D内容,这对于普及3D asset的生产和扩大其在各个领域的可访问性具有重大潜力。3D内容的生成可以通过两种主要方法来实现:3D原生方法和基于2D的优化方法。
在3D原生方法中,3D训练数据源的稀缺性是一个问题,降低了相关方法生成复杂纹理细节的能力。尽管基于2D的优化方法利用2D扩散来解决缺少细节的问题,但2D扩散固有的随机性导致生成的3D asset具有较差的几何一致性。
为了在保留纹理细节的同时实现生成的3D asset的最佳几何一致性,东理工大学,华盛顿大学,哥本哈根大学和清华大学团队采用了基于3D高斯的方法。相关解决方案结合了3D扩散和2D扩散的优势。过程的初始阶段需要使用3D扩散来生成3D asset,其结果数据作为点云输出。随后,这个初始点云作为3D高斯函数的输入。
对单个对象进行3D扩散生成的点云往往过于稀疏,导致初始化的3D高斯数不足。这会对最终3D asset的结构产生负面影响。
针对这个问题,团队进一步提出了一种3D高斯初始化的致密化方法。它由两个主要模块组成:缩放模块和摄动模块。缩放模块包括选择局部区域,根据均匀分布生成点,并采用局部密度加权选择保留点。
如果在指定区域内没有初始化的高斯点可用,则在后续迭代中优化区域内的新高斯点的过程就成为一个重大挑战。这可能会降低生成框架的整体效率。为了保证空间中的每个区域都有一个初始点,以及提高生成过程的效率,团队引入了摄动模块。
摄动模块在空间中均匀地生成随机点,并估计分配给这些随机点的最密集的颜色。由于输入由单视图图像组成,他们利用2D扩散来帮助优化3D高斯分布,并通过SDS损失与2D扩散模型相互作用,指导3D高斯进一步克隆和分裂。
为了增强3D内容的纹理细节,他们从最终的3D高斯分布中提取网格,并使用MSE和GPP优化纹理。
这种方法解决了3D扩散中常见的稀疏点云问题,从而改善了几何结构和细节纹理。图像到3D任务的实验表明,这一解决方案可以有效地生成高质量的3D asset。
相关论文:ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splattin
总的来说,研究人员提出了一个称为ScalingGaussian的框架,它能够从单个图像中实现对象的完整重建。团队利用3D扩散和2D扩散来优化3D高斯飞溅的表示。由于3D扩散提供了先验点的信息,在优化过程中加速了3D高斯函数的收敛。
另外,他们还引入了缩放和摄动模块,以进一步提高3D高斯函数的结构特征和生成效率。转换为网格后,进一步增强细节,并使用2D扩散,MSE损失和GPP损失锐化边缘。这个过程允许产生详细和逼真的几何外观,并具有高几何一致性。在DeepFashion3D数据集和其他数据集进行的实验表明,所提出的方法具有非常强的泛化性。