CART:基于分层自回归Transformer的可扩展图像生成方法
使用自回归建模的图像生成新方法
(映维网Nweon 2025年04月22日)图像合成已经取得了显著的进步,并在虚拟现实等领域实现了多种应用。在一项研究中,三星研究院介绍了一种使用自回归建模的图像生成新方法,利用下一细节预测策略来增强保真度和可扩展性。
尽管自回归模型在语言建模方面取得了变革性的成功,但由于图像中固有的空间依赖性,在视觉任务中复制这一成功带来了独特的挑战。所提出的方法通过迭代地向图像构图中添加更精细的细节,将其构建为基础和细节图像因素的分层组合,而这个策略证明比传统方法更有效。
团队指出,这一方案的一个关键优点是它的可扩展性,更高的分辨率,不需要完整的模型再训练,使其成为高分辨率图像生成的通用解决方案。
生成式人工智能在图像合成和编辑方面的最新进展已经引起了业界的极大兴趣。生成式人工智能的传统方法通常旨在一次生成整个场景。然而,人类对视觉场景的感知和理解本质上是合成的。
例如在创建场景时,美术通常遵循迭代过程,从粗糙的轮廓开始,细化形状,逐渐添加细节和阴影。在一次尝试中生成整个场景会排除这种迭代添加的细节,并在缩放到高分辨率图像时提出挑战。
最近的研究引入了逐步方法来解决图像生成问题,其中每一步都包含一个细节子集。例如,基于扩散的方法从噪点矢量开始,并使用去噪模型逐步去除噪点,逐步显示连贯图像。
类似地,自回归模型以逐块的方式处理图像生成,进一步支持迭代图像生成方法。具体来说,诸如如VQGAN和DALLE等自回归模型使用视觉标记器将连续图像转换为2D标记网格,以令模型能够学习下一个标记预测。尽管自回归方法在自然语言处理方面取得了成功,但在计算机视觉领域复制类似的进步具有挑战性。
最近的研究表明,在自回归学习过程中,图像标记的处理顺序会极大地影响模型的性能。在研究中,三星研究院团队介绍了一种新的自回归图像生成方法,通过分层方式逐步组装场景来构建高质量图像。
这个过程从创建一个平滑的基础图像开始,然后通过迭代添加更精细的细节来增强,从而得到一个连贯的最终图像(见图1)。
这种方法非常类似于人类的图像创建方法:从一个基本的草图开始,并随着细节水平的增加而改进它。所述解决方案首先使用边缘感知平滑技术将训练图像分解为“基础”和“细节”组件。然后将组件编码成多尺度细节标记图。
自回归过程从一个1×1令牌开始,预测连续的令牌映射以构造图像的基本组件。一旦基础建立,模型过渡到预测细节成分,增量分层,以增强基础图像。这种结构化的迭代过程与图像形成的自然顺序一致,提高了生成过程中的质量和可解释性。
训练方法包括三个关键步骤:
-
分解:每个训练图像分解成n个分层的基本细节因子,代表渐进的细节层。
-
编码和标记化:使用矢量量化变分自编码器(VQ-VAE)将因子编码到latent空间中,在降低维数的同时保留基本特征。
-
迭代预测:Transformer解码器架构训练来预测图像的连续细节因子token-map,使细节的可控和增量添加成为可能。
相关论文:CART: Compositional Auto-Regressive Transformer for Image Generation
总的来说,团队提出了一种通过自回归框架进行图像合成的新方法。它结合了“下一个细节”预测策略,提高了模型在高分辨率图像生成中的能力。通过利用结构化的基本细节分解,所述方法使迭代细化与图像的自然层次结构保持一致,有效地将全局特征与局部特征分离开来。
团队提出了一个强大的标记化方案,分别量化基础层和细节层,保持空间完整性并实现有效的自回归过程。实验结果表明,它不仅在图像生成中实现了最先进的性能,而且降低了通常与缩放高分辨率输出相关的计算复杂性。
总的来说,这个建模框架引入了一种可扩展且计算效率高的图像合成方法,为扩散模型和其他最先进的方法提供了令人信服的替代方案。