中外四所高校联合提出虚拟现实模块化图像合成新方法

查看引用/信息源请点击:映维网Nweon

条件图像合成

映维网Nweon 2025年07月14日)条件图像合成是一项具有广泛应用的关键任务,例如虚拟现实。然而,目前的生成方法往往是面向任务的,范围狭窄,处理的是有限的条件,适用性有限。在一项研究中,四川大学,新加坡科技设计大学,‌阿德莱德大学和澳大利亚国立大学团队提出了一种新的方法,将条件图像合成作为多种基本条件单元的模块化组合。

具体来说,将条件分为三个主要单元:文本、布局和拖动。为了有效控制条件,研究人员为每个条件设计了专用的校准模块。针对文本条件,引入了密集概念对齐(DCA)模块,通过绘制不同的文本概念来实现密集的视觉文本对齐。对于布局条件,密集几何对齐(DGA)模块用于强制执行保留空间配置的综合几何约束。对于拖动条件,密集运动对齐(DMA)模块应用多级运动正则化,确保每个像素遵循其所需的轨迹而不会产生视觉伪影。

通过灵活地插入和组合对齐模块,相关方法增强了模型对各种条件生成任务的适应性,极大地扩展了模型的应用范围。大量的实验证明了框架在各种条件下的卓越性能,包括文本描述、分割掩码、拖动操作及其组合。

条件图像合成的目的是根据用户提供的需求生成逼真的图像,在虚拟现实等各种应用中起着举足轻重的作用。扩散模型的最新进展在处理各种条件信号方面表现出了良好的性能,包括图像描述、分割图、边界框和拖动信息等。尽管现有的方法在解释来自用户特定形式的输入方面有效,但它们难以在广泛的条件下进行泛化。这对于现实世界中复杂视觉场景的灵活生成是不切实际的。

在研究中,四川大学,新加坡科技设计大学,‌阿德莱德大学和澳大利亚国立大学团队提出了模块化条件图像合成(MCIS)范式,通过选择性地应用和组合独立的基本条件单元来调节合成过程,如图1 (a)所示。具体来说,将条件单元分为:

  • 文本:指自然语言描述,指定图像的语义内容

  • 布局:主要包括分割图和边界框,表示组件排列和场景结构

  • 拖动。指点对(拖动的原始和目的地),它们编码图像的局部变换。

然而,MCIS提出了一个不容忽视的问题,因为它要求确保所有条件都清楚地反映在视觉内容中。团队依次分析了对齐每个基本条件单元所涉及的主要挑战:

  • 概念不匹配:文本通常传达有关单个对象的属性及其相互作用的详细信息。这需要生成模型来匹配细粒度的区域级和单词级概念,而不是将图像及其描述作为一个整体进行对齐

  • 几何不一致性:布局隐式地编码多个对象之间的复杂关系,例如大小比例和相对位置。确保图像真实感需要在合成内容和空间配置之间建立详细的几何对应关系

  • 运动不协调:拖动通常提供位移矢量,指示要移动的可视区域。为了合成视觉上连贯的内容,在保持外观和语义一致性的同时,有效地保持每个视觉元素的预期运动至关重要。

为了解决上述问题,研究人员提出了一个用于模块化条件图像合成的密集对齐扩散指导框架。如图1 (b)所示,框架利用即插即用的引导模块,允许视觉内容独立地与每个条件单元对齐。

具体来说,他们提出了密集概念对齐(DCA)模块,它以coarse-tofine方式确保视觉内容和场景描述之间的一致性。除了场景级对齐之外,研究人员在解纠缠的特征空间中从属性和关系角度建立了细粒度的对应关系。

他们进一步介绍了密集几何对齐(DGA)模块。基于来自合成图像的检测信息,它对对象的位置以及每对对象之间的相对大小和距离施加约束。这个过程确保了不同前景实例之间的分离,同时保持了场景布置的真实感。

基于密集位移场,团队设计了密集运动对齐(DMA)模块。在扩散采样过程中,所述模块通过将视觉内容与位移场对齐来引导相邻时间步间视觉内容的变化。同时,使用逐像素的颜色和语义正则化来达到逼真的一致性。

为了评估框架在MCIS中的有效性,研究人员在公共基准上进行了广泛的实验,包括COCO,DenseDiffusion,DrawBench和DragBench。定量和定性结果表明,方法显著提高了对文本、布局和拖动条件的依从性。另外,模块兼容于同时控制多个条件单元。同时,框架可以无缝集成到各种扩散架构中。

相关论文Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis

https://arxiv.org/pdf/2504.01515

总的来说,团队提出了一种即插即用的模块化设计,通过组合不同的基本条件单元(文本、布局、拖动)来指导图像合成。基于这一思想,他们设计了三种密集对齐方法,分别实现对概念、几何和运动的灵活控制。综合实验证明了框架在不同条件反射场景下的有效性。

然而,框架依赖于它的基础模型的能力,例如SD模型。如果SD模型本身无法合成反事实场景,则很难生成反事实场景,例如一条向上流动的河流。未来的研究可以探索世界知识感知生成范式来应对这一挑战。

本文链接https://news.nweon.com/130996
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯