腾讯提出Dragen3D框架实现可交互编辑的单图像3D生成
利用3DGS实现几何一致性和可控3D生成
(映维网Nweon 2025年06月18日)单图像三维生成已经成为一个突出的研究课题,在虚拟现实等领域中发挥着至关重要的作用。然而,现有方法在生成过程中缺乏多视图几何一致性和可控性等问题,严重制约了其可用性。为了应对所述挑战,腾讯团队提出了Dragen3D。
这是一种利用3DGS实现几何一致性和可控3D生成的新方法。团队引入了锚定-高斯变分自编码器,以将点云和单幅图像编码为锚定latent,并将latent解码为3DGS,从而实现了高效的latent-space生成。
为了实现多视图几何的一致性和可控生成,研究人员提出了一种种子点驱动策略:首先生成稀疏的种子点作为粗略的几何表示,然后通过种子锚点映射模块将其映射到锚点。通过易于学习的稀疏种子点来保证几何一致性,用户可以直观地拖动种子点来变形最终的3DGS几何,并通过锚点传播变化。它实现了几何可控的3D高斯生成和编辑,不依赖于2D扩散先验,并提供与最先进方法相当的3D生成质量。
3D生成是目前非常热门的领域,在研究和工业场景中有着广泛的应用。但与传统的3D建模过程相比(美术可以直接交互和编辑高质量的3D模型),在3D生成过程中实现高几何保真度和直接编辑依然是一个有待深入研究的领域。在从单视图图像生成3D模型的背景下,这一挑战变得更加明显。对于输入图像中不可见的模型部分,生成的结果可能与可见区域表现出明显的风格差异,无法实现多视图几何一致性,甚至看起来不真实。
为了与美术的创作愿望和建模要求保持一致,有研究人员通过输入图像修改或预定义的编辑操作探索了用户控制,但相关方法并不能有效地解决上述问题。
为了提高生成的3D模型的实用性和质量,腾讯团队的目标是开发一种能够实现多视图几何形状一致的3D生成方法,同时允许用户在生成过程中直接调整和控制3D形状。所以,他们提出了一种创新的方法Dragen3D,利用稀疏的种子点来处理由3DGS表示的对象形状,并在3D生成框架内增强多视图几何形状的一致性。
为了实现这一点,他们训练了一个变分自编码器(VAE),它将对象的复杂3D信息编码到紧凑的latent空间中,并准确地解码回3D域,同时支持在latent空间中后续的3D生成。然后,他们介绍了一个模块,任务是生成与输入图像中描绘的对象对应的3D种子点。由于易于学习种子点的稀疏分布,这确保了种子点的几何一致性。以其作为基础,引入映射模块将种子点信息与VAE latentt空间进行关联。
实验表明,Dragen3D产生的多视图几何一致的3D结果如图9所示。当种子点发生变形时,相应的latent code随之更新,解码后生成最终变形的3D输出,如图8所示。
团队指出,Drangen3D方法以图像为输入,生成具有多视图几何一致性的三维高斯函数表示的3D对象,在此过程中允许用户交互编辑几何图形。如图2所示,首先训练一个AnchorGaussian (Anchor-GS) VAE,它将复杂的3D信息编码到latent空间中,并将其解码为3DGS,以便在latent空间中进行后续生成。
然后,种子点驱动的可控生成模块用于单幅图像的3D生成。模块首先生成由一组稀疏表面点表示的粗糙初始几何形状,称为种子点,而他们可以通过变形种子点来应用编辑。然后设计映射模块,将(编辑过的)种子点信息映射到latent空间,随后解码为3DGS。图7给出了Anchor-GS VAE的结果。给定点云和单个图像,Anchor-GS VAE可以通过详细的几何和纹理实现高质量的重建。
研究人员使用峰值信噪比(PSNR)、感知质量度量LPIPS和结构相似性指数(SSIM)作为评估指标来评估预测和真实图像之间不同方面的相似性。另外,他们报告了推断单个3DGS所需的时间。使用单个图像作为输入,并使用所有可用视图作为测试视图来评估3D生成质量,以比较所提出方法。所有渲染都以512的分辨率执行。表1给出了所提出方法与以前SOTA方法在Objaverse和GSO数据集的定量评价结果。
LGM中使用的多视点扩散模型往往会产生更多样化但不可控的结果,并且缺乏精确的相机姿态控制。所以,它在密集视点评估中失败,在Objaverse和GSO测试集分别获得了12.76和13.81的PSNR分数。如表1所示,在密集视点评价中,LGM和LaRa受到二维扩散模型多视点不一致性的影响,得分相对较低。
相比之下,团队提出的方法在两个数据集上都取得了最好的结果,在推理时间上只有轻微的开销。图9展示了来自Objaverse数据集的前六行和来自GSO数据集的最后三行。使用相同的camera视点对所有方法进行比较。对于Objaverse数据集,渲染视点是相对于输入视点的左视图和后视图,而对于GSO数据集,选择视图是为了尽可能完整地展示对象。
与使用二维扩散先验的方法(如LGM和LaRa)相比,团队提出的方法展示了更好的多视图几何一致性。与TGS相比,团队的方法更有效地学习了3D对象分布,从而获得了几何上更一致的多视图结果。
基于拖动的编辑结果如图8所示,所提出方法实现了种子点驱动的变形。从输入图像中生成的种子点开始,种子点的稀疏特性允许使用3D工具(例如Blender[)进行一些拖动操作即可轻松编辑。编辑后的3DGS可以在2秒内得到。
相关论文:Dragen3D: Multiview Geometry Consistent 3D Gaussian Generation with Drag-Based Control
总的来说,Dragen3D是一个基于拖动编辑的多视图几何一致的单图像3DGS生成框架。研究人员提出了Anchor-GS VAE,它将三维几何和纹理编码为anchor latents,并将其解码为3DGS。结合单幅图像的种子点生成、用户交互的种子点编辑和种子到anchor latents的映射,他们能够生成和控制最终的输出3DGS。
跨多个数据集的评估表明,Dragen3D从单个图像中实现了最先进的3DGS质量。然而,所提出方法有改进的余地。首先,结合基于提示的3D外观编辑可能是一个有趣的探索方向,特别是当与现有的多模态大型模型集成时。另外,训练数据的质量和数量限制了模型的能力,而这可以通过更多的计算资源来进一步提高。