北航、宁波大学团队提出ViewCraft3D方法生成三维矢量图形
利用三维先验知识高效生成三维矢量图形
(映维网Nweon 2025年09月23日)三维矢量图形因其能够以最简化的表现形式捕获关键结构信息,在虚拟现实交互等众多应用中发挥着至关重要的作用。尽管现有方法在生成三维矢量图形方面展现出潜力,但它们通常存在处理耗时过长且难以保持视角一致性的问题。为突破所述局限,北京航空航天大学和宁波大学团队提出了ViewCraft3D(VC3D),一种利用三维先验知识高效生成三维矢量图形的新方法。
具体而言,所提出方法首先进行三维物体分析,采用几何提取算法使三维矢量图形贴合底层结构,并通过视角一致性优化流程提升视觉质量。综合实验表明,VC3D在定性与定量评估中均优于现有方法,同时显著降低了计算开销。最终生成的三维草图不仅保持视角一致性,更能有效捕获原始物体的本质特征。
三维矢量图形在抽象性与可理解性之间实现了独特平衡,通过最简的线条元素传递复杂空间信息。这种经济高效的表征方式已成为增强虚拟环境沉浸体验等众多计算应用的核心要素。在虚拟现实创作环境中,三维矢量图形作为直观的构建模块,使艺术家能在沉浸空间中直接具象化空间概念,弥合了想象与数字实现之间的鸿沟。
近期,交互式素描工具通过支持三维空间直接操作进一步增强了创作能力。尽管取得了进展,由于需要融合空间推理、技术界面操作与艺术判断等多重能力,创建有效的三维矢量图形对非专业人士仍极具挑战性。这种专业壁垒极大限制了技术的普及与应用,凸显了对自动化生成高质量三维矢量图形技术的迫切需求。
近年来,二维矢量图形生成领域取得显著进展。CLIPasso和CLIPDraw等研究开创性地利用CLIP的视觉语义理解指导矢量图形优化。基于这些成果,VectorFusion、DiffSketcher和SVGDreamer等方法进一步借助扩散模型实现更高保真度与可控性的矢量图形生成。
与此同时,神经渲染技术与生成模型彻底改变了三维内容创作领域,使得高质量三维资产创建日益普及。这些进展的融合催生了三维矢量图形研究,3Doodle和Diff3DS等开创性工作证明了生成具有表现力的三维线描图的可行性。相关方法在创建三维矢量图形方面虽取得令人印象深刻的成果,但现有技术主要依赖二维生成先验,利用CLIP和扩散模型等作为监督信号,同时采用分数蒸馏采样(SDS)在二维投影空间而非直接在三維空间进行优化。这些间接方法继承了二维SDS优化的根本局限:跨视角不一致性,这限制了方法的能力,同一三维元素在不同视角下呈现不一致。
即使采用更强大的预训练模型,这些方法依然难以生成在任意视角下保持一致的连贯三维矢量图形。例如Diff3DS使用MVDream试图解决该问题,但改善效果有限。另一方面,预训练图像生成模型提供的二维先验仅能提供概念级指导,缺乏对人类绘制三维草图关键线条的精确还原(如图2所示),导致生成结果常出现杂乱笔画、缺失细节和低结构保真度等问题。
为克服这些挑战,北京航空航天大学和宁波大学团队提出ViewCraft3D(VC3D),一种利用三维先验生成高保真且视角一致的三维矢量图形的新方法。不同于依赖二维先验的优化方法,所提出方法基于三维域内的几何属性,使其能自然继承三维物体的跨视角一致性,同时忠实保持空间结构与几何细节(如图1所示)。
具体而言,首先通过预训练图像转三维模型重建三维网格,基于所得网格识别捕捉物体关键结构特征的三维显著区域,随后使用空间邻近性与方向对齐进行点级聚类,并通过三维贝塞尔曲线拟合这些簇群,采用倒角距离损失确保精确几何近似。为进一步优化矢量图形,引入基于预训练三维生成模型的三维分数蒸馏采样损失,通过优化贝塞尔曲线参数提升视觉质量与结构保真度。由于优化过程直接在三维空间进行,所述方法天然保持视角一致性。
团队将本方法与两种最先进的三维矢量图形生成方法进行对比:Diff3DS(设计深度感知可微分光栅化器,通过SDS损失利用二维扩散模型先验从文本或图像生成三维矢量图形)和3Doodle(采用感知损失与多视角指导获取物体的三维贝塞尔曲线表征)。
为全面评估生成三维矢量图形的质量与保真度,采用CLIPScore衡量渲染视图与输入图像间的语义对齐度,同时使用美学指标量化美学价值。图5呈现了本方法与先前研究3Doodle和Diff3DS的定性对比。如图所示,VC3D生成的三维矢量图形更清晰、更精确且更具视角一致性。先前方法难以捕获参考图像中的精细细节(如蝴蝶图案或咖啡杯把手),且输出常包含过多杂乱线条(如椅子示例)。
表1展示了所有方法的定量分析结果。本方法在CLIPScore与美学评分指标上均优于先前方法:达到0.799的余弦相似度(高于3Doodle的0.729和Diff3DS的0.673),同时获得最高美学评分。这些优异结果证明本方法能生成语义与几何特性更优越的三维矢量图形。除上述指标外,本方法在生成时间上展现出显著优势:仅需少量SDS损失优化步骤,总运行时间约0.5小时,较3Doodle(约6小时)和Diff3DS(约2小时)有显著提升。
为验证倒角距离损失与SDS损失的各自贡献,团队进行了消融实验。从输入中选取20张图像子集,所有样本均经SDS损失优化,记录三个不同阶段的实验结果对应三种变体:(1)变体1:包含显著点云提取与点云聚类的模型;(2)变体2:仅含第一阶段(主体结构拟合)的模型;(3)完整方法。
结果如表2所示:变体2相对变体1的改进表明倒角距离损失优化的效益;变体2与完整方法的对比显示细节优化阶段可进一步提升CLIPScore与美学评分。图6展示了倒角距离损失的优化过程:初始拟合的贝塞尔曲线常无法准确覆盖显著点云Ps,曲线间连贯性亦不理想;随着优化进行,曲线逐渐延伸形成更完整结构,最终在保持原始形状几何保真度的同时提升显著特征覆盖率与曲线间连贯性。
图7展示了SDS损失带来的视觉改进:优化阶段补全了先前忽略的细节(如珊瑚末端分枝)并提升三维矢量图形的结构连贯性。这些结果表明所提出的两阶段方法有效平衡了结构准确性与视觉质量,生成更具表现力且语义准确的三维矢量图形。团队同时测试了贝塞尔曲线数量的影响:通过调整点云聚类阶段的过滤阈值τ控制簇群数量(即曲线数量)。如图8所示,当τ=10时,少于10点的簇群被移除;增加阈值会消除更多簇群,减少保留的贝塞尔曲线数量,产生更抽象的结果。
尽管VC3D能高效生成视角一致的三维矢量图形,但目前缺乏曲线间的遮挡关系处理。在渲染二维图像时,所有曲线具有统一透明度,可能影响视觉保真度。未来工作可借助现有网格处理该问题:通过确定每条贝塞尔曲线相对于camera参数的位置来处理遮挡关系。另外,考虑到本方法能以极低时间成本从网格生成对应三维矢量图形,未来可基于开源网格数据集构建三维矢量图形数据集,为后续研究提供基础。
相关论文:ViewCraft3D: High-Fidelity and View-Consistent 3D Vector Graphics Synthesis
总的来说,VC3D是一种利用三维先验生成视角一致三维矢量图形的新框架。通过直接在三维空间而非二维投影平面操作,所提出方法有效解决了视角不一致问题。两阶段算法首先通过几何聚类与贝塞尔曲线拟合识别显著结构,继而使用预训练图像转三维模型的SDS损失优化结果。实验证明VC3D在保持几何特征的同时维护跨视角一致性,并具有生成效率优势。这项研究使高质量三维矢量图形创作更易普及,适用于虚拟现实等领域。