阿联酋、瑞士研究团队提出单视图3D服装重建新方法
高保真3D服装重建
(映维网Nweon 2025年07月25日)从图像中重建3D穿衣人是XR等应用的基础。尽管最近的进步提高了人体的恢复能力,但准确地重建服装的几何形状——尤其是宽松的服装——依然是一个悬而未决的挑战。
在一项研究中,瑞士洛桑联邦理工学院和阿联酋人工智能大学团队提出了一种从单张图像进行高保真3D服装重建的新方法,并在2D和3D表示之间架起了桥梁。所述方案将Implicit Sewing Patterns(ISP) 与生成扩散模型 相结合,在2D UV空间中学习丰富的服装形状先验知识。一个关键创新是映射模型,它可以建立2D图像像素、UV图案坐标和3D几何形状之间的对应关系,通过将学习到的先验知识与图像观察对齐,实现了对3D服装网格和相应2D图案的联合优化。
尽管仅在合成模拟的布料数据进行训练,但所述方法能有效泛化到真实世界图像,在紧身和宽松服装的重建都优于现有方法。重建出的服装在保持物理合理性的同时,捕获了精细的几何细节,可支持包括服装重定向 和纹理操控 在内的下游应用。
仅从图像中恢复人体的姿势和形状,以及服装形状,这存在一系列的应用。包括虚拟试穿、创建3D化身、远程呈现和沉浸式VR/AR等。近年来,业界在身体姿势方面取得了巨大进步。然而,准确地模拟服装依然是一个挑战。
目前的大多数研究都依赖于一个单一的3D模型来共同代表身体和衣服。尽管这可以产生视觉上令人印象深刻的重建结果,但融合人类和衣服的表现使得不可能进行逼真的布料模拟或虚拟试穿。所以,需要独立的身体和服装模型。
服装复杂的结构使这种建模变得困难。由于服装是具有近乎无限自由度的薄表面,它们会受到动态因素的复杂变形。服装的大多数设计风格和形状变化引入了进一步的复杂性,使建模过程更具挑战性,获得真正的3D数据更加困难。反过来,这阻碍了基于学习的服装重建方法的部署。
为了应对这些挑战,有人依靠预先设计的网格模板来定义服装几何形状,并使用底层身体模型的线性混合蒙皮(LBS)来捕获身体运动引起的变形。然而,这需要衣服的网格模板,限制了建模的灵活性和通用性。另外,尽管对紧身衣服非常有效,但它很难准确地模拟宽松的衣服,因为宽松的衣服经常离身体很远。
在另一方面,有人通过从所谓的ISP模解决这个问题。相关模型以一组单独的2D面板和与面板相关的3D表面来表示服装,然后将变形模型应用于3D表面,以便它们可以从身体形状上大大偏离。变形取决于从目标服装的输入图像估计的法线。这一方法是有效的,但往往会使结果过于平滑。这在一定程度上是因为不同的3D形状会产生非常相似的图像,使得正确训练网络来预测高保真的表面细节和单一图像的复杂变形变得困难。另外,服装的某些部分被系统地遮挡在穿衣人的图像中。
为了克服所述限制,瑞士洛桑联邦理工学院和阿联酋人工智能大学团队引入了三种扩散方案:学习捕获复杂服装形状的形状先验;补充服装遮挡部分的图像信息;将2D图像映射到3D和UV空间,以便通过将它们拟合到形状先验来恢复可信的3D形状。
图2描述了结果处理管道,而所述方法可以恢复各种服装的真实3D模型。与现有方法相比,团队的解决方案可以恢复更多的细节,并获得更高的重建精度。另外,重建的网格很容易用于下游应用,如服装重定位和纹理编辑。
图7为拟合方法的烧蚀研究。如图7(c)所示,初始重构没有经过后细化步骤,无法与图7(a)所示的输入图像完全对齐。引入神经位移场来优化初始网格可以提高重建精度,如图7(d)所示。通过直接优化顶点位置的进一步细化可以增强皱纹细节,如图7(b)所示。
然而,在没有首先优化神经位移场(图7(e))的情况下应用后细化很难恢复准确的形状,因为每个顶点都是独立优化,导致次优结果。最后,图7(f)显示了在整个拟合过程中只使用前正态估计的结果。背部表面缺乏约束导致背部不现实的变形。
由于所提出方法为服装和底层身体生成单独的模型,所以可以轻松地将其放置在新身体。图8展示了将重建的衬衫和裤子转移到不同姿势和形状的身体上的重定向结果。由于团队对服装的3D模型和相应的2D面板都进行了重建,所以可以很容易地实现纹理编辑。如图9所示,通过在复原面板绘制图案或绘制特定的图形,网格将在相应位置显示纹理。
相关论文:Single View Garment Reconstruction Using Diffusion Mapping Via Pattern Coordinates
总的来说,团队提出了一种从单张图像中恢复逼真的3D服装网格的新方法。所提出方案利用ISP和生成扩散模型来学习在2D UV空间中定义的合理服装形状先验。通过利用扩散方案,所述方案补充了服装遮挡部分的2D观察,并将其提升到3D空间。另外,研究人员设计了一个基于扩散的映射,跨越2D, 3D和UV空间,使学习先验与图像观测对齐,以产生准确的3D服装重建。
所提出方法在不同类型的服装上优于现有的方法,并且所得到的重建很容易适用于下游任务,例如服装重新定位和纹理编辑。
尽管能够为各种各样的服装产生逼真的3D重建,但所提出方案有一定的局限性。如图10第四行中间的例子所示,它很难捕获到非常小的皱纹。这种限制的出现是因为法向损失依赖于一个使用插值和近似进行法向和梯度计算的可微分渲染器。相关近似倾向于平滑高频几何细节。
另外,由于小皱纹对整体损失的贡献很小,所以在优化过程中,它们的梯度可能会被淹没。总之,所述因素解释了观察到的结果。同时,所提出方法目前尚不能处理多层结构的服装,比如褶边分层裙。一个潜在的解决方案可能包括在ISP中加入额外的面板以支持分层设计。
所提出方法需要穿衣人的全身图像,因此不能处理部分服装或侧面视图的图像。由于单幅图像的3D重建固有的性质,所提出方法不能解决深度模糊问题,不能完全捕获服装的物理行为。视频输入的结果看起来不太稳定。在未来的工作中,我们的目标是通过使用视频序列建模服装随时间的变形来解决这个问题。