浙大研究员在单目视频的三维穿衣人体合成中达更先进的视觉质量
Human NeRF和Gaussian Splatting分别提高了33.94%和16.75%
(映维网Nweon 2024年11月08日)单视图穿衣人体重建在虚拟现实应用中占有中心地位,特别是在涉及复杂人体运动的环境中。但实现逼真服装变形提出了显着的挑战。
目前的方法往往忽略了运动对表面变形的影响,导致表面缺乏全局运动的约束。为了克服所述限制,浙江大学和之江实验室团队提出了一个创新的框架MOSS。它利用运动学信息在人体表面实现运动感知的Gaussian split。
所述框架包括两个模块:KGAS和UID。KGAS采用matrix-Fisher分布来传播整个身体表面的运动。分布的密度和旋转因子显示控制了高斯分布,从而增强了重建表面的真实感。另外,为了解决单视图中的局部遮挡, UID可以基于KGAS识别重要表面,并进行几何重建以补偿变形。
实验结果表明,MOSS在单目视频的三维穿衣人体合成中达到了最先进的视觉质量。值得注意的是,在LPIPS*,Human NeRF和Gaussian Splatting分别提高了33.94%和16.75%。
对穿衣人体进行准确建模的重要性正在上升,尤其是对于AR和VR等领域。在努力创造逼真的人体模型时,最重要的挑战之一是准确地描绘人体的动态运动。近年来,通过高斯分布对对象几何形状进行采样,3DGS极大地提高了3D重建的效率和质量。
现有的利用3DGS重建人体的研究将SMPL作为人体先验,可以还原出更真实的人体。然而,它们忽略了运动树的层次结构约束和重构人体表面的全局运动信息约束,导致运动人体关节和衣饰表面部分的细节缺失。另一项研究发展了法线来模拟服装,但没有考虑服装褶皱之间相互遮挡对褶皱渲染的影响。
为了应对目前的困难,浙江大学和之江实验室引入了一个创新3D合成框架MOSS。MOSS从检查表面变形的起源开始。研究人员使用运动树中的运动因子(位移和旋转)进行高斯控制,以改善大规模运动中的人体重建。
为了有效地解决人体运动的细节模糊问题,团队提出了KGAS。这个模块将全局运动与高斯点形状联系起来,使用人体关节的matrix-Fisher概率分布来推导旋转因子和主轴concentration。身体姿态则通过沿SMPL运动树的相对三维关节旋转来参数化,其中旋转可以用旋转矩阵表示。
然而,使用神经网络回归旋转矩阵是一个挑战,因为它们属于SO(3),这是一种非线性三维流形,其拓扑结构与神经网络的无约束输出不同。尽管有这样的困难,依然有可能定义Lie group SO(3)的概率密度函数。其中一个这样的函数是matrix-Fisher分布,其参数可以很容易地通过神经网络回归。
团队沿着SMPL运动学树使用相对3D关节旋转的分层概率分布,其中每个关节的相对旋转矩阵的概率密度函数是一个matrix-Fisher分步,所述分布以关节在运动学树中的父节点为条件。研究人员训练了一个深度神经网络来预测这种分布在身体姿势上的参数,以及SMPL形状上的高斯分布。
通过全局关联相关因素并控制3DGS渲染的高斯分布,系统实现了精确的表面描绘。
高斯分步过程中的主轴concentration调整采样概率,以准确捕获表面变形。通过对方向和尺度的动态调整,旋转因子和主轴concentration保证了每个高斯函数在全局运动约束下忠实地表示人体表面的变形。
在KGAS的基础上,团队引入UID来解决由于局部遮挡导致的2D图像监督有限而导致的服装褶皱损失。UID通过比较相邻高斯点法向量之间的夹角,在设定阈值的情况下评估高斯局部分布的方向性变化程度,从而可以识别并密集处理表现出明显变形的区域。在相关区域,采用KGAS方法进行几何重建补偿。这有助于恢复模糊的结构细节。
基于KGAS和UID的协同工作,所提出方法可以在保证训练和渲染效率的前提下,提高人体大量运动场景中穿衣人体的重建质量。
相关论文:MOSS: Motion-based 3D Clothed Human Synthesis from Monocular Video
实验结果表明,MOSS在单目视频的三维穿衣人体合成中达到了最先进的视觉质量。值得注意的是,在LPIPS*,Human NeRF和Gaussian Splatting分别提高了33.94%和16.75%。