告别“手指粘连”和“模糊脸”,中山大学提出高保真3D人体重建方法
高保真3D人体重建方法
(映维网Nweon 2026年05月04日)随着虚拟现实等应用的普及,如何从普通视频或照片中快速、逼真地重建出可活动的3D数字人,正成为计算机视觉领域的一项关键挑战。日前,中山大学研究团队提出了一种名为“基于区域感知初始化与几何先验的高保真3D高斯人体重建”的新方法,有效解决了现有技术中手指粘连、面部细节丢失等常见问题,同时保持了高渲染速度。

当前主流的3DGS技术在静态场景重建方面表现出色,但用于动态人体时,往往难以捕获到面部、手部等关键区域的高频几何细节,导致渲染结果中出现手指粘连、五官模糊或几何扭曲。另外,传统方法要么依赖粗略的模型初始化导致优化困难,要么为了追求细节而消耗大量GPU内存,两者难以兼顾。
针对这个问题,中山大学研究团队提出的新框架从三个方面进行了改进:首先,利用高表达性的SMPL-X参数化人体模型作为先验,取代常用的SMPL模型。SMPL-X对脸部表情和手部关节提供了更精细的控制,为高斯点云的初始分布奠定了更优的几何基础。
其次,他们设计了区域感知密度初始化方案,在面部和手掌等区域自动分配更多的高斯点,并采用平滑过渡机制,避免不同部位拼接处的撕裂或接缝。
最后,引入了几何感知的多尺度哈希编码模块,结合多视角深度图和表面法向信息,让网络既能高效捕捉高频纹理,又不至于过度消耗显存。

实验在公开的PeopleSnapshot和GalaBasketball数据集进行。结果显示,在约30秒的训练时间内,新方法在峰值信噪比(PSNR)、结构相似性(SSIM)和感知相似度(LPIPS)等指标方面均优于现有的Animatable 3D Gaussian和InstantAvatar等方法。尤其在训练仅5秒的极端条件下,新方法依然能取得接近其他方法训练30秒的重建质量,显示出强大的收敛效率。在动态篮球场景中,这一方法能准确还原运动带来的复杂阴影和衣物褶皱,并且在多人相互遮挡的情况下依然保持清晰的人物边界。
相关论文:High-Fidelity 3D Gaussian Human Reconstruction via Region-Aware Initialization and Geometric Priors
未来,团队计划进一步优化对宽松衣物、长发等复杂拓扑的建模能力,并探索与生成式模型结合,以补全被遮挡区域的细节,推动数字人技术向更高效、更逼真的方向发展。

