马克斯·普朗克研究所与谷歌联合开发稀疏视图人体化身生成技术

查看引用/信息源请点击:映维网Nweon

在跨对象泛化能力和逼真度方面,所提出方法显著优于先前的研究。

映维网Nweon 2025年07月24日)仅靠少数数个RGB摄像头就能制造出高质量、逼真的人体化身,这是一个具有挑战性的问题,并且随着虚拟现实技术的兴起变得越来越重要。为了帮助这种技术实现普及,一种富有前景的解决方案可能是一种可泛化方法,即获取目标人物的稀疏多视图图像,然后生成真实自由视图渲染图。

然而,目前的技术水平尚不能扩展到非常大的数据集,所以缺乏多样性和真实感。为了解决这个问题,马克斯·普朗克信息学研究所,马普所萨尔布吕肯视觉计算研究中心,以及谷歌团队提出了一种全新的、可泛化的全身模型,以稀疏多视角视频作为驱动信号,它可以在自由视点下渲染逼真人体。模型在维持高逼真度的同时,可以将训练扩展到数千个研究对象。

就其核心,研究人员引入了一个MultiHeadUNet架构,它以纹理空间中的稀疏多视图图像作为输入,并预测在人体网格表示为二维纹理的高斯基元。重要的是,在2D中表示稀疏视图图像信息,身体形状和高斯参数,以便可以完全基于2D卷积和注意力机制设计一个深度和可扩展的架构。在测试时,仅需四路输入视图以及一个针对目标身份的跟踪身体模板,即可合成出基于高斯分布的关节式3D Avatar。在跨对象泛化能力和逼真度方面,所提出方法显著优于先前的研究。

仅靠少数数个RGB摄像头就能制造出高质量、逼真的人体化身有可能彻底改变虚拟现实等领域。然而,迄今为止的建模挑战依然未得到解决:在传感器稀缺和输入数据有限的情况下实现真实感和保真度;对新颖身份的真正泛化。

在一项研究中,马克斯·普朗克信息学研究所,马普所萨尔布吕肯视觉计算研究中心,以及谷歌团队提尝试通过利用最近的大规模数据捕获工作来共同解决相关问题。值得注意的是,这需要一种可泛化的方法,以简单的前馈方式在测试时合成数字人,而这是本次研究的主题。

最近的相关研究集中在个人特定的化身,即在密集的圆顶状摄像头设置上训练每个主题的学习表示。相关表示可能涉及网格,神经辐射场,点或体积基元,如3DGS。实现这种技术的大众化十分困难,因为为了获得高质量的结果,在推理时间驱动角色之前需要密集的摄像头穹顶。

有的方法旨在利用更简单的捕获设置,例如单眼图像或视频。但由于输入少得多,它们的视觉质量往往低于多视图方法。单图像到3D重建方法主要侧重于足够的几何重建,并产生仅由骨骼运动驱动的3D asset,其通常缺乏骨骼运动相关的几何和外观变化。所以,为轻量级人体重建和渲染设计一个高质量的方法依然是一个悬而未决的问题:模型必须准确地表示不同的人体外观、身体类型和服装配置,并且必须从稀缺的输入信号中正确地导出与姿态相关的外观变化。

尽管以前的研究已经在身份泛化方面迈出了有希望的第一步,但它们是在小规模数据集进行训练和评估,训练对象非常少。另外,它们的质量和效率受到隐式神经表示和不可扩展网络架构的限制。

最近,大规模数据集为真正可泛化的人类化身方法铺平了道路。然而,大规模训练和评价模型需要特别的考虑。首先,可泛化模型必须学习有意义的特征表示,以扩展到训练集和训练集之外。其次,模型架构必须具有计算和内存效率,以捕获精细细节并实现大规模训练。第三,这种方法的核心是,3D表示必须在最短的渲染时间内产生高质量的重建,以在训练期间保持快速的反向传播,并确保在测试时的快速性能。

为了解决所述挑战,研究人员提出了GIGA。这种前馈方法用于从稀疏输入视图和推理时的跟踪身体模板合成个性化的虚拟化身。值得注意的是,对于新对象,GIGA不需要对密集的圆顶数据进行个性化培训。就其核心而言,它将稀疏视图图像信息投影到SMPL-X模型的UV空间中,而GIGA预测的数字人表示为一个文本对齐的高斯化身,将任务简化为2D到2D的图像转换。

团队提出了一个MultiHeadUNet,一个具有多个编码和解码头的UNet,它采用包含投影图像信息以及形状和运动代码的纹理,并回归每个纹理的高斯外观和几何参数。然后,利用交叉注意向模型中注入运动信息,并通过跳skip-connection在不同空间尺度传播学习信号。架构设计选择确保从训练数据中可靠地学习固有特征统计,同时保持模型输入中包含的个人特定信息。可以使用各自的SMPL-X身体姿势将预测的高斯参数放置到3D空间中,这允许在训练期间渲染可与ground truth情况进行比较的2D图像。

图3、4和6展示了GIGA对目标对象执行新姿势的新视图渲染结果。值得注意的是,GIGA实现了逼真和视图一致的渲染,并有效地捕获了服装褶皱和复杂纹理等精细细节。对于新主题,GIGA实现了与训练主题相当的渲染质量,证明了其对新身份的泛化能力。

另外,团队将GIGA与其他通用动态图像驱动方法进行比较:NHP和TransHuman (TH)。团队从比较中排除了NNA,这是因为无法从作者提供的代码中复制训练结果。研究人员使用MVHumanNet的相同训练/验证分割来训练NHP和TH,并遵循与所提出方法相同的训练设置。

他们同时采用GHG作为基线,并在THuman2.0数据集训练GIGA。表1提供了GIGA与最先进的通用人类渲染基线的定量比较。图3提供了定性结果的概述。

NHP依赖于稀疏的3D卷积来处理观察到的姿态空间中的体积特征,因此,由于遮挡而丢失输入信号,并且无法泛化到前所未见的身份。尽管在规范模板姿态空间中操作,并对模板进行标记,以便使用基于transformer的网络进行处理,但TransHuman无法从大型数据收集中学习有意义的先验。NHP和TransHuman都非常慢,因为它们的核心是隐式表示,这极大地限制了它们的泛化能力。

另一方面,GIGA最大程度地利用了共享文本空间的力量:数字人的所有特征表示都在同一文本空间中定义,中间特征通过skip-connection增强最终预测的质量。MultiHeadUNet的计算效率显著提高,这就解释了在定性和定量方面的改进。

当然,尽管比以前的研究效率高得多,但GHG只针对稀疏输入视图的静态重建。GHG同时将人类建模为观察到的姿势空间中的一组3D高斯支架,并且不容易扩展到动态场景。GHG通过预训练一个单独的纹理网络来处理高斯颜色预测。

GIGA学会同时使用外观和几何特征进行操作,从而在视觉(图4)和定量上(表1)获得更高质量的结果。为了演示跨数据集泛化,团队训练了GIGA的两个变体,其中一个变体在DNA-Rendering数据集训练和测试,而另一个变体在MVHumanNet训练并在DNA-Rendering测试。表4和图6表明,所提出方法具有跨数据集的泛化能力,因为在大规模MVHumanNet数据训练的模型在DNA-Rendering具有可比性,这清楚地表明所提出方法有效地从大型数据集中学习了先验。

为了对GIGA核心的MultiHeadUNet(IV)进行基准测试,团队提出了3种具有近似相同可训练参数数量(≃90M)的替代架构:一个简单的编码器-解码器模型,一个在编码器和解码器对应的上下采样块之间具有skip-connection的传统UNet (II),以及一个具有2个编码器Ea, Eg和3个解码器Da, Dp, Dg但没有skip-connection的模型(III)。定量地(表2)和定性地(图5)观察到,从输入信号中可以看出,配置IV总体上具有更高的质量,尤其有助于保留良好的外观细节。

GIGA显示了前所未有的可扩展性,可以在数千个多视图视频进行训练,这要归功于高效的表示和高度可扩展的架构,以及在不牺牲渲染质量的情况下各自的泛化。然而,它依然面临着一定的限制,并应该在未来得到解决。尽管使用SMPL-X作为身体模板极大地促进了泛化,但如果没有额外的假设或基于物理的先验,它不允许正确处理非刚性动力学(例如头发和宽松的衣服)。

在这里,一个更先进的人体形状,包括服装几何可能会减轻所述限制。另外,对参数体模型和运动跟踪的依赖会导致模板错位或跟踪不准确时质量下降。未来的研究可以探索身体形状和姿态参数的端到端优化。

相关论文GIGA: Generalizable Sparse Image-driven Gaussian Avatars

https://arxiv.org/pdf/2504.07144

总的来说,团队提出了一种可泛化的稀疏图像驱动高斯化身。GIGA在大规模多视图数据集训练,以前馈方式从稀疏输入视图合成文本对齐的3D高斯化身。所提出方法实现了对新身份的最先进泛化,同时由于可扩展的架构和高效的表示,保留了个人特定姿势依赖的外观变化。

本文链接https://news.nweon.com/131226
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯