瑞士团队提出HyperGaussians技术改进3D高斯面部建模

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

让数字面孔的细微表情、镜面高光乃至发丝眼镜都变得前所未有的清晰与生动

映维网Nweon 2025年11月20日)在追求元宇宙与数字交互极致体验的今天,如何创造一个既真实又灵活的数字人面部Avatar,一直是计算机视觉领域的核心挑战。针对这个问题,瑞士苏黎世联邦理工学院的研究团队带来了一个名为HyperGaussians的技术,它如同给当前最流行的3D建模技术“3D高斯飞溅”进行了一次“高维进化”,让数字面孔的细微表情、镜面高光乃至发丝眼镜都变得前所未有的清晰与生动。

瑞士团队提出HyperGaussians技术改进3D高斯面部建模

3D高斯飞溅自诞生以来,以其惊艳的渲染速度和渲染质量,迅速成为三维场景表示的新标准。其核心在于用数以万计、带有颜色、透明度和三维方向的小椭球来“泼溅”出一整个场景,从而实现实时、逼真的渲染。

然而,当这项技术应用于从单目视频创建可驱动、可动画的面部Avatar时,瓶颈出现了。现有的顶尖方法,如FlashAvatar、MonoGaussianAvatar等,通常将高斯点绑定在参数化人脸模型上,并利用神经网络根据表情参数来预测每个高斯点的位置、旋转和尺度的偏移量。

团队解释道:“这就像给一个基础骨架蒙上皮肤,再通过神经网络让皮肤微微变形。但这种方法在应对极度局部和非线性的变化时,显得力不从心。” 图7清晰地展示了这种窘境:现有方法渲染的眼镜框粗大模糊,牙齿粘连在一起,眼球的高光反射呆板且错误,闭眼动作也产生了不自然的变形。

瑞士苏黎世联邦理工学院团队意识到,问题或许不在于预测网络的复杂度,而在于高斯表示本身的“表达能力”上限。他们提出了一个根本性的问题:如果我们不让高斯点停留在3D空间,而是将它们提升到更高维度的空间,会发生什么?

这就是HyperGaussians的核心理念。它将每个传统的高斯点,从一个3D的椭球,扩展为一个在 (m+n) 维空间中的高维高斯分布。

你可以想象一下,传统的3D高斯就像一个只有长、宽、高三个属性的点。而HyperGaussians则将这个点放置在一个更高维度的空间中,比如一个(3+8)维的空间。其中,3维是我们熟悉的位置、旋转和缩放(称为属性维度),而新增的8维(称为潜在维度)则是一个可学习的、包含丰富局部上下文信息的“嵌入编码”。

这个高维空间中的点,是一个完整的、具有高维均值和协方差的多元高斯分布。在渲染每一帧时,系统会根据当前的表情参数,为每个高斯点计算出一个具体的8维“潜在状态”。然后,通过一个称为 “条件化” 的数学过程,从这个高维高斯分布中,精准地“切片”出一个标准的3D高斯。这个被切片出来的3D高斯,其位置、形状和方向已经根据当前的“潜在状态”进行了动态且精细的调整。

这就好比一个变形金刚,它在高维空间里拥有无数种形态可能性(由潜在维度定义),而根据不同的指令(表情参数),它能即时变形成最适合当前状态的那个精确的3D形态。

然而,高维计算通常伴随着巨大的计算成本。在“条件化”过程中,需要反复计算高维协方差矩阵的逆矩阵,这在实时渲染中几乎是不可行的。

研究团队最大的工程贡献在于提出了 “逆协方差技巧”。他们巧妙地转换了数学思路,不去直接操作协方差矩阵,而是转而操作其逆矩阵——精度矩阵。这一转换将计算瓶颈从需要处理庞大的潜在维度矩阵,转化为只处理微小的属性维度矩阵。

瑞士团队提出HyperGaussians技术改进3D高斯面部建模

具体来说,无论潜在维度是8维还是128维,系统都只需要对一个固定的3x3或4x4的小矩阵进行求逆。这一技巧使得高维高斯的渲染效率提升了上百倍,甚至更高,从而让HyperGaussians的实时应用从理论走向了现实。

为了证明其通用性和强大能力,研究团队将HyperGaussians直接“嫁接” 到了当前最快的单目视频Avatar系统——FlashAvatar。

整个集成过程十分优雅:他们唯一所做的改动,就是将FlashAvatar中预测高斯点位置、旋转、缩放偏移量的网络输出,替换为一个预测“潜在状态”编码的输出。然后,这个编码被送入HyperGaussians模块,由后者来生成最终的条件化偏移量。模型的其余部分,包括网络结构、损失函数、所有超参数,均原封不动。

为了证明HyperGaussians的普适性和强大,团队进行了一项极为“克制”的验证:他们选择了当前最快的单目Avatar系统之一FlashAvatar,然后只做了一个改动:将其输出端预测的偏移量,替换为预测潜在编码,并接入HyperGaussian模块来生成最终的偏移量。模型的架构、损失函数、所有超参数,甚至训练帧数和迭代次数都保持原封不动。

实验结果令人震惊。在包含19个不同人物的5个公开数据集上的定量分析显示,这个“微创手术”后的系统,在PSNR、SSIM和LPIPS所有关键指标上均实现了最佳表现。

瑞士团队提出HyperGaussians技术改进3D高斯面部建模

更令人信服的是视觉效果的飞跃,如图7和8所示:

  • 薄结构:眼镜框不再是模糊的色块,而是呈现出清晰的几何结构;牙齿颗颗分明,间隙可见。

  • 镜面反射:眼球上的高光能随视角和表情自然移动,眼镜片上的反射也更加真实。

  • 复杂变形:闭眼动作自然流畅,嘴角的拉扯等非线性变形更加符合生理规律。

  • 收敛速度:在训练的早期阶段,使用HyperGaussians的模型就呈现出更锐利的细节,表明其优化过程更为高效。

由于HyperGaussians的本质是概率分布,其条件协方差矩阵自然地蕴含了每个高斯点在各种表情下的变化程度。研究团队将其解释为一种 “不确定性” 。当他们将这些不确定性可视化时,发现高不确定性区域(显示为红色)恰好集中在语义上复杂、易变的部位,如嘴角、眼周和眉毛。这一涌现出的特性,无需任何额外监督,就为理解模型的“认知焦点”提供了一个直观的窗口。

团队同时将HyperGaussians成功集成到了另一个名为GaussianHeadAvatar的系统,仅增加了5.6%的训练时间就获得了视觉质量的显著提升,这进一步证明了其强大的通用性。

相关论文HyperGaussians: High-Dimensional Gaussian Splatting for High-Fidelity Animatable Face Avatars

https://arxiv.org/pdf/2507.02803

HyperGaussians的成功揭示了一个重要方向:提升基础表示单元的表达能力,往往能带来比单纯堆叠网络复杂度更显著的收益。这种“即插即用”的特性,使得它有望成为未来许多基于高斯飞溅的动态场景建模系统的标准组件。

研究人员同时表示,未来将探索HyperGaussians在全身数字人、动态服装模拟以及更广泛的通用动态场景中的应用。当然,团队强调了所述技术可能被滥用于制作深度伪造的风险,并呼吁业界共同建立负责任的使用规范与伦理准则。

本文链接https://news.nweon.com/136162
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯