雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Meta发布Avat3r技术:四张自拍照生成可动画3D数字替身

查看引用/信息源请点击:映维网Nweon

只需4张自拍照即可创建图片真实感的Avatar

映维网Nweon 2025年03月05日)通常,创建高质量的Avatar需要工作室质量的设备,以及长达一小时的录制。这限制了相关流程的适用性,特别是在休闲环境中,因为用户可能只想通过智能手机拍摄的照片来创建令人信服的数字替身。

在日前分享的新论文中,慕尼黑工业大学和Meta团队介绍了只需4张自拍照即可创建图片真实感Avatar的Avat3r。

根据随意的图像构建一个逼真的3D Avatar涉及数个困难的挑战。首先,稀疏的3D重建带来了严重的约束优化问题,因为可用的图像中无法看到诸如嘴巴内力和头侧等区域。接下来,说话人头动画需要合理地变形重建的人脸。同时,输入的图像可能并不一致,例如在录制过程中不能完全保持静止。

要成功地重建图片上述三个挑战,即稀疏的3D重建,人脸动画和鲁棒重建,它们必须同时予以解决。由于上述挑战,目前用于高质量Avatar创建的最佳方法无法进行应用。

另一方面,针对3D感知人像动画的方法从包含各种不同人的大型视频数据集中学习3D人头的先验。所以,现有的方法已经可以令人信服地从很少的输入图像中绘制人脸。然而,相关方法通常侧重于正面,可能会牺牲3D一致性或时间一致性来达到令人满意的图像合成质量。这使得它们在需要适当3D模型的时候不太适用。

另一种方法是建立一个逼真的3D人头模型,学习3D人脸几何形状、表情和外观的分布。尽管这种无条件生成式模型非常通用,并显示出了有希望的结果,但由于现有的3D人脸数据集只提供数百个不同的人,所以通常在身份轴方面的泛化性有限。

所以,慕尼黑工业大学和Meta团队设计了一个以人类特征为条件的系统,但沿着表情轴进行泛化。与逼真的3D人脸模型不同,网络不需要学习人类面部外观的全部内容,只需要知晓如何从数个示例图像中重建它,所以这大大简化了任务。

研究人员进一步设计了一种预测输入图像中每个像素的三维高斯分布的架构。所以,他们故意避免在模板网格锚定3D高斯函数。所以当预测每个前景像素的高斯分布时,头发浓密人士会比秃顶人士得到更多的原语来建模头部。

为了进一步简化稀疏三维重建任务,他们首先通过DUSt3R计算每个输入图像的位置映射,并将其作为每个高斯函数的粗略起始位置。研究人员惊讶地发现,即便输入的图像不一致,例如显示不同的面部表情,或者是视图不一致的图像生成模型的结果,DUSt3R依然能够生成合理的位置地图。

团队利用DUSt3R在不同时间步长的输入图像训练模型,而这不仅可以在单目视频数据集进行训练和推理,而且可以确保模型对输入图像的不一致性更具鲁棒性。

最后,为了对面部动画建模,中间特征映射和描述性表情代码之间的简单交叉关注已经足以在面部表情空间进行泛化。

Avat3r可以直接从四个输入图像中还原出可动画的3D Avatar。管道将大型重建模型的最新进展与强大的基础模型DUSt3R和Sapiens相结合,从而获得高质量的结果,并通过简单的交叉关注层建立动态模型。

相关论文Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars

另外,团队证明Avat3r可以通过使用预训练的3D GAN在单个图像场景中应用。他们表示:“我们相信我们的发现为未来的研究开辟了有趣的途径。例如,我们已经证明,类LRM架构甚至能够从不一致的输入图像(如单目视频的帧)中推断出3D表示。最后,底层架构可以用作扩散框架中的3D提升和去噪模块,令扩散模型能够在单目视频数据上进行训练,从而无条件生成3D Avatar。”

本文链接https://news.nweon.com/128164
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯