雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Meta分享Codec Avatar进展:曾要170个摄像头,现只需一台智能手机

查看引用/信息源请点击:映维网Nweon

曾经需要170+个摄像头的复杂捕获装备,但现在只需一台带RGBD摄像头的智能手机

映维网Nweon 2022年06月14日)自2019年正式公开介绍旨在创建图片真实感虚拟数字人的Codec Avatar项目以来,Meta就一直在积极探索各种优化方式。在日前公布的一项研究中,团队介绍了一个重要的进展:捕获Codec Avatar曾经需要170+个摄像头的复杂装置,但现在只需一台带RGBD摄像头的智能手机(例如iPhone 12)。

延伸阅读Meta 50年征途:Codec Avatars,创造逼真虚拟角色

研究人员声称,基于智能手机的扫描过程平均只需要3.5分钟。当然,生成包含所有细节的虚拟数字人需要在一台配置四个高端GPU的机器工作6个小时,但如果部署在产品之中,所述步骤可以发生在云端,而不是用户本地设备。

就自我标志而言,人脸比任何其他属性都要重要,成为了“我是谁”和“谁是我”的关键判断因素。所以,人类对人脸非常敏感。但对于生成图像真实感的虚拟数字人而言,这提出了一个巨大的挑战,因为即便是微小的偏差都会大大减损真实感和沉浸感。

为了克服这一困难,传统手段依赖于广泛的个人特定数据捕获和手动处理。这一过程成本高昂且非常耗时。在过去,要捕获一个Codec Avatar,Meta需要一个配备171个高分辨率摄像头的MUGSY装置。

所以,如何降低捕获要求成为了团队一个亟需攻克的难题。在名为《Authentic Volumetric Avatars from a Phone Scan》的论文中,Meta表示现在只需一台带RGBD摄像头的智能手机即可完成逼真的捕获。

从有限数据自动创建Avatar的核心挑战在于prior和evidence之间的取舍权衡。prior需要以一种轻量级的方式补充关于用户外观、几何和运动的有限信息,比如说仅通过手机摄像头,但这一般是以evidence作为代价,亦即真实感减损。

但尽管近年来行业已经取得了长足的进展,但以高分辨率学习人脸的多样性依然具有挑战性。

对长尾进行建模是捕捉个人特质(如特定雀斑、纹身或疤痕)所必需项,并要求具有更高维度的latent空间模型。现代方法能够产生似是而非的人脸幻觉,但无法以逼真的方式再现能够用于识别别人的真实人类。有研究人员通过优化latent空间以外的空间来实现出色的反向重建,但产生了强烈的伪影。

在这项研究中,研究人员打破了prior和evidence之间的取舍权衡,消除了产生非真实存在人类幻觉的能力。相反,他们使用手机数据来表示适应。所述的方法包括三个主要要素:

  • 一种通用prior,根据数百特征的高质量多视图视频语料库进行训练的hypernetwork;
  • 一种根据手机扫描调节模型的配准技术;
  • 一种基于反向渲染的技术,用于根据附加表达数据微调个性化模型。

prior的架构是基于这样一个观察:面部外观和结构的长尾的关键在于最适合直接从人类条件数据中提取,而不是从由低维特征嵌入(Embedding)重新提取的细节。与先前的研究接近,研究人员发现低维嵌入的性能迅速稳定,未能捕获个人特定的特质。相反,他们发现通过增强现有方法,可以使用特定于个人的多尺度‘解结’bias map来忠实地重建特定于一个人的高LOD(Level of Detail)。

这种bias map可以使用U-Net-styre的网络从用户中性扫描的unwarpped纹理和几何生成。通过这种方式,Meta的模型是一种可以接收用户中性面部数据,并以bias map的形式为个性化解码器生成参数的hypernetwork。总之,团队的通用prior和自适应策略能够从一次中性扫描中即时创建高度逼真的虚拟数字人,并只需小量带表情扫描可以生成一个横跨人类表达范围的模型。

团队表示,所述方法改进了手机捕获的Avatar生成技术,并且没有显著增加对用户端的需求。现有的方法可能会产生似是而非的幻觉,但其方法能够产生看起来和动起来都像特定个人的Avatar。

另外,所述模型继承了现有个人特定模型的速度、分辨率和渲染质量,因为它采用了类似的架构和渲染机制。所以,它非常适合交互式帧速率要求较高的应用程序,比如说VR。

研究人员声称,基于智能手机的扫描过程平均只需要3.5分钟。当然,生成包含所有细节的虚拟数字人需要在一台配置四个高端GPU的机器工作6个小时,但如果部署在产品之中,所述步骤可以发生在云端,而不是用户本地设备。

另外,团队坦诚目前的系统无法处理眼镜或长发,仅限于头部,不包括身体其他部位。

相关论文Authentic Volumetric Avatars from a Phone Scan

所以,要真正实现图像真实感Avartar的民用,Meta依然需要继续努力。在今年4月,Codec Avatar团队负责人亚瑟·谢赫(Yaser Sheikh)曾表示,无法预测它离实际应用尚有多远的距离。然而,他指出在项目开始的时候,团队距离目标实现尚差“十个奇迹”,但他相信现在仅剩“五个奇迹”。

本文链接https://news.nweon.com/98043
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯