斯坦福大学和Meta提出在倾斜视角单色图像上配准逼真3D Avatar
用于图像真实感Avatar的面部动画快速配准
(映维网Nweon 2024年09月02日)虚拟现实有望实现比其他媒介更具有沉浸感的社交,而其中的关键是能够在穿戴VR头显的同时精确地制作出一个逼真的Avatar。尽管在离线设置中可以实现对头戴式摄像头图像进行高质量的个人特定头像配准,但通用实时模型的性能会显著降低。
在一项研究中,斯坦福大学和Meta团队首先证明了Avatar和头戴式摄像头图像之间的域差是相关困难的主要来源之一。基于transformer的架构在域一致数据方面实现了高精度,但当重新引入域差时,它会降低精度。
基于这一发现,团队开发了一种系统设计,将问题解耦为两个部分:接受域内输入的迭代细化模块,以及基于当前表情和头部姿势估计的通用Avatar引导的图像到图像样式传递模块。
这两个模块相互加强,因为当显示接近ground truth的示例时,图像样式传递变得更容易,并且更好的域间隙去除有助于配准。系统能够有效地产生高质量的结果,并且避免了昂贵的离线配准来生成个性化标签的需要。在商用头显进行的大量实验验证了方法的准确性和效率,证明了直接回归方法和离线配准的显着改进。
近年来,图像真实感Avatar创建工作取得了巨大的进展。在神经表征和神经渲染技术进步的推动下,现在甚至可以从手机扫描或单目视频等有限的捕获中生成高度准确的个体表征,同时支持交互式应用的实时渲染。
逼真的质量是通过学习人类外表的通用先验模型来实现,而它可以针对新用户进行个性化设置。这种Avatar的一个新兴用例是在VR中实现社交。然而,这个应用程序提出了一个特殊的问题:用户的面部通常遭到VR头显的遮挡。
所以,它依赖于头戴式摄像头来为用户的Avatar制作动画。尽管已经证明了准确的结果,但它们仅限于特定个人的情况,其中Avatar和头戴式摄像头图像之间的对应对是使用额外的复杂捕获设备获得。
对于更普遍的情况,高度精确的追踪依然是一个尚未解决的问题,因为当用户戴着VR头显时,需要专门为用户的个性化Avatar设计通用编码器。尽管快速自适应方法已经得到了一定的研究,但一个尚未解决的挑战是如何获得高质量的图像标签对,特别是在倾斜摄像头角度、时间限制、以及头戴式摄像头图像与Avatar渲染之间的图像域差之下。
在研究中,斯坦福大学和Meta团队证明了通用的面部表情配准可以准确有效地支持未知特征和具有挑战性的视角。
他们首先证明,当头戴式摄像头的模式(通常是红外)和用户的Avatar匹配时,可以使用一种新的基于transformer的网络来迭代改进表情估计和头部姿势,并仅从图像特征中得到准确的结果。
所述方法假设不需要头像提供landmark。基于这一发现,团队提出学习从camera域到avatar域的交叉特征样式传递函数。这里的核心挑战在于,由于头戴式摄像头呈现了具有挑战性的面部视角,对样式转递存在高保真要求。即便是几个像素的误差都会对预估角色的表情产生重大影响。
为了解决这个问题,系统的一个关键设计是利用迭代表达和头部姿势估计,以及一个样式传递模块,而它们可以相互加强。一方面,给定高质量的样式转换模块,迭代的细化过程变得越来越容易。
另一方面,当一个细化的表情和姿态估计更接近groundtruth时,样式传递网络可以很容易地使用输入的头戴式摄像头图像,并以多个参考avatar渲染为条件进行局部推理,以消除域间隙。
为了证明方法的有效性,团队在208个特征的数据集进行了实验,其中每个特征都是在多视图捕获系统[和改版Quest Pro中捕获(后者用于提供摄像头和avatar之间的groundtruth对应)。
与直接回归方法相比,团队的迭代构造对未知特征的新外观变化具有显着提高的鲁棒性。
相关论文:Fast Registration of Photorealistic Avatars for VR Facial Animation
总的来说,团队提出了一种通用的前馈方法,以用于在倾斜视角的单色图像上有效地配准逼真的3D Avatar。研究表明,缩小渲染图像与头戴式图像之间的域差是实现高配准质量的关键。受此启发,团队将问题分解为两个模块,样式传递和迭代改进,并呈现一个强化另一个的系统。
在实际捕获数据的大量实验表明,系统的配准质量优于直接回归方法,并且可以在线使用。所述方法为快速高效地生成高质量的神经渲染Avatar标签提供了可行的路径。这将能帮助用户在VR中拥有逼真的远程呈现体验,无需大量的数据捕获。