雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

英伟达、高校研究员等提出3D感知注视重定向方法GazeNeRF

查看引用/信息源请点击:映维网Nweon

3D感知注视重定向方法

映维网Nweon 2023年09月08日)注视重定向是指在不改变latent参数的情况下,操纵人脸的输入图像,使得输出图像中的人脸看起来是朝着给定的目标方向。注视重定向存在一系列的应用,例如在元宇宙中增强Avatar的真实感。

现有的注视重定向方法将任务表述为二维图像处理问题,要么通过扭曲输入图像的选择像素,要么通过深度生成模型合成新图像。由于无法生成新的像素,图像扭曲方法不能模拟大的变化。另外,尽管2D生成模型可以产生高质量的图像,并允许大的祖师方向变化,但它们没有考虑到任务的3D性质,并可能导致时空或identity不一致。

在名为《GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields》的论文中,由苏黎世联邦理工学院、荷兰代尔夫特理工大学、英伟达和英国伯明翰大学组成的研究人员提出将注视重定向重新定义为3D任务,并提出了一种新的3D感知注视重定向方法GazeNeRF。

团队的方法利用了基于图像的条件神经辐射场NeRF的最新进展来继承生成高质量图像的能力。人脸和眼睛不是一个整体的3D结构,而是由两个3D结构组成。所以,研究人员使用神经辐射场模型将这两个结构建模为单独的feature volume。

对于这一点,这一概念与EyeNeRF有相似之处,但后者的重点是高保真渲染和重照明质量,而前者关注的是注视重定向的精度。

为了赋予神经辐射场架构3D感知注视重定向能力,团队提出了一种新的two-stream MLP结构,从而分别预测眼球和面部区域的feature映射。其中,two-stream是指面部stream和眼睛stream。

如上图所示,GazeNeRF由基于神经辐射场的two-stream MLP结构组成。所述结构以目标gaze label为条件以生成逼真的面部图像。同时,对GazeNeRF的眼睛stream应用三维旋转变换R。

换句话说,眼睛区域的特征通过所需的3D旋转矩阵进行交换,然后通过可微体渲染合成相关区域。

随着眼球的明确分离,GazeNeRF严格旋转3D特征,而实验证明这有利于注视重定向的准确性。

上图是GazeNeRF的管道概述。GazeNeRF训练了一个two-stream MLP结构,通过基于神经辐射场的模型来学习无眼睛特征Ffw/o和两只眼睛特征Fe的面部3D感知。

为了模拟两个眼球的刚性旋转,研究人员将Fe与注视旋转矩阵R相乘为Fe-rot。Ffw/o和Fe-rot通过最大运算合并为Fwf。这三个特征然后用来渲染没有眼睛的人脸Ifw/o、眼睛Ie和完整的眼+脸图像Ifw。

为了能够训练模型,研究人员提出了在two-stream MLP的末端进行特征组合和额外的训练损失来增强注视重定向的功能。

上图是分别基于GazeNeRF,STED和HeadNeRF的ETH-XGaze生成图像。所有的人脸都用蒙版来移除背景。

它清楚地表明,GazeNeRF可以为不同的注视方向和头部姿势生成逼真的面部图像。STED在生成的人脸图像中存在identity信息丢失的问题,这在表1中定量验证为“identity similarity”。

另外,STED在处理极端的头部姿势(左第二行和右第一行)方面存在困难,因为生成的面部会从目标姿势偏移。

对于HeadNeRF,仅以gaze label为输入条件的单个MLP的特征映射不足以控制不同注视方向(最后一行)的眼睛外观。尽管HeadNeRF的大部分结果可以保留面部identity,但其余的结果无法生成细粒度的眼睛(第二行)。

与这两种最先进的方法相比,GazeNeRF可以生成更好的面部图像,包括在极端的头部姿势下(从右起中间两排)。

表2比较了在注视和头部重定向错误的程度、LPIPS和identity similarity方面,GazeNeRF与其他最先进的方法在ColumbiaGaze、MPIIFaceGaze和GazeCapture数据集的表现。

可以看出,GazeNeRF均取得了优异的综合成绩,尤其是GazeCapture数据集,在Gaze,Head和LPLPS均位列第一,而identity similarity方面仅略微低于HeadNeRF。

表3是GazeNeRF和其他变体在注视和头部重定向错误程度、重定向图像质量(SSIM、PSNR、LPIPS和FID)和identity similarity方面的比较。数据集是ETH-XGaze。

可以看出,基准模型vanilla-GazeNeRF在注视误差方面表现最差。two-stream的注视角和头部姿态角误差较小,这是由于two-stream-MLP结构将整个面部分为仅面部和眼睛部分。

我们同时可以看到,在two-stream的基础上对眼睛stream应用旋转矩阵有利于Two-stream+rotation的角度误差。另外,添加LF可以极大地改善注视误差,因为它使用了额外的注视估计器来最小化生成的图像与真实图像之间的注视相关不一致性。

在所有消融中,GazeNeRF通过利用two-stream-MLP结构的组合,对眼睛stream应用旋转矩阵,并使用LF,在注视和头部姿态角误差方面取得了最佳性能。在图像质量方面,GazeNeRF在SSIM和PSNR得分方面达到了最佳性能。

当然,团队再次强调,目标不是提高整体图像质量,而是提高注视重定向的准确性。

相关论文GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields

总的来说,团队提出的一个将3D感知引入注视重定向任务的方法GazeNeRF。考虑到注视重定向任务本身的3D性质,GazeNeRF由two-stream-MLP和对显式旋转组成。3D感知设计赋予了GazeNeRF在注视重定向任务方面的优势,并获得了多个数据集和消融研究的领先性能所证明。

研究人员指出:“我们相信GazeNeRF具有3D感知的优势,在下游应用方面具有巨大的潜力。”

当然,他们坦诚尽管具有上述优点,但GazeNeRF具有相同的NeRF模型限制,需要很长时间训练。所以,团队接下来将把减少训练时间的负担作为未来的工作方向。

本文链接https://news.nweon.com/112381
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯