微软研究提出单纯依靠密集Landmark实现逼真人脸3D重建
人脸重建
(映维网Nweon 2022年08月18日)Landmark通常在人脸分析中起着关键作用,但关于身份或表情的众多方面无法仅用稀疏Landmark来进行表示。为了更精确地重建人脸,行业通常将Landmark与深度图像等附加信号或微分渲染等技术相结合。但令研究人员好奇的一个问题是:为了进一步简化流程和优化资源利用,是否可以单纯依靠(密集)Landmark来实现逼真的人脸重建呢?
在2022年欧洲计算机视觉会议(European Conference on Computer Vision),微软提出了自己的解决方案:单纯依靠密集Landmark来实现逼真人脸重建。其中,团队表示相关方法可以准确预测十倍于平常的Landmark,覆盖整个头部,包括眼睛和牙齿。
正如前面所述,微软表示他们的方法可以准确预测十倍于平常的Landmark,覆盖整个头部,包括眼睛和牙齿。简单来说,这是通过使用合成训练数据来实现,从而保证了完美的Landmark标注。
概括而言,团队的方法主要包括两步:
-
首先预测概率密集Landmark L,每个Landmark都具有位置µ和确定性σ。
-
然后,研究人员将3D人脸模型拟合到L,通过优化模型参数Φ最小化能量E
值得注意的是,尽管人类可能会始终使用68个Landmark标记图像,但手动使用密集Landmark标注图像是不可能的。为了保证完美的Landmark标注,微软使用人脸合成系统渲染了100000张合成训练图像。团队指出,没有合成数据提供的完美注释,密集地标预测是不可能的。
通过将可变形模型拟合到密集Landmark,研究人员实现了自然场景下最先进的单目3D人脸重建结果。通过在单目和多视图场景中展示准确和富有表现力的面部表现捕捉,团队表明密集的Landmark是跨帧整合面部形状信息的理想信号。实验比较证明了所述方法的高效性:可以预测密集Landmark,并在单个CPU线程以超过150FPS的速度拟合3D人脸模型。