微软提出FLAG：从稀疏头显信号生成AR/VR化身全身姿势

编辑：刘余欣 | 分类：微软 / 论文 | 2022年5月10日

生成逼真的人体表现

（映维网Nweon 2022年05月10日）混合现实技术提供了全新的人机交互方式，而人是所有应用的核心。所以，生成逼真的、高保真的人类表示是用户体验的关键。尽管外部传感器和摄像头可以提供相当出色的效果，但仅通过头显来生成逼真的人体表现依然是一个具有挑战性的问题。从HoloLens和Quest等头显获取的相关数据仅限于头部的位置和方向，以及手的位置和方向。对于整体人身姿势和运动来说，这是一个非常不完整的信号。

在《FLAG: Flow-based 3D Avatar Generation from Sparse Observations》的论文中，微软提出了一种基于稀疏输入的conditional normalizing flows的新方法。具体来说，团队通过Flow-based模型学习给定头部和手部数据的全身姿势条件分布，而所述模型能够在3D姿势分布和基础分布之间实现可逆映射。然后，模型的可逆性允进一步学习从条件到相同基础分布中的高likelihood区域的概率映射。研究人员将这种方法命名为Flow-based 3D Avatar Generation（FLAG）。

这种设计的优点主要包括：

首先，与基于VAE的姿势先验中的近似likelihood相比，使用Flow-based生成模型可以实现精确的姿势likelihood计算；
其次，生成模型的可逆性允许计算oracle latent code。在训练过程中，oracle latent code将充当映射函数的ground truth。这使得能够学习从观察到的头部和手到latent空间的代表性映射，从而令所述方法成为一个强大的预测模型；
最后，当在posed空间或latent空间中进行优化时，使用所述模型作为姿势先验，可以在latent空间提供优越的初始化，使得优化非常有效。

将Normalizing Flows作为likelihood-based生成模型，这为数据的表达概率分布提供了一条途径。与VAEs不同，VAEs的主要挑战是找到合适的近似后验分布， Normalizing Flows只需要定义简单的基础分布（先验分布）和一系列双射变换。

对于微软提出的方法，团队的任务是在给定稀疏观测xH和形状参数β的情况下生成全身姿势xθ。xθ∈ R3×J表示关节旋转，作为J身体关节的轴角向量，而xH∈ R9×K代表全局6D关节旋转。所述信息可以从人体的参数模型中获得，例如SMPL。

......（全文 2995 字，剩余 2296 字）

wx_mp