微软提出FLAG:从稀疏头显信号生成AR/VR化身全身姿势

查看引用/信息源请点击:映维网Nweon

生成逼真的人体表现

映维网Nweon 2022年05月10日)混合现实技术提供了全新的人机交互方式,而人是所有应用的核心。所以,生成逼真的、高保真的人类表示是用户体验的关键。尽管外部传感器和摄像头可以提供相当出色的效果,但仅通过头显来生成逼真的人体表现依然是一个具有挑战性的问题。从HoloLensQuest等头显获取的相关数据仅限于头部的位置和方向,以及手的位置和方向。对于整体人身姿势和运动来说,这是一个非常不完整的信号。

在《FLAG: Flow-based 3D Avatar Generation from Sparse Observations》的论文中,微软提出了一种基于稀疏输入的conditional normalizing flows的新方法。具体来说,团队通过Flow-based模型学习给定头部和手部数据的全身姿势条件分布,而所述模型能够在3D姿势分布和基础分布之间实现可逆映射。然后,模型的可逆性允进一步学习从条件到相同基础分布中的高likelihood区域的概率映射。研究人员将这种方法命名为Flow-based 3D Avatar Generation(FLAG)。

这种设计的优点主要包括:

  • 首先,与基于VAE的姿势先验中的近似likelihood相比,使用Flow-based生成模型可以实现精确的姿势likelihood计算;
  • 其次,生成模型的可逆性允许计算oracle latent code。在训练过程中,oracle latent code将充当映射函数的ground truth。这使得能够学习从观察到的头部和手到latent空间的代表性映射,从而令所述方法成为一个强大的预测模型;
  • 最后,当在posed空间或latent空间中进行优化时,使用所述模型作为姿势先验,可以在latent空间提供优越的初始化,使得优化非常有效。

将Normalizing Flows作为likelihood-based生成模型,这为数据的表达概率分布提供了一条途径。与VAEs不同,VAEs的主要挑战是找到合适的近似后验分布, Normalizing Flows只需要定义简单的基础分布(先验分布)和一系列双射变换。

......(全文 2977 字,剩余 2386 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/96924
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯