雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Facebook用手机实现全身动捕追踪,准确检测身体姿势,从背景分割人像

文章相关引用及参考:fb

Facebook AI Camera团队今天公布了一份论文,介绍了如何在VR或AR环境中进行全身替换或追踪。

映维网 2018年01月26日)Facebook正在娱乐和通信两方面大力投资AR和VR并不是什么秘密。据映维网了解,最新的研究表明,Facebook并不只是在研发可以修改或取代人脸的AR应用,他们同时在研发可以取代整个身体的AR应用。

Facebook AI Camera团队今天公布了一份论文,介绍了如何在VR或AR环境中进行全身替换或追踪。Facebook的研究人员写道:

“为了用化身来替换整个身体,我们需要实时准确地检测和追踪身体动作。这是一个非常具有挑战性的问题,因为姿势和特征的变化很大。一个人可能是就座,走路或跑步状态。她或他可能穿着长外套或短裤。而且,一个人经常会被其他人或物体阻挡。所有这些因素都大大增加了稳定身体追踪系统的难度。

Facebook最近开发了一种全新的技术,可以准确地检测身体姿势并从背景中分割出人像。目前Facebook的模型还处于研究阶段,但体积只有数M大小,可以在智能手机上实时运行。或许在未来某一天中,它可以支持实现一系列的创新应用,例如创建身体遮罩或者使用手势来控制游戏等等。”

1. MaskRCNN2Go架构

Facebook的身体检测和分割模型基于Mask R-CNN框架。这是一个概念简单,灵活和通用的对象检测和分割框架,可以高效地检测图像中的对象,同时能够预测关键点和为每个对象生成分割遮罩。为了在移动设备上实时运行Mask R-CNN模型,Facebook Camera的研究人员和工程师与FAIR和AML团队进行了合作,他们构建了一个高效轻便的框架:Mask R-CNN2Go。(值得一提的是,Mask R-CNN框架曾获得ICCV 2017的最佳论文奖)。

Mask R-CNN2Go模型包含5个主要的元素:

  1. Trunk Model包含多个卷积层,并生成输入图像的深度特征表示。
  2. 区域提议网络(region proposal networ,RPN)以预定义的比例和纵横比(定位点)提出候选对象。ROI-Align层则从每个对象边界框中提取特征并将它们发送到Detection Head。
  3. Detection Head包含一组卷积,共享和完全连接的层。对于每个候选框,它将预测这个对象属于人的可能性。Detection Head同时精细了边界框坐标,用非最大值抑制(non-max suppression)来对相邻的边界框进行分组,并为图像中的每个人生成最终的边界框。
  4. 根据每个人的边界框,我们使用第二个ROI-Align层来提取特征,而这些特征是Key Point Head和Segmentation Head的输入。
  5. Key Point Head和Segmentation Head具有相似的结构。这为身体上的每个预定义关键点预测一个掩码。一次最大扫描将用于生成最终坐标。

2. 为移动设备的轻便模型

与现代GPU服务器不同,手机的计算能力和存储空间有限。原来的Mask R-CNN型号是基于又大又慢的ResNet,无法在手机上运行。为了解决这个问题,Facebook为移动设备开发了一个非常有效的模型架构。

Facebook应用了数种方法来减小模型的大小。他们优化了卷积层的数量和每层的宽度(处理中最耗时的部分)。为了确保足够大的感知视场,Facebook使用了包括1×1,3×3和5×5的内核大小组合。Facebook同时利用了重量修整来减小尺寸。最终的模型只有几M字节,而且非常准确。

3. 模块化设计提高了计算速度

为了实时运行深度学习算法,Facebook利用并优化了核心框架,集成NNPack的Caffe2,SNPE和Metal。通过使用包括NNPack,SNPE和Metal的移动CPU和GPU库,能够显着提高移动计算速度。所有这一切都是通过模块化设计完成,不需要改变一般的模型定义。因此,既可以获得较小的模型大小,又可以获得较快的运行时间,同时避免潜在的不兼容问题。

Facebook AI Research最近已经开源了Mask R-CNN研究平台(Detectron)。Facebook同时为社区提供了Caffe2运算符的开源实现(GenerateProposalsOp,BBoxTransformOp,BoxWithNMSLimit和RoIAlignOp)和必要的模型转换代码。

4. AR与VR

众所周知,身体追踪在AR和VR领域存在广泛的应用。然而,当前的AR和VR应用对设备计算和内存的要求非常高。Facebook正在努力实现高效和轻便的模型,亦即支持在传感器数据,图像分辨率和刷新率,可用处理能力等方面存在诸多严格限制的设备。

毫无疑问,Facebook的Mask R-CNN是朝着这一方向迈进的重要一步。可以肯定的是,Facebook在未来将会为我们带来更多相关的研究。

相关论文:Facebook Mask R-CNN

本文链接https://news.nweon.com/40872
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯