SLAM动态特征+身形图像深度学习,Facebook提出全身姿态捕捉新方案
精确描述自我姿态
(映维网 2021年10月27日)增强现实和虚拟现实中的真正沉浸式体验需要由用户姿态的显式表征所驱动。特别地,其需要从设备的角度估计用户的姿态,这隐含地对应于以自我为中心的角度,亦即与用户3D头部和身体姿态相应对的“Egopose/自我姿态”。自我姿态驱动着在AR和VR中构建自然体验所需的必要输入。例如,世界锁定的自我姿态表示为用户与虚拟场景中的音视频对象交互提供了必要的输入。对于涉及真实人物和虚拟实体(如化身或全息图)组合的对话,其需要精确描述自我姿态,以实现多个扬声器之间的无缝切换,同时保持沉浸感。
自我姿态估计是一项具有挑战性的任务。现有的方法通常分为两类:基于非光学传感器的方法和基于摄像头的方法。基于传感器的方法依赖于磁性和惯性属性,并给出了自我姿态的稳健估计。然而,它们需要特殊设计且难以设置的设备,并且具有限定用户一般性移动的侵入性。
基于摄像头的方法则侵入性较小,可以在不同的环境中工作。其中一类方法依靠自上而下的朝内式摄像头来获得用户的最佳视图,而另一类方法则使用窄视场前向摄像头(用户不可见)。只要能够清楚地“看到”身体部位,前一种设置可以产生可靠的结果,但朝内式摄像头需要向前延伸,以避免鼻子和脸颊被遮挡。当用户离开视场时,姿态估计将完全失败。后一种设置的优点是在看不到用户的情况下估计自我姿态,但它难以解析模糊的身体姿态,尤其是手臂姿态。
在AR和VR设备中,摄像头靠近佩戴者的面部,视场与人眼相似。在大多数情况下,摄像头只能在周边视图中看到佩戴者的双手和身体其他部分,甚至在很大一部分时间里根本看不到佩戴者,比如说用户抬头的时候。这为“自我姿态”提供了一种全新的设置,并且在Facebook看来是一个尚未充分研究的领域。
在名为《Egocentric Pose Estimation from Human Vision Span》的论文中,团队提出了一个根据能够利用摄像头SLAM的动态特征和身形图像的深度学习系统。通过计算三维头部姿态、三维身体姿态、人物背景分离,同时显示执行姿态属性之间的特定几何一致性,无论用户是否在摄像头视场中可见,系统都能给出稳健的自我姿态估计。
在具体方法中,给定前向头戴式鱼眼摄像头在每个时刻t的视频帧序列{It},研究人员估计3D自我身体姿态Bt和自我头部姿态Ht。Bt是一个N×3身体关键点矩阵,Ht是一个2×3头部方向矩阵。自我身体姿态在局部坐标系中定义,在这个坐标系中,髋部线水平旋转,使其平行于xz平面,并且髋部线中心位于原点,如图1所示。
自我头部姿势由两个向量组成:面朝向f和头顶指向u。同时估计头部和身体姿态允许团队使用摄影头SLAM将身体姿态转换为全局坐标系。团队的目标是实时自我姿态估计,所以深度模型需要高效和准确。团队提出的系统是由一个头戴式前向鱼眼摄像头驱动,其视场约为180度。出于动机,类似于人类的视觉跨度,摄像头主要聚焦于前方的场景。在这种情况下,仅使用头部运动或可见部分图像进行自我姿态估计并不可靠。因此,论文提出的方法利用了所述两种信息流,并对组合进行了有效优化。整个系统架构如图2所示。操作顺序如下:在一个分支中,鱼眼视频和可选IMU用于提取全局坐标系中的摄像头姿态和位置。研究人员将摄像头的运动和位置转换为表示为运动历史图像的紧凑表示。运动特征网络处理运动历史图像以提取动态特征。另外,在平行分支中,鱼眼图像同时发送到形状网络以提取佩戴者的前景形状。然后,进一步从前景形状表示中提取形状特征。融合网络平衡并结合两个分支输出(动态特征和形状特征),并给出自我姿态估计值:初始身体关键点和头部姿态估计值。完成后,研究人员将使用3D方法进一步细化身体关键点,从而得出最终的自我姿态估计。在过程中,一次处理一个组件。
总结来看,Facebook Reality Labs的方案使用从摄像头SLAM获得的动态运动信息和偶尔可见的身体部位进行预测。除了预测自我姿态外,模型同时计算自我姿态视图中的三维头部姿态和人物背景分离。由于头部和身体姿态的这种联合估计,研究人员可以在推理过程中执行一定的几何一致性,从而进一步改进结果,并能够在全局坐标系中使用摄像头SLAM信息重新定位自我姿态。
其次,这个方法允许佩戴者在视场中不可见,而在佩戴者部分可见的情况下,所述方法可以利用运动和可见的形状特征来进一步改善结果。
再次,自我姿态估计的最大挑战之一是高质量数据集的可用性。为数百名受试者拍摄同步的自我姿态视频和身体/头部姿态需要花费大量精力。在这项工作中,团队尽可能地利用现有数据集,特别是利用过去几十年收集的动捕数据。所述动捕据通常只捕捉身体关节的运动,不包括自我姿态的视频。在其为基础上,研究人员同时提出了一种不仅能够合成虚拟视图自我姿态图像,而且可以合成与姿势变化相关的动态信息的方法。实验表明,这种合成数据集在真实视频上具有很强的泛化能力。最后,由于主要应用是AR和VR设置,所以团队提出了低延迟设计的模型以部署在实时应用中。
对于这篇论文,Facebook主要介绍并解决了一个新的问题:从人类的视觉跨度估计佩戴者的自我姿态。这是一项具有挑战性的任务,主要是由于佩戴者的视场非常有限,而且佩戴者在视场中完全不可见。研究人员提出了一种新的两阶段深度学习方法,利用新的运动历史图像特征和身体形状特征。我们同时估计头部和身体姿态,同时显式执行几何约束。评估显示这一模型的性能出色,对摄像头设置的变化具有鲁棒性。同时,它能够利用合成数据源,从而避免重新收集大型新数据集。