谷歌研究分享:从RGB图像准确估计透明对象的三维姿态
这一网络十分高效和准确
(映维网 2020年09月04日)三维对象的位置和方向估计是计算机视觉应用的核心问题之一。对于涉及到增强现实和机器人操作等对象级感知的计算机视觉用例中,其需要知晓对象在世界中的三维位置,从而直接影响它们或者正确地将模拟对象放置在它们周围。尽管业界已经利用机器学习技术(特别是Deep Nets)来对这一主题进行了大量研究,但大多数依赖于深度传感设备的使用,如可以直接测量对象距离的Kinect。对于具有光泽或透明的对象,直接深度感测效果不佳。如下图所示,深度设备难以为透明的星星膜具确定合适的深度值,并且实际的3D点重建效果非常糟糕(右)。

解决所述问题的一个方法是,使用一个深度神经网络来修复透明对象的损坏深度图。例如,给定透明对象的单个RGB-D图像,ClearGrap可以使用深卷积网络来推断表面法线、透明表面的掩膜,以及遮挡边界,并用来优化场景中所有透明表面的初始深度估计(上图最右侧)。这种方法非常具有前景,它允许通过基于深度的姿态估计方法来处理具有透明对象的场景。但涉及修复可能相当棘手,尤其是在完全使用合成图像进行训练时,而且依然可能导致深度错误。
在谷歌与斯坦福人工智能实验室(Stanford AI Lab)合作撰写的CVPR 2020论文《KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects》中,团队描述了一个通过直接预测3D关键点来估计透明对象深度的机器学习系统。为了训练系统,团队以半自动化的方式收集一个透明对象真实世界数据集,并使用手动选择的三维关键点来有效地标记它们的姿态。然后,谷歌训练了名为KeyPose的深度模型,使其能够根据单目图像或立体图像端到端地估计3D关键点,不需要显式计算深度。在训练过程中,模型可以处理可见对象和不可见对象,包括单个对象和对象类别。尽管KeyPose可以处理单目图像,但立体图像提供的额外信息使其能够在单目图像输入的基础上将结果优化两倍。根据对象的不同,典型误差仅为5毫米到10毫米不等。在对象的姿态估计方面,它比最先进的方法有了实质性的改进。谷歌正已经公开相关的数据集。
相关论文:KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects
具有3D关键点标签的真实世界透明对象数据集
为了加速收集大量真实世界图像,谷歌建立了一个机器人数据采集系统。在这个系统中,一个机器人手臂通过轨迹移动,并同时使用两个设备(一个立体摄像头和一个Kinect Azure深度摄影头)拍摄视频。

位于目标的AprilTags可以精确追踪摄像头的姿态。通过在每个视频中用2D关键点手工标记少数图像,团队可以使用多视图几何体为视频的所有帧提取3D关键点,从而将标记效率提高100倍。
团队拍摄了15种不同透明对象的图像,并使用了10种不同的背景纹理,其中每个对象4种不同的姿态,而这总共产生了600个视频序列,包括48K立体图像和深度图像。研究人员同时对不透明对象拍摄了相同的图像,从而提供精确的地ground truth图像。所有的图像都用3D关键点标记。谷歌将公开这个真实世界图像数据集,并作为合成的ClearGrap数据集的补充。
......(全文 1704 字,剩余 640 字)


