谷歌研究分享：从RGB图像准确估计透明对象的三维姿态

编辑：刘余欣 | 分类：论文 | 2020年9月4日

加入映维网会员

这一网络十分高效和准确

（映维网 2020年09月04日）三维对象的位置和方向估计是计算机视觉应用的核心问题之一。对于涉及到增强现实和机器人操作等对象级感知的计算机视觉用例中，其需要知晓对象在世界中的三维位置，从而直接影响它们或者正确地将模拟对象放置在它们周围。尽管业界已经利用机器学习技术（特别是Deep Nets）来对这一主题进行了大量研究，但大多数依赖于深度传感设备的使用，如可以直接测量对象距离的Kinect。对于具有光泽或透明的对象，直接深度感测效果不佳。如下图所示，深度设备难以为透明的星星膜具确定合适的深度值，并且实际的3D点重建效果非常糟糕（右）。

谷歌研究分享：从RGB图像准确估计透明对象的三维姿态

解决所述问题的一个方法是，使用一个深度神经网络来修复透明对象的损坏深度图。例如，给定透明对象的单个RGB-D图像，ClearGrap可以使用深卷积网络来推断表面法线、透明表面的掩膜，以及遮挡边界，并用来优化场景中所有透明表面的初始深度估计（上图最右侧）。这种方法非常具有前景，它允许通过基于深度的姿态估计方法来处理具有透明对象的场景。但涉及修复可能相当棘手，尤其是在完全使用合成图像进行训练时，而且依然可能导致深度错误。

在谷歌与斯坦福人工智能实验室（Stanford AI Lab）合作撰写的CVPR 2020论文《KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects》中，团队描述了一个通过直接预测3D关键点来估计透明对象深度的机器学习系统。为了训练系统，团队以半自动化的方式收集一个透明对象真实世界数据集，并使用手动选择的三维关键点来有效地标记它们的姿态。然后，谷歌训练了名为KeyPose的深度模型，使其能够根据单目图像或立体图像端到端地估计3D关键点，不需要显式计算深度。在训练过程中，模型可以处理可见对象和不可见对象，包括单个对象和对象类别。尽管KeyPose可以处理单目图像，但立体图像提供的额外信息使其能够在单目图像输入的基础上将结果优化两倍。根据对象的不同，典型误差仅为5毫米到10毫米不等。在对象的姿态估计方面，它比最先进的方法有了实质性的改进。谷歌正已经公开相关的数据集。

......（全文 1704 字，剩余 959 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限