Facebook公布最新AI成果:如何理解真实世界3D对象

查看引用/信息源请点击:映维网

开发对真实世界有着进一步理解的系统

映维网 2019年11月01日)为了解释周围的世界,AI系统必须理解三维视觉场景。这种需求不仅只局限于机器人技术,同时包括导航,甚至是增强现实应用。即便是2D照片与视频,所描绘的场景和对象本身都属于三维。真正智能的内容理解系统必须能够视频中识别出杯子旋转时的把手几何形状,或者识别出对象是位于照片的前景还是背景。

日前,Facebook公布了多项能够推进3D图像理解的AI研究项目。虽然不尽相同,但互为补充。正在国际计算机视觉大会(International Conference on Computer Vision)进行演示的项目涉及一系列的用例和情形,包含不同种类的训练数据和输入。

  • Mesh R-CNN是一种新颖的,先进的解决方案,可以通过各种现实世界2D图像预计最精确的3D形状。这个方法利用了Facebook的Mask R-CNN框架进行对象实例分割,其甚至可以检测诸如凳脚或重叠家具等复杂对象。
  • Facebook指出,通过利用Mesh R-CNN的替代和补充方法C3DPO,他们是第一个通过解释3D几何形状而在三个基准上成功实现非刚性形状的大规模3D重建,对象类别涉及14种以上。需要注意的是,团队仅使用2D关键点来实现这一目标,零3D注释。
  • Facebook提出了一种新颖的方法来学习图像与3D形状之间的关联,同时大大减少了对含注释训练示例的需求。这使得团队更接近于开发出能够为更多种类对象创建3D表示的自我监督系统。
  • Facebook团队同时开发了一种称为VoteNet的新颖技术,其可以利用LIDAR或其他传感器的3D输入执行对象检测。尽管大多数传统系统都依靠2D图像信号,但这个系统完全基于3D点云。与以前的研究相比,它可以实现更高的精度。

这项研究的基础包括:利用深度学习来预测和定位图像中对象的最新进步,以及用于3D形状理解的全新工具和架构(如体素,点云和网格)。计算机视觉领域已经扩展到各种各样的任务,但3D理解将在支持AI系统进一步理解现实世界和执行相关任务方面发挥核心作用。

1. 以高精度预测非约束遮挡对象的3D形状

......(全文 3927 字,剩余 3234 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/68183
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯