加速AR对象分类,Facebook开源计算机视觉算法Detectron
文章相关引用及参考:roadtovr
Facebook今天正式开源基于深度学习框架的计算机视觉对象检测算法平台Detectron
(映维网 2018年01月24日)Facebook今天正式开源基于深度学习框架的计算机视觉对象检测算法平台Detectron。Facebook表示,开源项目是为了加速计算机视觉的研究。目前Facebook内部团队正把Detectron平台用于一系列的研究,比如增强现实。
在2017年9月30日的一篇文章中,映维网曾介绍过实时对象分类是AR面临的一大挑战:
令计算机视觉能够理解“杯子”,而不仅仅只是看到一个形状,这是一个非常重要的问题。所以这么多年来,我们在AR演示作品中看到人们把基准标记附加到对象身上,以实现更细致的追踪和交互。
为什么如此困难呢?第一个挑战在于分类。杯子有数千种形状,大小,颜色和纹理。部分杯子拥有特殊的属性和特殊的用途(如烧杯),这意味着不同的杯子被用于不同的场景和背景。
你可以想象编程这么一个可以帮助计算机了解所有上述概念的算法的挑战;你也可以想象编写一个向计算机解释杯子和碗之间区别的代码的挑战。
延伸阅读:远落后于VR,AR面临三大挑战:视场、分类、自适应设计
文章同时指出“深度学习”有可能是实时对象分类的其中一种解决方案。现在,Facebook已经正式开源了他们的对象检测算法,而这可能会加速开发能够进行实时对象分类的系统,从而赋予增强现实真正的功效。
如果没有对特定环境进行预编程,与我们周围世界进行交互的增强现实将需要粗略了解我们附近的情况。比方说,如果你正穿戴一款AR眼镜,然后你希望将烤箱温度投影到烤箱上方,同时在冰箱上方呈现出已经将近吃完的食物,这时AR眼镜将需要了解烤箱和冰箱的形状。考虑到烤箱和冰箱涵盖一系列不同的形状和样式,而且其摆放位置的不尽相同,这将成为一项极具挑战性的任务。
Facebook的人工智能研究团队与其他相关团队一直在研究如何通过深度学习来帮助计算机解决对象检测的问题,而这一基于Caffe2深度学习框架的对象检测算法名为Detectron。在正式托管至GitHub后(点击前往),现在任何人都可以自行实验。Facebook希望开源Detectron后将能帮助世界各地的计算机视觉研究人员尝试并不断改进最新的技术。
他们在GitHub页面上写道:“Detectron的目标是为对象检测研究提供高质量,高性能的代码库。Detectron十分灵活,能够支持新研究的快速实现与评估。”
算法可以检测视频输入,并能够猜测构成场景的离散对象。“Detecting and Recognizing Human-Object Interactions (Gkioxari et al)”等研究项目已经在应用Detectron,将其作为了解人类在环境中的行为的基础。
除了AI研究之外,诸如增强现实这样的其他内部团队同样在使用Detectron。Facebook在开源Detectron的声明中写道:“各支团队正在利用这个平台来为各种应用训练定制模型,包括增强现实…”
目前尚不清楚具体是哪支团队正在把Detectron用于增强现实,但一个可能答案是Oculus。早在F8大会期间,Oculus的首席科学家迈克尔·亚伯拉什就曾探讨过增强现实将如何和将于何时改变我们的生活。