简述基于计算机视觉的各种追踪解决方案
不同类型的追踪
(映维网 2019年10月15日)在谈论计算机视觉时,“追踪”一词经常出现。追踪的种类有很多,具体需要取决于追踪内容,追踪方式,以及要实现的目标。在这篇博文中,英特尔向我们介绍了不同类型的追踪,它们在上层方面的工作方式,以及潜在的用例。本文不探讨将传感器附着到对象的追踪技术,如RFID标签。下面是映维网的具体整理:
1. 骨骼追踪
骨骼追踪的存在已有一段时间,而你以前可能已经见过,只是没有意识到而已。微软Kinect是最早的消费者骨骼追踪示例之一,它主要是利用人体运动数据来支持玩家与游戏交互。
骨骼追踪系统通常使用深度摄像头来获得最可靠的实时结果,但同时可以使用带有开源软件的2D摄像头并以较低的帧频追踪骨骼。
简而言之,骨骼追踪算法可识别一个或多人的存在,以及他们头部,身体和四肢的位置。某些系统同时可以追踪手部或特定手势,但并非所有骨骼追踪系统都如此。大多数系统可以识别一系列的关节,如肩膀、肘部、腕部。然后,系统将在所有已识别的关节之间绘制线条,并用某种元素来代表头部/颈部。
任何种类的深度摄像头都可以帮助骨骼追踪系统消除重叠/遮挡对象或肢体之间的歧义,并且相较于纯2D摄像头算法进一步适应不同的光照条件。今天,一系列的骨骼追踪解决方案都支持英特尔实感深度摄像头。
对于更多关于骨骼追踪的见解,你可以参阅以下这个视频(Philip Krejov介绍了用英特尔实感深度摄像头来在VR/AR追踪进行身体追踪)。
2. 手势追踪和手部追踪
手势追踪和手部追踪容易混淆,而它们确实存在共同点:两者都允许用户使用手部来与某种形式的数字内容进行交互。但是,我们通常可以将手势追踪视为仅限于配合手指姿态的特定手形,比如说拳头或OK手势。这种系统的优点是,它通常可以以高置信度识别手势,缺点是人类用户通常最多只能记住五个手势及其代表意思。要训练用户掌握具有更多手势的复杂系统,并且不会混淆,这通常需要更长的时间。
手部追踪系统通常没有手势追踪系统明确,而它与骨骼追踪类似。大多数手部追踪系统一般是识别手指关节和骨骼,通常是用某种深度摄像头来帮助解决遮挡和歧义情况。与单个手势系统相比,手部追踪系统允许用户与数字内容进行更复杂的交互,因为各个手指可以通过多种方式与虚拟内容交互,如移动对象,缩放对象,按压虚拟按钮等等。
3. 对象追踪
对象追踪涉及两个通常与之关联的独立功能:对象检测和分类;追踪对象移动的目标位置。利用机器学习或深度学习,我们可以使用多种方法来检测对象。机器学习涉及利用已分类和标记的数千幅图像来训练系统,并通过所述数据识别新图像中的未知对象。你可以访问这个页面进行尝试,系统可识别你上传或链接的任何图像。
对于视频或实时摄像头馈送,一旦检测到对象,你就可以以类似的方式逐帧操作,从而追踪围绕所述对象的边界框。例如,在视频中逐帧追踪车辆。
4. 人像追踪
取决于追踪系统的最终目标,人像追踪可以看作是对象追踪(如确定商店中购物者的数量)或骨骼追踪(支持人们与数字标牌交互)的子集。根据用例的不同,你可以采用手势追踪方法或骨骼追踪方法,或通过对象追踪方法来识别一帧中的人像。
5. 眼动追踪/注视点追踪
眼动追踪/注视点追踪允许你仅使用眼睛来与数字系统进行交互。眼动追踪系统涉及指向某人面部或靠近其眼睛的摄像头(深度摄像头或其他)。通过追踪眼睛的运动(特别是瞳孔),系统可以测量用户的视线方向。这在常规分析中非常有用:能够确定用户关注的内容元素可以提供有价值的用户体验见解。它在辅助功能解决方案中同样非常有用,因为眼动追踪可以减少或消除通过鼠标键盘来与屏幕进行交互的需求。例如,对于腕道症候群患者而言,基于眼动追踪的交互可能会感觉更舒适。Eyeware是支持英特尔实感D400系列深度摄像头进行眼动追踪/注视点追踪的软件。
6. SLAM追踪
即时定位于地图构建(SLAM)是一个不同于上面所述追踪方案的概念。主要区别在于,SLAM设备能够追踪自身相对于世界的运动,它不是追踪摄像头视场内的对象的运动。诸如英特尔实感追踪摄像头T265这样的SLAM设备结合了惯性传感器和来自两个摄像头的视觉输入,从而能够精确追踪自身在空间中的运动。这种技术在虚拟现实和增强现实头显中非常有用。微软Hololens,以及Rift S和Oculus Quest都采用了自家的SLAM追踪方法(有时称为内向外追踪)。SLAM追踪对于机器人技术和无人机同样十分有用,因为确定某物在的位置,以及它在空间中的移动方式可允许其精确地导航世界。