为VR实现「手势识别」需要攻克哪些难点
本文来自于源域科技创始人兼CEO李子琪(微信:licn2014)
(映维网 2019年10月09日)先放一个视频,是网络搜集的各种手部交互产品及VR游戏内容的剪辑。能够帮助理解手部交互在VR中是多么关键的事情。
手部交互在VR中的作用
“手势识别”通常依赖更基础的“动作捕捉”(追踪)。良好可靠的动捕能够轻易推导出精确的手势识别结果,反之不成立。
李子琪将出席10月12日由映维网和IDG联合举办的广州2019小蛮腰科技AR/VR大会,并将发表《VR未来硬件交互范式探讨》主题演讲,欢迎有兴趣的朋友报名参会探讨、合作
一:四个基础条件
VR终极手部交互范式并不是单纯的“手势识别”,它要满足4个基础条件,这些条件同时也是需要攻克的难点:
1. 空间定位:理想的空间定位能力,得到手部与人眼(头显)的精准相对位置关系,是正确渲染及交互的基础;
2. 手部追踪:一只正常人手大概有二十多自由度,加上手腕小臂总计约28个,追踪需要精准,可靠,低延迟;
3. 触觉反馈:给人以更明确更加符合直觉的反馈效果(基于视觉原理的裸手操作难以给人明确的反馈);
4. 工业设计:(实体外设需轻便以降低疲劳,同时不会影响手部自身活动等,以及符合人体工程学佩戴舒适等)
四个基础条件中的『1. 空间定位』与『2. 手部追踪』有时可作为一个整体讨论,统称为追踪定位能力,是手部交互的基石,也是通常学术界所看重的技术难点。
手部追踪定位能力决定了人在虚拟世界能否像现实世界中一样自由使用灵巧的双手。
低品质的追踪定位增加了用户疲劳度,降低了输入效率(要将手置于可识别区域以减少追踪失效,增大动作幅度以弥补精度不足或自由度的缺失),以及带来不确定性输入的困扰。
(可类比设想使用鼠标时,光标漂移,光标消失,移动精度不足,以及按键失灵等问题)。
同时追踪定位能力是『3. 触觉反馈』的前置条件,决定了能否在准确的位置和时间触发产生反馈效果。
所有VR手部追踪产品只需对照这四点基础条件进行判断。
二:计算机视觉方案
由于视野以及手部的自遮挡等原因无法解决『2. 手部追踪』中的可靠性问题,手部需保持在摄像头视野中以导致疲劳。同时无法提供『3. 触觉反馈』,引发用户困扰。
LeapMotion,微软HL2的手部追踪,OC6上Oculus Quest推出的手部追踪,代表了人类在以计算机视觉为基础的手部追踪的最高水准。已经展示出了双手自然交互的魅力,并已经在许多低交互需求的场景产生价值。然而依旧受原理机制的天花板所限制,低品质的追踪定位能力并不能提供真正可靠舒适的交互体验。
LeapMotion公司从融资近亿美金到最终3000万被收购,已经充分说明了基于计算机视觉的手部交互技术的局限性。
需要说明的是AR环境与VR有所差异,为了开放的外部现实环境,即使体验相对较差,AR也会优先采取裸手方案。相比VR环境已成为基础配置的6DoF手柄交互以及专门设计优化的OculusTouch和Knuckles手部控制器,当今AR头显更多采用效果差强人意的3DoF遥控器和基于计算机视觉的裸手方案。
延伸阅读:Oculus Quest手部追踪体验手记
三:肌电控制方案
该技术本身对『1. 空间定位』、『2. 手部追踪』、『3. 触觉反馈』三项技术难点均无法解决至够好的程度。肌电信号反映的是肌肉收缩所产生的生物电,用户个体肌肉生理差异大。肌电是肌肉收缩(用力)的信息,与手指等位置的信息本质有所不同。以及为了平滑不可靠的肌电信号会引入较大延迟。这些都是理想交互方案的大忌。在可预见的未来中此类技术对手部的追踪与其他方案相比,不具备优势。
CTRL—Labs(收购了MYO肌电臂环的专利),现正与Facebook谈被收购事宜,拟5-10亿美金。是当今唯一融资额度巨大,对外宣称想把此技术运用于VR/AR交互控制的公司。(补充:Facebook已经公开宣布未来想把CTRL—Labs与手部追踪方案(Oculus Quest上采用的基于视觉的手部追踪方案)进行结合。)
本人对此方案结合持疑惑态度。这两种技术并无很好的互补能力,甚者会结合放大二者的缺点。
四:手柄方案
经过近几年的行业发展,较好的VR头显均实现了6DoF的手柄空间定位,很好地完成了『 1.空间定位』这项基础而又重要的条件要求。
同时,VR手柄已经从开始的棒状(HTC Vive及PSVR手柄)迭代进化,出现了Oculus Touch和Valve Index的Knuckles,逐步向更优秀的手部追踪及工程学迭代进步。『1. 空间定位』已经符合预期,也确实向『2. 手部追踪』与『4. 工业设计』目标迈出了一大步。而受制于手柄形态限制,无法将『2. 手部追踪』推向理想水准,以及对『3. 触觉反馈』的支持较为普通。
五:数据手套方案
数据手套是个一言难尽的话题。数据手套方案给人直观的感觉是: 『1-4』的要求都能够满足,只是价格较贵。很多人的偏见是认为手套形态设备就会很“准”,同时也认为使用数据手套会降低舒适度。现实并非如此,数据手套形态与“准”并无因果关系,市面上充斥的是大量低水准昂贵的鸡肋产品;而工业设计及传感方案的好坏决定最终舒适程度。
基于数据手套捕捉人手姿态时主要使用的传感器类型(技术原理),包括且不限于机械外骨骼传感器式、光纤传感器式,弯曲传感器式,磁感应式,惯性传感器(一般为包括加3轴速度计、3轴陀螺仪和3轴磁力计的九轴IMU)式等。
每一种类别情况要考虑的问题均不相同,但总的来说,任何一种方案想要做好绝非易事。这也是为什么长久以来没有诞生一种低成本完成的可靠精细手部动作捕捉的技术。
当今即便普通商用版数据手套(5K-50K人民币每套),在『2. 手部追踪』方面实际都差强人意,是十分鸡肋的存在,有时用于一些低水平的影视动作捕捉,需要复杂耗时的人工后期修正处理。若基础追踪定位能力都无法达标,在此基础上去追求『3. 触觉反馈』更是是本末倒置的做法。
仅从动作捕捉效果考量,当今纸面参数最好的数据手套,是顶配级别的光纤式数据手套,售价大概在15-20W人民币每套,成本约在数万人民币。其追踪效果大概与排除了可靠性和视野问题的顶级计算机视觉手部动捕方案相当。
过去很长时间,计算机视觉有了长足的发展,人们总想把一切问题都交由计算机(视觉)去解决。计算机目前是一个相对低进入门槛却高产出门槛的行业,吸收了大量资源,也导致流向其它重要行业的资源十分有限。数据手套在看似无限前景的计算机视觉行业的夹缝里艰难进步,各种方案层出不穷却未能出现真正好的大一统式的产品变革。可以说当今的数据手套方案与诸如Valve Knuckles和Oculus Touch这样的新型手柄相比,并无优势可言。
六:我们的方案
但是!但是!但是!现今事情有了改观
源域科技 — MASTERY 手部交互
源域科技(我们),打造了革命性的数据手套方案 MASTERY–掌控,以革新性的工程及算法方案几乎彻底解决了上述所列的所有关键问题。这无疑是当今世界最为接近理想,且价格能被普通消费市场接受的方案,有望成为未来VR世界的交互范式,将整个VR行业的人机交互水准提升到一个前所未有的新高度。
资本2016年左右跟风投了大量垃圾VR项目,几乎都失败了,国内资本几乎不再关注这个行业了,国内VR有关企业都只能艰难发展。与国内态度截然相反的是,美国扔在持续不断投资发展这个行业,VR行业有了长足的发展。
PS:如果您对本项目感兴趣,有合作及投资意愿的朋友与我们联系(微信:licn2014)!