Facebook Ctrl-labs分享脑机技术:五年实现意念控制商用
查看引用/信息源请点击:venturebeat
不用五年就可实现
(映维网 2019年11月22日)要理解神经界面初创公司Ctrl-labs的技术并不容易。这略显讽刺,因为他们的目标是理解你的大脑意图并将其化为实际的操作。在日前举行的Web Summit 2019大会中,Ctrl-labs首席执行官托马斯·雷尔登(Thomas Reardon)向Venturebeat撰稿人埃米尔·普罗塔林斯基(Emil Protalinski)介绍了脑机界面的工作原理。
成立于2015年的Ctrl-labs是一家总部位于美国纽约的初创公司。他们致力于开发一种能够将肌肉神经信号转换为机器可读命令的腕带产品。但很快,Facebook在2019年9月正式收购了这支团队。收购尚未完成,所以雷尔登自签署协议以来一直保持低调。然而,他渴望向大家进一步介绍神经接口技术,而我们可以从中理解为何Facebook(及整个科技行业)会对这个领域感兴趣。
简而言之,Ctrl-labs希望我们不再是通过鼠标,键盘,触控屏,语音或当前的任何其他输入来与技术交互。雷尔登及团队期望在未来数年内允许我们通过大脑意念直接控制技术。
1. “机器学习问题之母”
雷尔登曾多次表示,他们志在解决“mother of all machine learning problems(机器学习问题之母)”。他同时在大会中多次使用了这个短语。值得一提的是,苹果首席执行官蒂姆·库克曾将自动驾驶汽车描述为“mother of all AI projects(人工智能项目之母)”。我们都明白自动驾驶汽车的复杂性,但不一定理解机器学习。
雷尔登解释说:“对于能够实时解码神经活动并将其转化为控制的概念,你的身体能够做到这一点。每个级联的神经元序列都是不同的层,比如说皮层,然后它们将输出发送到脊髓。每组神经元都在解释前一组,并且在数毫秒的时间内将其转化为最终行动。”
他继续道:“首先,你必须捕获所有的活动,然后必须重新调整其用途。我们正在尝试通过另一端的机器来做到这一点。仅解码一小部分就需要大量非常智能的定制算法来实时进行。如果我们可以记录所有数据,然后在几周内回来进行分析,我们是可以做到。这就是神经科学的工作方式。大多数研究都是通过这种称为‘事后处理’的方式完成。我们根据事实对数据进行分析,然后尝试理解‘神经元的活动如何产生行为?’这是所有神经科学的中心目标。神经活动-最终行为,我们应该如何联通它们呢?这种神经元的密码是什么呢?现在无法实时做到。”
概括来说,自然界中没有比人脑更复杂的系统。要创建一种无需钻入人类头骨就能确定意图的算法非常困难。解码单个运动神经元的活动以控制机器是最终的机器学习挑战。与之相比,其他一切问题都只是弟弟。
雷尔登表示:“我们很容易就DeepMind所取得的突破及其颠覆性的潜能感到兴奋。但真正难吭的骨头是如何实时地做到。”
2. 肌电图(EMG)
Ctrl-labs在2018年12月展示了Ctrl-kit原型。它由两部分组成:一个尺寸近似于包含无线电的大型手表的外壳;一个包含电极的系留组件。这种腕戴式设备能够通过蓝牙接入PC或智能手机进行处理。
在讲解如何将意图变成行动之前,我们需要理解人Ctrl-labs设备正在检测的内容。雷尔登指出:“这被称为表面肌电图。这是差分感应电极。你的运动神经元会发出动作电位。它沿着穿透肌肉的轴突行进。它能够扩展开来,并触及肌肉中的一堆神经纤维,数量达到数百乃至数千。肌肉中的每根神经纤维都可以产生较大的电活动。运动神经元的电活动非常小,不可检测。它非常小,小到纳安至皮安(1安=1000毫安,1毫安=1000微安,1微安=1000纳安,1皮安=1000纳安)。 你的肌肉神经纤维存在大量的电活动。另一个事实是,肌肉的每一根神经纤维都在产生巨大的电场。”
为了将意图转化为行动,EMG设备需要测量由从大脑到手部肌肉的脉冲所引起的电势变化。他解释道:“我们是神经科学家,因为我们发现了‘我如何获取肌肉的电活动,并确定产生这种活动的电活动是什么?’我们做到了这一点。我们能够从肌肉的电响应中重建这种脊髓运动神经元的活动。”
3. Motor babbling(蹒跚习得)
雷尔登表示,你可以在大约90秒内学会使用Ctrl-labs腕带完成一项任务。在这90秒钟里面,你和EMG设备之间发生了什么事情呢?
Motor Babbling(蹒跚习得)是指婴儿通过自发的、随机的重复动作来掌握运动技能。例如,婴儿在出生后不久可以通过手臂的自发性随机挥舞动作来掌握对手臂的控制。我们承认能够轻易做到,但婴儿需要一定的时间试错掌握,慢慢建立神经映射。Ctrl-labs正是利用了这一点。
他说道:“这与生俱来,比任何一切都要扎根于你的DNA之中,甚于语言,甚于计数,甚于理解语言。你真正擅长的是学习如何运动,尤其是手和嘴。你可以用一种非常巧妙的方式来做到这一点。极其微妙的动作,只有一丁点神经活动。婴儿需要花费相当时间才能掌握。但你总是这样做,而且你永远不会停下来。你基本上可以在一年半左右建立粗略的运动映射。”
为了说明,雷尔登将一杯水放到桌面并要求普罗塔林斯基小抿一口。
他说道:“这是你一生中最难做到的事情。”
这是不是指你难以训练机器人执行这个动作呢?毕竟手部的轨迹每一次都不同。他指出:“教机器人做这个动作太困难了。涉及到的自由度数,这包括你的输出容量,手臂包含27个自由度。你小抿一口的动作在一生中执行过1万次,10万次,100万次。但每次都不尽相同。再来一遍的时候又是全新的动作。不同的重量,不同的杯子材质等等。你可以实时实现这个操作。”
4. 利用运动反馈
Ctrl-labs希望利用人类学习掌握身体的方式,重新赋能这项技术,从而允许我们控制技术。
雷尔登解释说:“你具有这种出色的运动适应能力。你具有与任务相关的总体脉络图。‘我必须拿起这只玻璃杯,然后将其移到我的嘴边’。这没有认知负担。你不是说‘我必须停下手头中的一切并专注于这个喝水动作。’你非常自然地就执行这个动作。你拥有非常巨大的电机反馈回路容量。从本质上讲,我们正尝试以某种方式利用这一点,只需几秒钟就能学习和部署运动技能。你大致知道应如何去做,同时很快就予以采用,而且你的表现非常出色。”
归根结底,大脑只会做一件事情:它可以打开和关闭肌肉。人类非常擅长通过大脑动态地利用肌肉,每次都适应特定的情况。这需要大量的计算,同时不会产生认知负荷的感觉。这就是为什么他将其称作“机器学习问题之母”。Ctrl-labs正在尝试捕获人类的学习方式。
5. 跳跃的恐龙
谷歌Chrome浏览器内置了一款离线游戏,你可以通过在地址栏中输入chrome//dino/来进行访问。Ctrl-labs曾在Web Summit大会利用这款游戏来演示其技术。
假设你拥有一个Ctrl-labs腕带,并且希望学习如何令恐龙跳起来。首先,你可以按下一个按钮。腕带可检测肌肉的电活动。你按下按钮,恐龙就会跳跃。你不断按,恐龙就不断跳跃。最终,你可以慢慢不再需要按下按钮,只需利用意念即可令恐龙跳跃。
在软件方面采用了“秘制调料”。你不能只是随意按键,然后即可放弃按键并用意念操作。雷尔登解释说:“一开始是因为我们令其基于按键跳跃。然后,我们慢慢将其拨回,令跳跃不再是基于按键,而是电活动令恐龙跳跃。过去的机器操作都是通过移动完成,所有一切都涉及移动。我们尝试令你忘却运动,但保留意图。”
不必定义你执行的动作。Ctrl-lab不必表明是右手中指点击了按钮。实际运动的可以是任何一切,完全任意。可以是拇指按下按钮,可以是耳朵摆动。
6. 力度调制
雷尔登说道:“这非常酷。我不必告诉你需要停下来。你会开始意识到无论是否按下按钮,恐龙都会跳跃。当我说‘这是你大脑真正擅长的事情’时,你的大脑正在尝试解决‘如何用最小的动作来引起反应’的问题?”这就是你大脑所习得的技能。你正在执行的自适应任务是力度调制。你正在尝试用最少的神经活动来产生肌肉收缩,从而拿起杯子并放到嘴边。而且,你始终在努力将其最小化。”
当大脑发现正在执行的动作与结果之间没有任何联系时,它将停止进行完整的动作。你现在无需实际移动即可令恐龙跳跃,你只需在脑海中想着恐龙跳跃。Ctrl-labs正在利用我们与生俱来的能力,亦即用最小的努力来完成一项任务。
你很快就可以参加小型培训课程并用意念控制各款软件。穿戴设备,然后点击屏幕以在应用或游戏中执行特定操作。大约90秒后,你无需点击屏幕即可执行这一操作。雷尔登表示,人人你都可以做到这一点。
他说道:“这非常可靠。当你第一次亲身体验时,这会是一种非常奇特的体验。十分有趣。”
7. 文本键入
说到按键,由于我们在谈论终极的输入设备,所以文本键入是一个显而易见的切入点。令恐龙跳动是一回事,但用意念进行文本输入又是另一回事。我们之前曾见证过Ctrl-labs的文本键入演示,但他们于本月展示的内容则完全不同。Ctrl-labs希望允许你直接形成单词,不再需要键入字词。
雷尔登表示:“我们有能力同时实际控制语言模型。我们称其为‘构词法’。所以,你不是在键入字词,而是实时地形成文字。你可以在单词之间进行多种选择,并且可以快速学习如何形成目标单词,而不是一次输入一个键。”
这种方式的优势是什么?速度,一切都在于速度。
他说道:“最终,我们希望你能够以言语的速度来遣词造句。存在语音速率可能大约是语言产生认知极限的假设,但显然文本键入不是。如果你言语的速度非常快……你能否以每分钟250个字的速度键入文本呢?今天没人能做到。我们希望能够支持所有人做到这一点。届时,言语表达和这种受控文本输入方式之间将不再有区别。”
需要明确的是,Ctrl-labs尚未实现这个目标。他们的演示仅显示每分钟40个单词的文本输入速度。利用键盘,任何人都可以通过学习来超过这个速度。但除了速度之外,这显然存在其他一系列重要的优势。
8. AR,VR及其他新兴平台
雷尔登说道:“这在我所认为的新兴平台方面显然存在巨大的价值。无论是戴在手腕上的计算机还是戴在脸上的计算机,它们都需要全新的文本界面。另外,我们正在押宝语音不会成为你控制机器的方式。这是解决方案的一部分,但不是全能的解决方案。你很少会用到这种解决方案,只是偶尔使用。人们今天使用Alexa的事实可能是最好的证明。它确实有用,但只存在非常特定的情景。我们用文字控制机器,我们今天用文字书写,用文字进行创作,而语音是一种糟糕的创作方式。”
AR和VR是十分明显的潜在目标,因为这种沉浸式技术依然缺乏优秀的控制体验。所以,Facebook收购Ctrl-labs并将其纳入至Reality Labs并不令人感到意外。预计这家公司是Facebook自2014年3月以20亿美元收购Oculus之后的最大一笔并购案。
用意念进行文本输入只是Ctrl-labs吸引Facebook注意的众多用例之一。但再次强调,不是文本输入本身给人留下了深刻印象,而是实现文本输入的方式。
9. 意图,不是想法
雷尔登解释说:“问题是大脑中的每个神经元已经在工作之中。不是说有一群坐在等待呼召的神经元,而脑机接口的目标是确定其工作。所以,你是否正在试图解码一个想法并将其转变为某种行动呢?我不认识能够向我解释何谓想法的科学家。所以我们谈论的是意图而非想法。我们专注于这一点。我们正在努力支持你控制你想要控制的一切。你必须有目的性地希望执行某个操作。”
在恐龙演示中,用户是非常有意识地控制神经元:“他不会是想,‘嘿,我正在考虑在这里起跳。’他是在说,‘跳。跳。跳。’他希望跳跃。这会导致脊椎中的运动神经元真正激发。”
10. 突破
雷尔登表示:“最困难的地方不仅仅只是倾听神经元,并允许你利用这个神经元并以全新的方式控制某些事物,困难的地方是你依然能够使用这个神经元。我们正在啃的硬骨头是区分‘你正在使用这个神经元来移动,使用这个神经元来控制身体呢?’和‘你正在使用它来控制机器?’。我认为,我们取得了一些惊人的突破,亦即可以区分同一神经元的不同类型神经活动。”
你如何确定只是一个神经元呢?
雷尔登指出:“我们已经进行了详尽的证明。我在这里无法描述,但我们会进行学术发表。不过,我们使用了更传统的方法来证明这是一个被激活的单个神经元。在我们的世界中,这称为运动单元,它是一组与单个神经元相对应的神经纤维。这实际上很难证明,但我们认为我们已经通过某种科学严谨的方式证明了这一点。”
当Ctrl-Labs发布其证明时,它将接受标准的同行审阅。雷尔登指出,有关单个神经元突破的一部分已经发表,但最新的突破尚未发表。
11. 何时?
大家最为关心的一个问题是:什么时候可以商用?十年吗?雷尔登回答道:“不,要更快。”
五年吗?他肯定地答到:“我认为不用五年。”