所思即所得,Meta DINOv2深度学习可将大脑活动转化为相似图像
所思所看即世界
(映维网Nweon 2023年10月19日)在不久的将来,人机交互可能会超越触控屏和键盘,甚至超越眼睛和手势,最终实现真正的脑机接口。
除了马斯克的Neuralink,诸如Meta等巨头同样在积极探索相关的概念。由Meta和巴黎文理研究大学的研究人员日前发布了一个基于Meta开源模型DINOv2的新型深度学习应用程序Image Decoder,而它可以几乎实时地以将大脑活动转化为与被试所看或所思相似的图像。
简单来说,如果Meta研究人员坐在房间里,无法看到被试,或者说被试远在世界另一头。这时无论被试在看着什么或者在想什么,Image Decoder都可以根据正在接受神经扫描的被试的大脑活动来为Meta研究人员呈现相似的图像。
如下图所示,如果被试在看着(或想象)一节火车,系统就可以实时解读预测,并呈现出高度相似的火车画面。
利用每秒进行数千次大脑活动测量的非侵入性神经成像技术脑磁图(MEG),团队开发的人工智能系统Image Decoder能够以前所未有的时间分辨率解码大脑中视觉表征的展开。
Image Decoder可以实时部署,根据大脑活动重建大脑在每个瞬间感知和处理的图像。这开辟了一条重要的途径,帮助科学界理解图像是如何在大脑中表现出来的,然后作为人类智能的基础。从长远来看,它也可能为临床环境中的非侵入性脑机接口提供一个垫脚石,可以帮助那些遭受脑损伤后失去说话能力的人。
通过用于从MEG信号中解码语音感知的架构,研究人员开发了一个由三部分组成的系统,包括一个图像编码器,一个大脑编码器和一个图像解码器。图像编码器独立于大脑建立丰富的图像表示集。然后,大脑编码器学会将MEG信号与所述图像嵌入对齐。最后,图像解码器根据大脑表征生成一个可信的图像。
团队在一个公共数据集训练所述架构。他们首先将解码性能与各种预训练图像模块进行比较,并表明大脑信号与现代计算机视觉人工智能系统一致,例如DINOv2。作为说明,DINOv2这种新型自监督架构能够在没有任何人工注释的情况下学习丰富的视觉表示。
这一结果证实,自监督学习致使人工智能系统学习类似大脑的表征:算法中的人工神经元倾向于像大脑的物理神经元一样被激活,从而响应相同的图像。
所述人工智能系统和大脑之间的功能对齐可以用来指导生成类似于被试在扫描仪中看到的图像。研究结果表明,MEG解码器可以在任何时刻使用,从而产生从大脑活动解码的连续图像流。
尽管生成的图像仍然不完美,但结果表明重建图像保留了丰富的high-level特征,如对象类别。然而,人工智能系统经常通过在生成的图像中放置或错误定向特定对象来生成不准确的low-level特征。特别是,使用自然场景数据集,研究人员发现MEG解码生成的图像依然不如fMRI解码获得的图像精确(fMRI是一种相对慢节奏但空间精确的神经成像技术)。
相关论文:BRAIN DECODING: TOWARD REAL-TIME RECONSTRUCTION OF VISUAL PERCEPTION
总的来说,研究结果表明,MEG可以用毫秒级的精度来破译大脑中产生的复杂表征。团队表示:“这项研究加强了Meta了解人类智能的基础,识别其与当前机器学习算法的异同,并最终指导旨在像人类一样学习和推理的人工智能系统发展的长期研究计划。”