人工智能从大脑 “读出” 语言

来源: 中国科学报 / 作者: 2019-01-09
0 3

对于许多瘫痪且无法说话的人来说,他们想要表达的语音信号隐藏在大脑中。但没有人能够直接破译这些信号。

不过,最近有 3 个研究小组在将植入大脑的电极数据转化为计算机生成的语音方面取得了进展,他们通过被称为神经网络的计算模型,重建了可以被人类听众理解的单词和句子。

最近几个月以来,正如在 bioRxiv 上发布的多篇论文描述的那样,研究人员仍无法完全重建仅仅存在于人们大脑里的语音信息。但另一方面,研究人员在人们大声朗读、轻声细语,或者听录音的时候,监视了大脑的部分活动。

未参与该研究的瑞士日内瓦大学神经工程师 Stephanie Martin 表示,重新演绎人们脑海中的语音信息这一做法 “令人兴奋不已”。

中风或疾病后失去说话能力的人可以用眼睛或其他小动作控制光标或选择屏幕上的字母。但如果大脑—计算机界面能够直接重建语言,他们可能会重新获得更多,例如,控制语调或者在节奏较快的对话中插话。

但将这一想法付诸实践却困难重重。“我们试图找出在不同时间点打开和关闭的神经元模式,以此推断语言信息。” 美国哥伦比亚大学计算机科学家 Nima Mesgarani 说,“从一个映射到另一个映射的过程非常复杂。”

这些信号转换为语音的情况因人而异,因此必须对计算机模型 “因材施教”。这些模型需要非常精确的数据支持,而这需要打开头骨。

研究人员只能在极少数情况下进行此类侵入性研究。一种是在切除脑瘤的过程中,暴露在外的大脑发出的电信号帮助外科医生定位并避开关键的语言和运动区域。另一种则是当癫痫患者植入电极以确定手术前癫痫发作的起因时。Mesgarani 表示,在收集数据的过程中,“我们的操作时间最多只有 20 至 30 分钟,时间非常宝贵”。

研究人员通过将信息提供给神经网络获取了大部分宝贵数据,神经网络通过将信息传递到计算 “节点” 层处理复杂模式。神经网络也能通过调整节点之间的连接来学习。在实验中,神经网络接触了一个人发出或听到的语音记录以及同步的大脑活动的数据。

Mesgarani 团队使用了 5 名癫痫患者的数据。该网络分析了听觉皮层(在语音和听力过程中都很活跃)在他们听到故事录音和人们从 0 读到 9 的录音后的记录活动。然后,计算机仅利用神经数据重建了录音中的数字。计算机 “读出” 人们脑海中数字的准确度高达 75%。

德国不来梅大学神经科学家 Miguel Angrick 和荷兰马斯特里赫特大学神经科学家 Christian Herff 领导的另一个团队,则采用了 6 名接受脑肿瘤手术志愿者的数据。他们捕捉到这些患者朗读单音节词的声音,同时电极还记录下大脑的语音规划区域和运动区域活动。神经网络将电极读数映射到音频记录,然后根据先前的脑数据重建单词。根据计算机化的评分系统,大约 40% 的生成单词能够被理解。

最后,加州大学旧金山分校神经外科医生 Edward Chang 和他的团队重建了 3 名癫痫患者大声朗读时,在他们的语言和运动区域捕获的完整句子。在测试中,166 人需要从 10 个书面语句中选择出一句他们听过的句子,识别句子的正确率达到了 80%。

研究人员还进一步改善了模型:通过人们默读时记录的数据重建句子。Herff 表示,这是一个重要的研究成果,“使得识别语音技术又进一步”。

然而,加州圣地亚哥州立大学研究语言生成的神经科学家 StephanieRiès 表示,“我们真正需要解决的问题是当患者不能说话时,以上这些方法的表现如何。”当一个人安静地 “说话” 或“听到”自己的声音时,大脑发出的信号与说话或听到的信号并不相同。如果没有与大脑活动相匹配的外部声音,计算机甚至可能很难分辨出内部语言的开始和结束。

纽约州卫生局国家适应神经技术中心神经工程师 Gerwin Schalk 表示,解码想象中的语音需要 “一个巨大的飞跃,我们真的不清楚该怎么做”。(唐一尘)

声明:本网所有文章(包括图片和音视频资料)系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(edit@bio360.net ),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。

文章评论(0)
使用匿名身份评论
  • 暂无评论,请抢占。