脑机接口,是一种将人脑与外部设备直接连接,通过监测和记录中枢神经系统的活动,并翻译成外部设备可以理解的信号或指令,以实现人脑与外部设备之间直接交流和控制的技术。
近十年,随着相关技术的不断推陈出新,脑机接口进入了产业化探索的关键期。以Neuralink为代表的公司的出现,也让市场看到了技术转化为产品的多种可能性。
传统的运动脑机接口可以帮助截瘫患者控制电动轮椅和人工肢体,基于电刺激的闭环脑机接口可以用来调控情绪和治疗精神障碍,而语言脑机接口可以使瘫痪和言语障碍患者恢复语言沟通能力。相对于传统肢体运动类型的脑机接口,语言脑机接口的研究对象更为复杂,目前,在语言神经机制的基础研究上,仍有很多空白的地方。
近年来,以加州大学旧金山分校Edward Chang团队和斯坦福大学Krishna Shenoy团队发表在Nature杂志上的系列论文为代表,国际上针对语言脑机接口的研究已取得突破,初步实现了针对英语的脑信号到语音文字的解码合成。
作为脑机接口技术发展和使用场景开拓的双重土壤,中国市场有着举足轻重的作用。然而,汉语作为声调语言,通过声调来表达不同的语义,汉语的文字和句法结构也和英文有很大不同,英语解码机制和算法难以直接应用于汉语语言。
人类的语音和文字系统拥有相同的生理基础,而不同文化和民族的语言又具有极大的特异性。由此引出了语言认知中尚未被解决的基本科学问题,即人类的语言系统是如何既共享相似的大脑语言网络架构与底层输入特征,又具有各语言高度分化的特异性,从而将感知输入转化为不同的语言信息?中英文之间存在哪些显著差异?汉语语音的脑信号是怎样的?十三亿使用“中文操纵系统”的大脑又该如何通过新的媒介与外界交互信息?
上海科技大学的李远宁教授尝试在神经科学和计算机科学中寻找答案。
1联合研究
用通俗一点的话来说,李远宁的实验手段,是通过记录人类颅内的脑电信号研究中文听说的基本神经机制,并应用这些神经机制来研究如何从神经信号解码、重建、合成出人类的语言。在工程应用上,该技术可以构建汉语言脑机接口的系统基底,同时帮助实现“意念”到“语音”的合成。
具体而言,他与神经外科医生们合作,利用神经外科手术这一契机,通过颅内植入高密度电极的方式,直接记录神经群体的电生理活动信号,并应用机器学习以及人工智能的方法,分析并建模大脑中语言信息处理的过程。这一研究方向不仅增进了对脑科学中重要的基础问题的认识,而且对于理解失语、失读症等语言沟通障碍的神经机制以及诊断和治疗也具有重要的临床转化意义,同时也有助于在神经外科手术中精确保留关键语言认知功能。更进一步,深入理解人类语言的神经机制有助于启发更为稳健且高效的用于处理自然语言的新一代人工智能模型,以及设计新的脑机交互和神经调控系统。
今年6月,李远宁团队联合复旦大学附属华山医院神经外科吴劲松/路俊锋教授团队以及天津大学明东/许敏鹏教授团队在Science子刊Science Advances发表了名为“Decoding and synthesizing tonal language speech from brain activity”《从大脑活动中解码及合成声调语言语音》的文章。
李远宁团队创建了专门用于汉语声调的深度学习算法模型,并结合临床使用高密度皮层脑电技术(高密度 ECoG),分析大脑中与汉语声调和音节结构相关的神经活动,最终首次在国际上首次实现了从大脑神经活动到汉语单音节声调语音的端到端合成。
运用端到端的多流神经网络,实现从颅内脑电到中文语音的端到端合成。
这项研究首次成功实现了通过颅内脑电技术来直接解码和合成汉语声调语言,为未来可能的"植入式汉语脑机接口"提供了一种基于神经解剖和电生理特性的特征工程分析处理方案,并提出了一个可供广泛应用的深度学习框架,奠定了理论和技术的双重基础。
传统基于运动解码的脑机接口方案可以实现意念控制键盘打字或光标书写,从而间接实现从脑电到语音文字的转换,而这项研究则直接捕捉并解码大脑中控制语音产生的电信号,真正“所想即所得”地实现脑电到语音端到端直接合成,更有希望帮助语言障碍患者重建高速高效的自然语言表达。
2连点成线
如今身为上海科技大学生物医学工程学院助理教授的李远宁,其实并非生物学或医学科班出身,甚至高考时都没有选考生物学。但现在,他可以像一个老练的向导一样,带着你在大脑的解剖结构中自由穿梭,探索语言感知和语言表达的独特回路。
李远宁本科就读于北京航空航天大学,专业为电子信息工程。做的最多的事,就是推公式写代码。在高等工程学院组织的跨学科交流讲座中,李远宁偶然听了北大生命科学院陶乐天主讲的计算神经科学。不过这次报告并没有一道闪电般激发出无限灵感的戏剧性效果。“什么也没记住,什么也不懂,就记住说好像可以拿数学去研究大脑。”便是李远宁对这次报告的记忆。
虽然没有直接影响李远宁未来的研究方向,但这次报告却为他十余年后回首connecting the dots时,留下了一个起点。
本科毕业后的李远宁进入到美国卡耐基梅隆大学学习电子与计算机工程。硕士期间,一门叫做Neural Signal Processing(神经信号处理)的课程吸引了他的注意,不仅因为授课教授Byron Yu经验丰富且师从于前文提到的脑机接口先驱Krishna Shenoy,更是因为授课教材《Pattern Recognition and Machine Learning》其实是一本计算机科学的典籍。
神经科学为何需要机器学习相关书籍?李远宁的好奇心被激起并一发不可收拾。当课程讲到如何用机器学习的方法去研究大脑的基本功能,比如运动皮层如何编码运动过程,控制手臂在三维空间中的运动,他突然意识到之前在计算机领域的积累,有监督学习、无监督学习、高斯过程、统计推断等等,像一步步跳棋一样将自己引到了一个神奇的应用--脑科学。
在Byron Yu教授实验室学习了一年之后,他将自己博士的研究方向选定为神经计算与机器学习,这是卡耐基梅隆独特的联合博士项目:从计算视角出发,以神经科学为研究对象,专注培养脑科学和人工智能结合的研究者。博士期间,他在由认知神经科学家、神经外科医生、统计学家、心理学家等组成的多学科团队中接受科研训练,合作开展基于侵入式颅内脑电的计算认知神经科学的研究。
博士毕业后,李远宁加入了美国国家医学科学院院士,语言神经科学和神经工程领域权威,美国加州大学旧金山分校的Edward Chang教授的实验室从事博士后研究,运用侵入式颅内皮层脑电的技术和AI方法来记录研究分析人类的听觉、语言相关的认知功能与计算模型。
也正是在UCSF的研究期间,他开始与复旦大学附属华山医院神经外科吴劲松教授和路俊锋教授的团队展开合作,以中文与英文为对照研究对象,探索语言感知与表达中通用性与特异性所对应的神经机制。这成为了他延续至今的研究主题之一。
3交叉融合
今年7月28号,李远宁在中国神经科学学会与天桥脑科学研究员联合主办的主题论坛上分享了自己最新的研究成果。
当听到他用近乎母语水平的英文向国内国际学者进行讲解时,你似乎能瞬间理解他对语言的谙熟和痴迷也是有迹可循的。两套语言体系及其背后的语言逻辑就仿佛一个硬件里的两套操作系统,相互独立却又各自影响。
产生碰撞与交叉的不止是人文与科学。在卡耐基梅隆的七年间,匹兹堡独有的氛围为他带去了无数的灵感。坐拥卡耐基梅隆大学和匹兹堡大学两座学府,匹兹堡是全美乃至世界范围内计算机和神经科学的前哨站。
两所大学联合成立的Center for the Neural Basis of Cognition集结了卡耐基梅隆大学在统计系、心理系、计算机系、电子系、生物医学工程和匹兹堡大学医学中心神经科学、神经内科、神经外科、心理系等总计十余个学系超过百名研究者。
这百余名研究者及其博士研究生们从各自擅长的角度开展针对神经科学的研究。从分子细胞、环路、动物模型,到计算、心理、认知、统计,塑造了匹兹堡当地独特而富有活力的医工交叉学术交流氛围。
回国后的李远宁依然在这种不断催生出新鲜活力的交互中推进研究。上海全球一流的神经外科临床中心和强大的神经科学社群为这一交叉学科研究奠定了坚实基础:身在生物医学工程学院,合作者则多是临床一线的神经外科医生,而他自己的学生则来自计算机或电子背景。
在多方的交流中“翻译”出最流畅的交流语言,也与他对汉语语音的研究一脉相承。
这种融合也体现在回国后李远宁对技术和产业的观察上。对于国内一批脑机接口赛道的创新公司与高校和临床展开开放性合作的现象,他的判断是作为一个非常前沿的赛道,因为脑机接口领域很多项目其实都脱胎自高校,更频繁的交流和更透明化的竞争对于技术迭代发展更为有利。
除了应用人工智能技术解码脑电信号合成语音文字之外,李远宁与合作者们还关注人工智能模型与人类认知过程的交叉融合。他最新的研究成果揭示了用于汉语和英语语音识别的深度神经网络模型与生物听觉过程之间的相似性,为理解听觉皮层神经编码提供了新的方法,也为大规模自监督预训练深度神经网络模型的可解释性提供了生物学的视角。这一成果即将见刊于Nature子刊Nature Neuroscience上。未来,他还将继续探索预训练大语言模型与人类语言认知的融合。
4活动介绍
未来,动脉橙果局与天桥脑科学研究院科普栏目AI问脑将联合推出一场李远宁教授的线上对谈直播栏目。如果您想对神经科学、脑机接口、和李远宁教授的研究方向有更多的了解,欢迎搜索关注视频号“追问nextquestion”或扫码联系作者预约收看。