華裔教授AI解碼腦電波,上演現實版「讀腦術」,大腦所想直接合成文字或語音!

AMiner学术头条發表於2020-04-01

許多患有神經疾病的患者因喪失語言能力,需要依賴特定的通訊裝置進行溝通,這類裝置大多利用腦機介面或者頭部、眼睛的動作來控制游標,以選擇螢幕上的字母,從而拼出他們想說的句子。但是,這個蹦單詞的過程,實在無法與人類的正常說話過程相比。

3 月 30 日,《自然-神經科學》發表了美國加州大學舊金山分校華裔教授 Edward Chang 及同事開發的一款腦電波 AI 解碼器,能夠將大腦活動訊號直接轉化為句子文字。

華裔教授AI解碼腦電波,上演現實版「讀腦術」,大腦所想直接合成文字或語音!

具體而言,研究人員首先通過電極記錄受試者說話時的神經活動訊號,並用特定語句和神經訊號特徵之間的關聯資料訓練 AI 演算法,試驗證明,訓練後的機器翻譯演算法能夠準確地解碼受試者的神經活動,並將其接近實時地翻譯為句子文字,錯誤率低至 3%

從大腦“讀取”人的意圖

說話似乎是一件毫不費力的事,但實際上說話卻是人類執行的最複雜的活動之一。十多年前,科學家首次從大腦訊號中解碼語言,但是一直以來,語言解碼的準確性和速度遠遠低於自然語言交流。

目前一些用於大腦控制打字的腦機介面技術,其實依賴的是頭部或眼睛的殘餘非語言運動,或者依賴於游標控制以逐個選擇字母並拼出單詞,這種方式目前可以幫助癱瘓的人通過裝置每分鐘輸出多達 8 個單詞。

但與流程自然語言交流時每分鐘 150 個單詞的平均速度比起來,現有技術的輸出速度還是太慢了。

華裔教授AI解碼腦電波,上演現實版「讀腦術」,大腦所想直接合成文字或語音!使用特製語音合成器與外界交流的史蒂芬·霍金理論上來說,腦機介面技術可以通過直接從大腦“讀取”人的意圖,並使用該資訊來控制外部裝置或移動癱瘓的肢體,來幫助癱瘓的人完成說話或運動。

為了獲得腦機介面直接解碼語言更高的精度,研究人員利用了機器翻譯任務與從神經活動解碼語音到的相似性。也就是說,和機器翻譯類似,解碼語言也是從一種語言到另一種語言的演算法翻譯,兩種任務實際上對映到同一種輸出,即與一個句子對應的單詞序列。只不過,機器翻譯的輸入內容是文字,而解碼語言的輸入內容是神經訊號

於是,研究人員盤點了機器翻譯領域的最新進展,並利用這些方法訓練迴圈神經網路,然後嘗試將神經訊號直接對映為句子。

華裔教授AI解碼腦電波,上演現實版「讀腦術」,大腦所想直接合成文字或語音!語言相關的神經活動解碼過程具體而言,研究人員通過電極記錄四名受試者他們大聲讀出句子時的神經活動。之後,研究人員將這些資料新增到一個迴圈神經網路中,從而將規律性出現的神經特徵表示出來,這些神經特徵可能與言語的重複性特徵(比如母音、子音或發音器官接收的指令)相關。

接著,研究人員通過另一個迴圈神經網路逐字解碼這種演算法表示,形成句子。研究人員發現,明顯參與言語解碼的腦區,同樣參與言語生成和言語感知。通過這種機器翻譯演算法,研究人員在一名受試者身上進行試驗,結果證明通過神經活動解碼為口頭句子的錯誤率低至 3%。

此外,如果利用某人的神經活動和言語對迴圈網路進行預訓練後再在另一名受試者身上進行訓練,最終的解碼結果有所改善,這意味著這種方法在不同人員之間或許是可轉移的。但是,還需要開展進一步的研究來更加完整地調查這個系統的功能,將解碼範圍擴充套件到研究所限語言之外。

腦機介面+AI 合成語音

直接通過解碼大腦活動訊號來合成文字或語音,不只是一項科幻般的“讀心術”,更是一種頗有前景的治療方案。

控制游標進行單詞拼寫,只是離散字母的連續串聯,而解碼語言則是一種高效的通訊形式。與基於拼寫的方法相比,直接語音或文字合成具有諸多優點,除了以自然語速傳遞無約束詞彙的能力之外,直接語音合成還能捕獲語音的韻律元素,例如音調、語調等。

此外,對於由肌萎縮性側索硬化或腦幹中風引起的癱瘓患者,通過直接記錄來自大腦皮層的神經控制訊號來合成語音,是實現自然語言高通信速率的唯一手段,也是最直觀的方法。

去年 4 月,Edward Chang 等人還在 Nature 雜誌發表了開發出一種可以將腦活動轉化為語音的解碼器。這套人類語音合成系統,通過解碼與人類下頜、喉頭、嘴脣和舌頭動作相關的腦訊號,併合成出受試者想要表達的語音。

華裔教授AI解碼腦電波,上演現實版「讀腦術」,大腦所想直接合成文字或語音!Edward Chang 教授為了重建語音,研究人員設計了一種迴圈神經網路(RNN),首先將記錄的皮質神經訊號轉化為聲道咬合關節運動,然後將這些解碼的運動轉化為口語句子。

整個過程分為兩個步驟,第一步,將神經訊號轉換成聲道咬合部位的運動(紅色),這其中涉及語音產生的解剖結構(嘴脣、舌頭、喉和下頜)。而為了實現神經訊號到聲道咬合部位運動的轉化,就需要大量聲道運動與其神經活動相關聯的資料。但研究人員又難以直接測量每個人的聲道運動,因此他們建立了一個迴圈神經網路,根據以前收集的大量聲道運動和語音記錄資料庫來建立關聯。第二步,將聲道咬合部位的運動轉換成合成語音。

研究人員的這種兩步解碼方法,產生的語音失真率明顯小於使用直接解碼方法所獲得的語音。在包含 101 個句子的試驗中,聽者可以輕鬆地識別並記錄下合成的語音。

在科幻世界裡,通過意念訊號控制外界裝置十分酷炫,實際上,在現實世界中,其背後的腦機介面技術已有近百年的歷史。

華裔教授AI解碼腦電波,上演現實版「讀腦術」,大腦所想直接合成文字或語音!

隨著腦機介面領域科學研究與應用技術的不斷突破,尤其是 AI 演算法的加持,為許多當前仍無法解答的難題提供更好了的探索工具,不僅能夠幫助人類進一步瞭解自己的大腦,更重要的是為診斷、治療腦部及其它嚴重疾病提供瞭解決方案,甚至廣泛應用於睡眠管理、智慧生活和殘疾人康復等領域。

參考資料:
https://nature.com/articles/s41593-020-0608-8
https://www.nature.com/articles/s41586-019-1119-1
https://mp.weixin.qq.com/s/ZjAW1CDUli1VXpWcNnF-sQ

相關文章