如果將人腦的神經訊號也視為一種語言,那麼將機器翻譯架構應用於解讀神經訊號的可行性似乎並不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學舊金山分校的研究者實踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經訊號轉換為文字,在 250 個詞的封閉句子集中將錯誤率降到了 3%。
時間卷積:類似的特徵很可能在 ECoG 資料序列的不同點上重現,全連線的前饋網路無法利用這樣的特點。
編碼器 RNN:下采樣序列被 RNN 按序處理。在每個時間步中,編碼器 RNN 的輸入由每個下采樣序列的當前樣本以及它自己的先前狀態組成。然後最終隱藏狀態(Final hidden state,上圖中的黃色條)提供整個序列的單個高維編碼,與序列長度無關。為了引導編碼器在訓練過程中找到有用的解,研究者還要求編碼器在每個時間步中預測語音音訊訊號的表示,即梅爾頻率倒譜系數的序列 (MFCCs)。
解碼器 RNN:最後,高維狀態必須轉換回另一個序列,即單詞序列。因此,我們初始化第二個 RNN,然後訓練為在每個時間步驟解碼出一個單詞或序列結束 token(在該點終止解碼)。在輸出序列的每個步驟中,除了自身先前的隱藏狀態外,解碼器還以參與者實際說出句子中的前一個單詞作為輸入(在模型訓練階段),或者它自己在前一步預測的單詞作為輸入 (在測試階段)。與以前針對語音音素進行語音解碼的方法相比,該方法將單詞作為目標。