AI助力腦機介面研究,紐約大學突破性神經語音解碼技術,登Nature子刊

ScienceAI發表於2024-04-16

AI助力腦機介面研究,紐約大學突破性神經語音解碼技術,登Nature子刊

作者 | 陳旭鵬

編輯 | ScienceAI

由於神經系統的缺陷導致的失語會導致嚴重的生活障礙,它可能會限制人們的職業和社交生活。

近年來,深度學習和腦機介面(BCI)技術的飛速發展為開發能夠幫助失語者溝通的神經語音假肢提供了可行性。然而,神經訊號的語音解碼面臨挑戰。

近日,紐約大學 VideoLab 和 Flinker Lab 的研究者開發了一個新型的可微分語音合成器,可以利用一個輕型的卷積神經網路將語音編碼為一系列可解釋的語音引數(如音高,響度,共振峰頻率等)並透過可微分語音合成器重新合成語音。

透過將神經訊號對映到這些語音引數,研究者構建了一個高度可解釋且可應用於小資料量情形的神經語音解碼系統,可重構聽起來保真且自然的語音。

該研究以「A neural speech decoding framework leveraging deep learning and speech synthesis」為題,於 2024 年 4 月 8 日發表在《Nature Machine Intelligence》雜誌上。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00824-8

研究背景

開發神經-語音解碼器的嘗試大多數依賴於一種特殊的資料:透過皮層電圖(ECoG)記錄獲取接受癲癇手術患者的資料。利用患有癲癇的患者植入的電極,在發音時收集大腦皮層資料,這些資料具有高時空解析度,已經在語音解碼領域幫助研究者獲得了一系列很顯著的成果,幫助推動了腦機介面領域的發展。

神經訊號的語音解碼面臨著兩大挑戰。

首先,用於訓練個性化神經到語音解碼模型的資料在時間上是非常有限的,通常只有十分鐘左右,而深度學習模型往往需要大量的訓練資料來驅動。

其次,人類的發音非常多樣,哪怕是同一個人重複說出相同的單詞,語速、語調和音調等也會有變化,這給模型構建的表徵空間增加了複雜性。

早期的解碼神經訊號到語音的嘗試主要依賴於線性模型,模型通常不需要龐大的訓練資料集,可解釋性強,但是準確率很低。

近期的基於深度神經網路,尤其是利用卷積和迴圈神經網路架構,在模擬語音的中間潛在表示和合成後語音質量兩個關鍵維度上展開。例如,有研究將大腦皮層活動解碼成口型運動空間,然後再轉化為語音,雖然解碼效能強大,但重建的聲音聽起來不自然。

另一方面,一些方法透過利用wavenet聲碼器、生成對抗網路(GAN)等,雖然成功重建了自然聽感的語音,但準確度有限。最近,在一個植入了裝置的患者的研究中,透過使用量化的HuBERT特徵作為中間表示空間和預訓練的語音合成器將這些特徵轉換成語音,實現了既準確又自然的語音波形。

然而,HuBERT特徵不能表示發音者特有的聲學資訊,只能生成固定統一的發音者聲音,因此需要額外的模型將這種通用聲音轉換為特定患者的聲音。此外,這項研究和大多數先前的嘗試採用了非因果(non-causal)架構,這可能限制其在需要時序因果(causal)操作的腦機介面實際應用中的使用。

主要模型框架

圖片

圖1:提出的神經語音解碼框架。(來源:論文)

為應對這些挑戰,研究者在這篇文章中介紹了一個新型的從腦電(ECoG)訊號到語音的解碼框架,研究人員構建了一個低維度的中間表示(low dimension latent representation),該表示透過僅使用語音訊號的語音編解碼模型生成(圖 1)。

研究提出的框架由兩部分組成:一部分是ECoG解碼器,它能將ECoG訊號轉化為我們可以理解的聲學語音引數(比如音高、是否發聲、響度、以及共振峰頻率等);另一部分是語音合成器,它將這些語音引數轉化為頻譜圖。

研究人員構建了一個可微分語音合成器,這使得在訓練ECoG解碼器的過程中,語音合成器也可以參與訓練,共同最佳化以減少頻譜圖重建的誤差。這個低維度的潛在空間具有很強的可解釋性,加上輕量級的預訓練語音編碼器生成參考用的語音引數,幫助研究者構建了一個高效的神經語音解碼框架,克服了資料稀缺的問題。

該框架能產生非常接近說話人自己聲音的自然語音,並且ECoG解碼器部分可以插入不同的深度學習模型架構,也支援因果操作(causal operations)。研究人員共收集並處理了48名神經外科病人的ECoG資料,使用多種深度學習架構(包括卷積、迴圈神經網路和Transformer)作為ECoG解碼器。

該框架在各種模型上都展現出了高準確度,其中以卷積(ResNet)架構獲得的效能最好,原始與解碼頻譜圖之間的皮爾森相關係數(PCC)達到了0.806。研究者提出的框架僅透過因果操作和相對較低的取樣率(low-density, 10mm spacing)就能實現高準確度。

研究者還展示了能夠從大腦的左右半球都進行有效的語音解碼,將神經語音解碼的應用擴充套件到了右腦。

研究相關程式碼開源:https://github.com/flinkerlab/neural_speech_decoding

更多生成的語音示例:https://xc1490.github.io/nsd/

圖片

圖:可微分語音合成器架構。(來源:論文)

該研究的重要創新是提出了一個可微分的語音合成器(speech synthesizer),這使得語音的重合成任務變得非常高效,可以用很小的語音合成高保真的貼合原聲的音訊。

可微分語音合成器的原理借鑑了人的發生系統原理,將語音分為Voice(用於建模母音)和Unvoice(用於建模子音)兩部分:

Voice部分可以首先用基頻訊號產生諧波,由F1-F6的共振峰組成的濾波器濾波得到母音部分的頻譜特徵;對於Unvoice部分,研究者則是將白噪聲用相應的濾波器濾波得到對應的頻譜,一個可學習的引數可以調控兩部分在每個時刻的混合比例;在此之後透過響度訊號放大,加入背景噪聲來得到最終的語音訊譜。基於該語音合成器,本文設計了一個高效的語音重合成框架以及神經-語音解碼框架。

研究結果

具有時序因果性的語音解碼結果

圖片

圖2:比較非因果和因果模型的原始頻譜圖和解碼頻譜圖的解碼效能。(來源:論文)

首先,研究者直接比較不同模型架構(卷積(ResNet)、迴圈(LSTM)和Transformer(3D Swin)在語音解碼效能上的差異。值得注意的是,這些模型都可以執行時間上的非因果(non-causal)或因果操作。

研究結果表明,ResNet模型在所有模型中表現最佳,在48位參與者中達到了最高的皮爾森相關係數(PCC),非因果和因果的平均PCC分別為0.806和0.797,緊隨其後的是Swin模型(非因果和因果的平均PCC分別為0.792和0.798)(圖2a)。

透過STOI+指標的評估也得到了相似的發現。解碼模型的因果性對大腦-計算機介面(BCI)應用具有重大意義:因果模型僅利用過去和當前的神經訊號生成語音,而非因果模型還會使用未來的神經訊號。過去的研究通常採用非因果模型,這在實時應用中不可行。因此,研究者專注於比較相同模型在執行非因果和因果操作時的效能。

研究發現,即使是因果版本的ResNet模型也能與非因果版本媲美,二者之間沒有顯著差異。同樣,因果和非因果版本的Swin模型效能相近,但因果版本的LSTM模型效能顯著低於非因果版本,因此研究者後續主要關注ResNet和Swin模型。

為確保本文提出的框架能夠很好地泛化於未見過的單詞,研究者進行了更為嚴格的單詞級交叉驗證,這意味著相同單詞的不同試驗不會同時出現在訓練集和測試集中。

如圖2b所示,對未見單詞的效能與文中的標準試驗方法相當,表明即使在訓練期間未見過的單詞,模型也能夠很好地進行解碼,這主要得益於本文構建的模型在進行音素(phoneme)或類似水平的語音解碼。

進一步,研究者展示了ResNet因果解碼器在單個單詞級別上的效能,展示了兩位參與者(低密度取樣率ECoG)的資料。解碼後的頻譜圖準確保留了原始語音的頻譜-時間結構(圖2c,d)。

研究人員還對比了神經解碼器預測的語音引數與語音編碼器編碼的引數(作為參考值),研究者展示了幾個關鍵語音引數的平均PCC值(N=48),包括聲音權重(用於區分母音和子音)、響度、音高f0、第一共振峰f1和第二共振峰f2。準確重建這些語音引數,尤其是音高、聲音權重和前兩個共振峰,對於實現精確的語音解碼和自然地模仿參與者聲音的重建至關重要。

研究發現表明,無論是非因果還是因果模型,都能得到合理的解碼結果,這為未來的研究和應用提供了積極的指引。

對左右大腦神經訊號語音解碼以及空間取樣率的研究

圖片

圖3:3D ResNet 和 3D Swin 模型不同設定下的解碼效能比較。(來源:論文)

研究者進一步對左右大腦半球的語音解碼結果進行了比較。多數研究集中關注主導語音和語言功能的左腦半球。然而,我們對於如何從右腦半球解碼語言資訊知之甚少。針對這一點,研究者比較了參與者左右大腦半球的解碼錶現,以此驗證使用右腦半球進行語音恢復的可能性。

在研究收集的48位受試者中,有16位受試者的ECoG訊號採集自右腦。透過對比 ResNet 和 Swin 解碼器的表現,研究者發現右腦半球也能夠穩定地進行語音解碼(ResNet 的 PCC值為 0.790,Swin 的 PCC值為 0.798),與左腦半球的解碼效果相差較小(如圖 3a 所示)。

這一發現同樣適用於 STOI+ 的評估。這意味著,對於左腦半球受損、失去語言能力的患者來說,利用右腦半球的神經訊號恢復語言也許是一個可行的方案。

接著,研究者探討了電極取樣密度對語音解碼效果的影響。之前的研究多采用較高密度的電極網格(0.4 mm),而臨床中通常使用的電極網格密度較低(LD 1 cm)。

有五位參與者使用了混合型別(HB)的電極網格(見圖 3b),這類網格雖然主要是低密度取樣,但其中加入了額外的電極。剩餘的四十三位參與者都採用低密度取樣。這些混合取樣(HB)的解碼錶現與傳統的低密度取樣(LD)相似,但在 STOI+ 上表現稍好。

研究者比較了僅利用低密度電極與使用所有混合電極進行解碼的效果,發現兩者之間的差異並不顯著(參見圖 3d),這表明模型能夠從不同空間取樣密度的大腦皮層中學習到語音資訊,這也暗示臨床通常使用的取樣密度對於未來的腦機介面應用也許是足夠的。

對於左右腦不同腦區對語音解碼貢獻度的研究

圖片
圖4:貢獻度分析。(來源:論文)

最後,研究者考察了大腦的語音相關區域在語音解碼過程中的貢獻程度,這對於未來在左右腦半球植入語音恢復裝置提供了重要的參考。研究者採用了遮擋技術(occlusion analysis)來評估不同大腦區域對語音解碼的貢獻度。

簡而言之,如果某個區域對解碼至關重要,那麼遮擋該區域的電極訊號(即將訊號設為零)會降低重構語音的準確率(PCC值)。

透過這種方法,研究者測量了遮擋每個區域時,PCC值的減少情況。透過對比 ResNet 和 Swin 解碼器的因果與非因果模型發現,聽覺皮層在非因果模型中的貢獻更大;這強調了在實時語音解碼應用中,必須使用因果模型;因為在實時語音解碼中,我們無法利用神經反饋訊號。

此外,無論是在右腦還是左腦半球,感測運動皮層尤其是腹部區域的貢獻度相似,這暗示在右半球植入神經假肢也許是可行的。

結論&啟發展望

研究者開發了一個新型的可微分語音合成器,可以利用一個輕型的卷積神經網路將語音編碼為一系列可解釋的語音引數(如音高,響度,共振峰頻率等)並透過可微分語音合成器重新合成語音。

透過將神經訊號對映到這些語音引數,研究者構建了一個高度可解釋且可應用於小資料量情形的神經語音解碼系統,可生成聽起來自然的語音。此方法在參與者間高度可復現(共48人),研究者成功展示了利用卷積和Transformer(3D Swin)架構進行因果解碼的有效性,均優於迴圈架構(LSTM)。

該框架能夠處理高低不同空間取樣密度,並且可以處理左、右半球的腦電訊號,顯示出了強大的語音解碼潛力。

大多數之前的研究沒有考慮到實時腦機介面應用中解碼操作的時序因果性。許多非因果模型依賴於聽覺感覺反饋訊號。研究者的分析顯示,非因果模型主要依賴於顳上回(superior temporal gyrus)的貢獻,而因果模型則基本消除了這一點。研究者認為,由於過分依賴反饋訊號,非因果模型在實時BCI應用中的通用性受限。

有些方法嘗試避開訓練中的反饋,如解碼受試者想象中的語音。儘管如此,大多數研究依然採用非因果模型,無法排除訓練和推斷過程中的反饋影響。此外,文獻中廣泛使用的迴圈神經網路通常是雙向的,導致非因果行為和預測延遲,而研究者的實驗表明,單向訓練的迴圈網路表現最差。

儘管該研究並沒有測試實時解碼,但研究者實現了從神經訊號合成語音小於50毫秒的延遲,幾乎不影響聽覺延遲,允許正常語音產出。

研究中探討了是否更高密度的覆蓋能改善解碼效能。研究者發現低密度和高(混合)密度網格覆蓋都能實現高解碼效能(見圖 3c)。此外,研究者發現使用所有電極的解碼效能與僅使用低密度電極的效能沒有顯著差異(圖3d)。

這證明了只要圍顳覆蓋足夠,即使在低密度參與者中,研究者提出的ECoG解碼器也能夠從神經訊號中提取語音引數用於重建語音。另外一個顯著的發現是右半球皮質結構以及右圍顳皮層對語音解碼的貢獻。儘管以前的一些研究展示了對母音和句子的解碼中,右半球可能提供貢獻,研究者的結果提供了右半球中魯棒的語音表示的證據。

研究者還提到了目前模型的一些限制,比如解碼流程需要有與ECoG記錄配對的語音訓練資料,這對失語患者可能不適用。未來,研究者也希望開發能處理非網格資料的模型架構,以及更好地利用多病人、多模態腦電資料。

本文第一作者:Xupeng Chen, Ran Wang,通訊作者:Adeen Flinker。

基金支援:National Science Foundation under Grant No. IIS-1912286, 2309057 (Y.W., A.F.) and National Institute of Health R01NS109367, R01NS115929, R01DC018805 (A.F.)

更多關於神經語音解碼中的因果性討論,可以參考作者們的另一篇論文《Distributed feedforward and feedback cortical processing supports human speech production 》:https://www.pnas.org/doi/10.1073/pnas.2300255120

來源:腦機介面社群

相關文章