使用人工智慧從大腦活動中解碼語音 - Meta

banq發表於2022-09-04

Meta AI 研究人員表示,他們開發了一種 AI 模型,無需手術即可幫助從人的大腦活動中解碼語音。Meta 表示,其工作旨在幫助科學家加速使用人工智慧來更好地瞭解大腦。這是朝著可以從非侵入性腦記錄中以高精度解碼語言的技術邁出的一步,從而改善了患有創傷性腦損傷且無法有效溝通的人們的生活:
  • 該方法依賴於無創腦部掃描,例如腦電圖、EEG 和腦磁圖、MEG。這些從外部掃描大腦,這意味著無需手術,並提供其活動的快照

  • EEG 和 MEG 的問題在於它們非常“嘈雜”,因此很難準確判斷一個人在想什麼
  • 為了解決這個問題,Facebook AI 研究實驗室 (FAIR) 的科學家們使用了機器學習演算法。他們使用 FAIR 自己的開源 AI 模型 wave2vec 2.0 “清理”了噪音,用於自動語音識別
  • 研究人員利用開源 EEG 和 MEG 資料集,其中包含 169 名健康志願者的 150 多個小時的錄音,他們正在聽有聲讀物和英語和荷蘭語的孤立句子
  • 該資料訓練了 wave2vec 2.0 模型,以更好地挑選出人們聽到的單詞。只需幾秒鐘的大腦活動,該模型就可以推斷出這個人最有可能聽到的詞
  • 根據 Meta 的說法,它可以以高達 73% 的“前 10”準確率對 793 個單詞解碼來自大腦掃描的相應語音片段

詳細點選標題
 

相關文章