耶魯、劍橋等開發MindLLM,將腦成像直接轉換為文字

ScienceAI發表於2025-03-04

圖片

編輯 | 蘿蔔皮

將功能性磁共振成像 (fMRI) 訊號解碼為文字一直是神經科學介面臨的一項重大挑戰,它有望推動腦機介面的發展,並加深對大腦機制的瞭解。然而,現有的方法往往存在預測效能不佳、任務種類有限以及跨受試者泛化能力較差等問題。

針對這一問題,耶魯大學(Yale University)、達特茅斯學院(Dartmouth College)和劍橋大學(University of Cambridge)的研究人員提出了 MindLLM,一種專為主題無關且用途廣泛的 fMRI 到文字解碼而設計的模型。

此外,研究人員提出了一種新方法——大腦指令調整 (BIT),可增強模型從 fMRI 訊號中捕獲不同語義表示的能力,從而促進更通用的解碼。

在全面的 fMRI 到文字基準上的評估中, MindLLM 優於基線,下游任務提高了 12.0%,未知主題泛化提高了 16.4%,新任務適應提高了 25.0%。此外,MindLLM 中的注意力模式為其決策過程提供了可解釋的見解。

該研究以「MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding」為題,於 2025 年 2 月 18 日釋出在 arXiv 預印平臺。

圖片

解碼人類大腦活動(fMRI)為文字在神經科學領域引起了廣泛關注。這一技術不僅為認知、行為和意識研究提供了新視角,還具有重要的社會應用價值。

例如,它可以幫助語言障礙者恢復溝通能力,使他們能夠輕鬆表達思想;同時,它還能實現健康人群對數字裝置(如具身 AI 或假肢)的神經控制,使操作更加直觀和精確。

然而,該技術仍面臨重大挑戰:一是需要針對不同應用場景開發多功能解碼模型,現有方法如 UMBRAE 雖能對映 fMRI 資料到刺激影像,但無法處理更廣泛的任務(如記憶檢索);二是缺乏統一且不依賴個體的解碼架構,當前方法依賴預處理選擇響應體素,導致輸入維度不一致和空間資訊丟失,影響效能。

研究人員提出了 MindLLM,一種用於 fMRI 到文字解碼的主題無關且通用的模型。該方法包括一個主題無關的 fMRI 編碼器和一個現成的 LLM。

圖片

圖示:MindLLM 概述。(來源:論文)

主題無關的 fMRI 編碼器將神經科學資訊注意層與可學習查詢相結合,透過利用體素的空間資訊和神經科學先驗來實現動態特徵提取,從而顯著提高預測準確性。值和鍵的設計將體素的功能資訊(在個體之間基本一致)與其 fMRI 值分開,從而使模型能夠受益於跨主體共享的先驗,並增強對新主體的概括性。

為了應對多功能解碼的挑戰,研究人員提出了腦指令調整(BIT)。BIT 使用以影像為中介的多樣化資料集來訓練模型,涵蓋旨在捕獲 fMRI 資料中編碼的語義資訊的不同方面的任務,包括感知和場景理解、記憶和知識檢索、語言和符號處理以及複雜推理。

圖片

圖示:我們的模型與之前的統一模型的比較。(來源:論文)

研究人員在綜合基準上評估了 MindLLM。結果表明,它的表現優於基線,在各種下游任務中平均提高了 12.0%,在未見過的主題上的泛化提高了 16.4%。

MindLLM 能夠有效地適應新任務,在實際應用中表現出很高的可定製性和靈活性。此外,對注意力權重的分析為該團隊 fMRI 編碼器的工作機制提供了寶貴的見解。

論文連結:https://arxiv.org/abs/2502.15786

相關報導:https://medicalxpress.com/news/2025-02-brain-imaging-text-mindllm.html


相關文章