你能想象自己看到、想到,甚至是夢到的畫面被視覺化出來嗎?這並非天馬行空的想象,早在 2008 年,美國加州伯克利分校神經系統科學家 Jack Gallant 就在 Nature 中提出了他的假設,他們利用功能磁共振成像 (functional Magnetic Resonance Imaging, fMRI) ——一種非侵入式腦功能成像技術「讀取」受試者大腦視覺皮層的活動,然後透過視覺重建來視覺化呈現受試者所看到畫面,打響了世界範圍內科學家解碼大腦的號令槍。
相比侵入性腦解碼技術,以 fMRI 為代表的非侵入性腦解碼技術以更簡單、更安全的方式實現大腦解碼而倍受重視,在認知神經科學研究、腦機介面應用以及臨床醫學診斷等諸多領域都極具潛在應用價值。
然而,非侵入性腦訊號的解碼受礙於個體差異和神經訊號表徵的複雜性影響,依舊是大腦解碼過程中的關鍵挑戰。一方面傳統方法需依賴於定製模型和大量昂貴的實驗;另一方面由於缺乏準確語義和可解釋性,導致傳統方法在視覺重建任務中很難準確重現個人的視覺體驗。
對此,中國科學院自動化研究所曾毅教授團隊創新性地設計了一種多模態整合框架,該框架融合 fMRI 特徵提取器與大語言模型,解決大腦活動的視覺重建問題。利用 Vision Transformer 3D (ViT3D),研究人員將三維大腦結構與視覺語義結合,透過高效統一特徵提取器對 fMRI 特徵與多層次視覺嵌入進行對齊,無需特定模型即可從單次實驗資料中提取資訊。此外,提取器整合了多層次視覺特徵,簡化了與大語言模型 (LLMs) 的整合,透過增強 fMRI 資料集以及與 fMRI 影像相關的文字資料,可開發多模態大模型。
該成果以「Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction」為題,已被 NeurIPS 2024 接收 。
研究亮點:
- 這項研究顯著提升了透過大腦訊號重建視覺刺激的能力,加深了對相關神經機制的理解,為解讀大腦活動開闢了新途徑
- 基於 Vision Transformer 3D 的 fMRI 特徵提取器,將三維大腦結構和視覺語義相結合,並在多個層次上進行對齊,消除了對特定主題模型的需要,僅單次實驗就能提取有效資料,極大降低了訓練成本,增強了在現實場景中的可用性
- 透過擴充套件 fMRI 影像相關文字資料,構建了一個能夠解碼 fMRI 資料的多模態大模型,不僅提高了大腦解碼效能,同時擴大了其應用範圍,包括視覺重建、複雜推理、概念定位等任務
論文地址:
https://nips.cc/virtual/2024/poster/93607
開源專案「awesome-ai4s」彙集了百餘篇 AI4S 論文解讀,並提供海量資料集與工具:
https://github.com/hyperai/awesome-ai4s
資料集:基於自然場景資料集,嚴格評估測試可靠性
實驗所用資料集涉及 Natural Scenes Dataset ( NSD) 資料集和 COCO 資料集,其中 NSD 資料集包含從 8 名健康成人參與者中收集到的高解析度 7Tesla fMRI 掃描,但在具體實驗分析時,研究人員主要分析了其中完成所有資料採集的 4 名受試者。
研究人員還對 NSD 資料集進行了預處理,以便糾正 slice 時序差異的時間重取樣,以及空間插值來調整頭部運動和空間失真。比如像裁剪這類的修改,會導致原始標題和例項邊界框之間不匹配,如下圖所示。為了確保資料一致性,研究人員會重新註釋裁剪的影像,使用 BLIP2 為每個影像生成 8 個標題,並使用 DETTR 為這些影像生成邊界框。
NSD 資料集的部分影像及相應的標題示例
由於一些影像經過操作剪輯,原始標題和例項邊界框之間存在不匹配
此外,為了確保 fMRI 資料與 LLMs 之間的相容性,並實現指令遵循和多樣化的互動,團隊使用自然語言註釋 NSD 時,擴充套件了 7 種型別的對話,分別是:簡要說明 (brief descriptions)、詳細描述 (detailed descriptions)、連續對話 (continuous dialogues)、複雜推理任務 (complex reasoning tasks)、指令重構 (instruction reconstruction) 和概念定位 (concept localization)。
最後,為保證資料的標準化,研究人員使用三線性插值將資料調整到統一的維度,設定 fMRI 標準化為 83 × 104 × 81,在對邊緣應用零填充後將資料劃分為 14 × 14 × 14 個補丁以保留區域性資訊。
模型架構:融合 fMRI 特徵提取與 LLMs 的多模態整合框架
為了解決大腦活動的視覺重建,同時消除 LLMs 與多模態資料的融合問題,研究團隊創新性地設計了一種多模態整合框架,融合 fMRI 特徵提取與大語言模型。如下圖所示:
結合 fMRI 特徵提取與大語言模型的多模態整合框架
具體來說,上圖 (a) 部分描述了使用 Variational Autoencoder (VAE) 和 CLIP 嵌入進行特徵對齊 (Feature Alignment) 的雙流路徑。實驗設定上整合了 CLIP ViT-L/14 和 AutocoderKL 作為影像特徵提取器,兩個隱藏維度為 1024 的雙層感知器 fwc 和 fwv,分別用於與 VAE (zv = Ev) 和 CLIP (zc = Ec) 特徵對齊。
上圖 (b) 部分描述了一個 3D fMRI 前處理器 p 和一個 fMRI 特徵提取器 (fMRl Feature Extractor)。對於 fMRI 資料,使用的是一個 16 層的 Transform Encoder,隱藏大小為 768 來提取特徵,並使用最後一層的類標記作為輸出。然後回到圖 (a) 進行對齊,以實現高質量視覺重建。
上圖 (c) 部分描述了與 fMRI 整合的多模態 LLMs,即透過 LLM 實現多模態互動 (Multimodal Interaction via LLMs)。主要是將提取的特徵輸入 LLMs,用於處理自然語言指令並生成響應或視覺重建。這部分利用網路的倒數第二個隱藏狀態 hᴺᵇ⁻¹ 作為 fMRI 資料的多模態標記,fₜ 為一個兩層感知器,「Instruction」表示自然語言指令,「Answer」表示 LLMs 生成的相應。
經過基於指令的微調後,該模型便可直接透過自然語言進行交流,並支援對自然語言表達的概念進行視覺重建和位置識別,分別透過 UnCLIP 進行視覺重建和 GradCAM 進行概念定位,圖中 D 表示凍結的 UnCLIP。
實驗結果:三大實驗、多方對比,新框架在解碼大腦訊號方面表現卓越
為了評估所提框架的效能,研究人員透過進行字幕和問答、視覺重建以及概念定位等多種型別實驗,並與其他不同的方法進行比較,從而驗證了該框架的可行性和高效性。
如下圖所示,所提框架在大腦字幕任務 (Brain Caption) 的大多數指標上都表現出了卓越的效能。此外,該框架具有良好的泛化能力,不必為每個受試者訓練單獨的模型或引入特定於受試者的引數。研究人員還結合了用於詳細描述 (Detail Description) 和複雜推理 (Complex Reasoning) 的任務,該框架在這兩個任務上也取得了最佳效能,這表明它不僅可以生成簡單的標題,還可以實現詳細的描述並執行復雜的推理。
大腦字幕、詳細描述和複雜推理任務的定量分析
在視覺重建實驗中,如下圖所示。本研究所提方法在高層特徵匹配方面表現出色,證明了該模型有效利用 LLMs 解釋複雜視覺資料的能力。在各種視覺刺激上的魯棒性證實了所提方法對 fMRI 資料的全面理解。沒有 LLM 和 VAE 特徵等關鍵成分的實驗出現分數結果的下降,突出了研究方法中每種元素的重要性,這對於獲得最先進的結果至關重要。
視覺重建的定量評估
此外,研究人員還進行了單次試驗驗證,選擇只使用第一個視覺刺激,類似於 MindEye 的方法。結果顯示即使在更嚴格的條件下,所提方法也只是顯示了效能輕微下降,證明了它實際應用的可行性。
在概念定位實驗中,研究人員首先對 LLMs 進行了微調,以從自然語言中提取目標概念,這些概念一旦透過 CLIP 文字編碼器編碼,就會成為 GradCAM 的目標。為提高定位精度,研究人員訓練了 3 個不同 patch 大小 (14、12、10) 的模型,並利用所有模型的倒數第二層來提取語義特徵。如下圖所示,這表明了所提方法能夠區分相同視覺刺激的大腦訊號中各種語義的位置。
同一視覺刺激不同語義資訊的神經活動差分熱圖
為驗證這一方法的有效性,研究人員對語義概念進行了消融研究。在原始腦訊號中對概念定位後,對識別出的體素中的訊號進行置零,然後使用修改後的腦訊號進行特徵提取和視覺重建。如下圖所示,移除與某些語義概念相關的特定大腦區域的神經活動,會導致視覺重建中忽略相應的語義,這證實了在腦訊號中進行概念定位方法的有效性,並證明了該方法在大腦活動中提取和修改語義資訊的能力,這對於理解大腦中的語義資訊處理至關重要。
語義訊號消零的概念定位驗證及其視覺重構的影響
總的來說,該框架利用 Vision Transformer 3D 與 fMRI 資料的能力,透過 LLMs 的整合得到增強,讓大腦訊號重建視覺刺激方面得到了顯著的改善,併為潛在的神經機制提供了更精確和可解釋的理解。這一成果對於解碼和解釋大腦活動提供了新的研究路徑,在神經科學和腦機介面方面具有重要意義。
解碼人腦運作真相,探索自然界最神秘儀器
大腦作為人類最重要的生物器官,也是自然界中最精密的儀器——擁有上千億個神經細胞和百萬億個連線突觸,形成了神經網路和主導各種腦功能的神經環路。而隨著生命科學技術和人工智慧的不斷髮展,大腦運作的真相正在變得越來越清晰。
值得一提的是,本次論文出處的中國科學院自動化研究所作為我國人工智慧發展的領頭羊,很早就已經在腦科學領域佈局研究,尤其是人腦視覺資訊編解碼研究方面。除了上述提到的曾毅教授團隊,該院曾發表多篇腦科學相關高水平論文,並被國際知名期刊雜誌收錄。
比如在 2008 年底,該院何暉光教授領導的團隊發表的題為「Reconstructing Perceived Images from Human Brain Activities with Bayesian Deep Multiview Learning」的相關研究成果,被收錄於神經網路及機器學習領域國際權威期刊 IEEE Transactions on Neural Networks and Learning Systems。
在這篇研究中,研究團隊以一種科學合理的方式建立起了視覺影像和大腦響應之間的關係,將視覺影像重建問題轉化成多檢視隱含變數模型中缺失檢視的貝葉斯推斷問題。這項研究不僅為探究大腦的視覺資訊處理機制提供了一個強有力的工具,而且為腦機介面的發展,以及類腦智慧的發展起到一定的促進作用。
除了中國科學院自動化研究所外,新加坡國立大學的研究團隊也在透過研究使用 fMRI 記錄被試者看到的影像,然後使用機器學習演算法將其還原成影像。其相關成果以「Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding」為題,發表在 arXiv 上。
除此外,不少商業公司也在窺探「腦世界」的路上狂奔。就在不久前,埃隆·馬斯克在 2024 年神經外科醫生大會上也分享了他對旗下腦機介面公司 Neuralink 以及腦機介面技術的見解,甚至提出了腦機介面費用不應價格過高的言論。
總而言之,針對大腦的解碼技術可以說是一個不斷且快速發展的過程,無論是科研單位的推動,或者是商業公司的推動,都在乘著著人工智慧和機器學習的東風不斷加速智腦時代的到來。同樣值得相信的是,科學的進步也必將會反饋在應用上,比如腦機介面的發展,用機器造福神經系統受損的患者等等。