1.3億突觸、數萬神經元,谷歌、哈佛釋出史上最強三維「人腦地圖」
机器之心發表於2021-06-04
2020 年 1 月,谷歌推出了果蠅的半腦連線體,這個線上資料庫提供了果蠅半腦的形態結構和突觸聯絡。這個資料庫及其配套的視覺化工具果蠅大腦中神經迴路的研究和理解方式。雖然果蠅的大腦很小,可以使用現代對映技術獲得相對完整的圖譜,但獲得的洞見對於理解神經科學中最有趣的物件——人類大腦還遠遠不夠。這個新的「連線體」描繪了果蠅大腦中大約 25000 個神經元,這裡顯示了其中的一部分。基於此,谷歌聯合哈佛大學 Lichtman 實驗室於近日推出了「H01」資料集,這是一個 1.4 PB 的人類腦組織小樣本渲染圖。H01 樣本透過連續切片電子顯微鏡獲得了 4nm 解析度的影像,利用自動計算技術進行重建和註釋,並進行分析以初步瞭解人類皮層的結構。該專案的主要目標是為研究人腦提供一種新的資源,並改進和擴充套件潛在的連線組學技術。「H01」資料集包含了大約 1 立方毫米腦組織的成像資料,包括數以萬計的重建神經元、數百萬個神經元片段、1.3 億個帶註釋的突觸、104 個校對過的細胞,以及許多額外的亞細胞註釋和結構,所有這些都可以透過 Neuroglancer 瀏覽器介面輕鬆訪問。這是迄今為止人類編制的最全面、最詳細的「人類大腦地圖」,也是第一個大規模研究人類大腦皮層的突觸連線的樣本,該成果為研究人類大腦提供了重要資源。這一樣本仍然只是整個人類大腦容量的百萬分之一,未來的擴充套件研究仍然是一個巨大的技術挑戰。資料集地址:https://h01-release.storage.googleapis.com/landing.html左:資料的小子集;右:資料集中 5000 個神經元,以及興奮性(綠色)和抑制性(紅色)連線的子圖。大腦皮層是脊椎動物大腦的薄表層,在不同的哺乳動物中尺寸差異較大(尤其在人類中)。大腦皮層的每個部分都有六層,每層有不同種類的神經細胞。大腦皮層在高階認知功能(比如思考、記憶、計劃、感知、語言和注意力)中起著至關重要的作用。人類雖然在這種複雜組織的宏觀結構理解上已經取得了一些進展,但對於單個神經細胞及其相互連線的突觸水平上的組織結構還不清楚。以單個突觸的解析度繪製大腦結構圖需要高解析度顯微鏡技術,這種技術可以對生物化學穩定的組織進行成像。研究團隊與腦外科醫生合作,他們在進行治療癲癇的手術時,有時會把正常人大腦皮層的一部分切掉,以便進入大腦深處癲癇發作的位置。被切掉的部分通常會被丟棄,而研究者得到了病人匿名捐贈的這個組織,以供 Lichtman 實驗室的同事做研究。哈佛大學的研究人員使用一臺自動化磁帶收集超微切片機,將組織切割成約 5300 個 30 奈米的切片,將這些切片放到矽片上,然後在一臺定製的 61 束平行掃描電子顯微鏡中以 4nm 解析度對腦組織進行成像,以便快速獲取影像。對約 5300 個物理切片進行成像產生 2.25 億張單獨的 2D 影像。研究團隊將這些資料拼接(stitch)和對齊(align),生成一個單一的 3D 體積(volume)。雖然資料質量都很好,但這些對齊(alignment)pipeline 必須有力地處理許多挑戰,包括成像偽影、切片缺失、顯微鏡引數的變化以及組織的物理拉伸和壓縮。對齊之後,一個使用了數千谷歌雲 TPU、多尺度的 flood-filling Network pipeline 就會被應用於生成組織中每個單獨細胞的 3D 分割。此外,其他的機器學習演算法被應用於識別和表徵 1.3 億個突觸,將每個 3D 片段分類為不同的子區域(如軸突、樹突或細胞體),並識別其他感興趣的結構,如髓磷脂和纖毛。自動重建的結果並不完美,所以人工校對了大約 100 個細胞的資料。隨著時間推移,研究團隊希望透過額外的手動操作和自動化的進一步發展,在這個經過驗證的集合中新增額外的細胞。成像資料、重建結果和註釋都可以透過基於 web 的互動式 3D 視覺化介面檢視,這個介面叫做 Neuroglancer,最初是為了視覺化果蠅的大腦而開發的。Neuroglancer 是開源的,被廣泛的應用於連線組學領域。研究團隊引入新特徵來支援分析 H01 資料集,特別是支援根據神經元的型別或其他屬性搜尋資料集中的特定神經元。連線 H01 和註釋的 Neuroglancer 介面。使用者可以根據細胞的層次和型別選擇特定的細胞,可以檢視輸入和輸出的突觸。目前,這項研究的最新成果《A connectomic study of a petascale fragment of human cerebral cortex》已經發表在 bioRxiv 上,研究者展示了 H01 是如何被用來研究人類大腦皮層組織有趣方面。特別是,新的細胞型別已經被發現,以及「異常」軸突輸入的存在,它們與目標樹突建立了強大的突觸連線。雖然這些發現是一個有希望的開始,但龐大的 H01 資料集,將為大腦皮層的進一步研究奠定基礎。論文地址:https://www.biorxiv.org/content/10.1101/2021.05.29.446289v1為了加快對 H01 分析,研究團隊還提供了使用 SimCLR 自監督學習變體訓練神經網路生成的 H01 資料的嵌入。研究團隊使用 Google Cloud TPU pods 對這些嵌入進行了訓練,然後對分佈在整個體積中的大約 40 億個資料位置進行了推斷。H01 是一個 PB 級的資料集,但只有整個人腦的百萬分之一。在將突觸級別的大腦對映擴充套件到整個老鼠大腦(比 H01 大 500 倍)存在嚴重的技術挑戰,更不用說整個人類大腦了。面臨的一個挑戰是資料儲存:一個老鼠的大腦可以產生一個 EB 級的資料,需要昂貴的儲存。為了解決這個問題,研究團隊還發表了一篇論文《Denoising-based Image Compression for Connectomics》,論文中描述瞭如何使用基於機器學習的去噪策略來壓縮資料的細節,例如 H01,至少 17-fold(下圖中的虛線),在自動重建中精度損失可以忽略不計。論文地址:https://www.biorxiv.org/content/10.1101/2021.05.29.445828v1未來,資料集的龐大規模要求研究人員開發新的策略,來組織和訪問連線資料中固有的豐富資訊,這也是谷歌研究者提到未來繼續努力的方向。原文連結:https://ai.googleblog.com/2021/06/a-browsable-petascale-reconstruction-of.html