效率提高近百倍,山大團隊AI新方法解析複雜器官空間組學,登Nature子刊

ScienceAI發表於2024-09-09

圖片

編輯 | 蘿蔔皮

空間組學技術以細胞和亞細胞解析度解析複雜器官的功能元件。

山東大學的研究團隊引入了空間圖傅立葉變換 (Spatial Graph Fourier Transform,SpaGFT),並將圖訊號處理應用於各種空間組學分析平臺,以生成可解釋的表示。

這種表示支援空間可變基因識別並改進基因表達推斷,在分析人類和小鼠空間轉錄組資料方面優於現有工具,效率是現有工具的百倍。

SpaGFT 可以識別人類淋巴結 Visium 資料中 B 細胞成熟的免疫區域,並使用內部人類扁桃體 CODEX 資料表徵次級濾泡的變化。

此外,它可以無縫整合到其他機器學習框架中,將空間域識別、細胞型別註釋和亞細胞特徵推斷的準確性提高多達 40%。

值得注意的是,SpaGFT 在高解析度空間蛋白質組學資料中檢測稀有亞細胞器。這為探索組織生物學和功能提供了一種可解釋的圖形表示方法。

該研究以「Graph Fourier transform for spatial omics representation and analyses of complex organs」為題,於 2024 年 8 月 29 日釋出在《Nature Communications》。

圖片

空間組學技術透過細胞和基因雙重視角,全面解析組織內的分子景觀,涵蓋基因組到蛋白質組等多個層面。經典方法中,以細胞為中心的方法主要研究細胞組成與互動,以基因為中心的方法則關注基因表達的空間變異性。

相比經典統計方法,基於圖的方法可以整合這兩種視角,用節點表示細胞,邊表示空間或功能聯絡,透過圖訊號編碼分子特徵,提升分析的可解釋性。現有基於圖的機器學習方法存在「黑箱」問題,需要更通用的圖訊號表示框架來揭示覆雜關係。

為了解決這些問題,山東大學的研究人員提出了空間圖傅立葉變換( Spatial Graph Fourier Transform,SpaGFT),這是一種分析特徵表示方法,用於編碼平滑圖訊號來表示組織和細胞內的生物過程。它將圖形訊號處理技術和空間組學資料連線起來,支援各種下游分析並促進有洞察力的生物學發現。

圖片

圖示:SpaGFT 用於空間組學表示的架構。(來源:論文)

功能與效能

SpaGFT 框架提供了圖訊號轉換和七個下游任務:SVG 識別、基因表達歸納、蛋白質訊號去噪、空間域表徵、細胞型別註釋、細胞斑點比對和亞細胞界標推斷。

它消除了對預定義表達模式的需求,並顯著提高了計算效率,這在 31 個人/小鼠 Visium 和 Slide-seq V2 資料集的基準測試中得到了證明。

SpaGFT 在識別 SVG 方面的表現優於其他工具,效率是其他工具的百倍。研究人員還強調了他們手動整理的 458 個小鼠和人類大腦基因作為接近最佳化的標準 SVG。

圖片

圖示:SVG 識別和空間組學特徵歸納的效能。(來源:論文)

這將帶來基於真實人/鼠資料的替代評估指標,它是對基於模擬的評估方法的補充,例如 BSP60、SPARK-X、SpatialDE、SPARK、scGCO 和其他基準測試工作。

此外,實施低通濾波器和逆 GFT 可以有效地推斷低表達基因表達並去除高噪聲蛋白質強度,從而實現更精確的空間域預測,如人類背外側前額葉皮質所展示的那樣。

值得注意的是,SpaGFT 透過實現更準確的機器學習預測,促進了空間組學資料的解釋。

它在空間域識別的準確性、從細胞型別到斑點的註釋轉移的較低錯誤、細胞到斑點比對的正確性以及亞細胞標誌推斷的驗證損失方面顯著提高了現有框架的效能 8-40%。

價值與意義

從計算的角度看,SpaGFT 和 scGCO 是空間組學資料分析的兩種圖形表示方法,前者側重於組學特徵表示,後者側重於 SVG 檢測。scGCO 採用圖切割的方法對組織進行分割,並比較分割與基因表達之間的一致性,以支援 SVG 檢測。

SpaGFT 使用圖傅立葉變換來尋找新的潛在空間來表示基因表達並實現各種下游任務,包括但不限於 SVG 識別、基因表達增強和功能組織單元推斷。

此外,將 SpaGFT 應用到現有的可解釋空間多模態框架(如 UnitedNet、MUSE 和 modalities-autoencoder)中也具有很好的潛力。

以 UnitedNet 為例,它採用可解釋的機器學習技術來剖析訓練有素的網路並量化不同模式下特徵的相關性,特別是研究特定於細胞型別的關係。

圖片

圖示 :SpaGFT 針對三個以細胞為中心的工具實現,該圖由四列組成,每列對應空間組學分析、計算公式、最佳化示例工具中的 FC 實現以及效能評估。(來源:論文)

為了給 UnitedNet 帶來更多的空間洞察力,SpaGFT 可以提供 (1) 增強特徵和 (2) 可解釋的正則化器。為了生成增強空間組學特徵,SpaGFT 可以首先計算頂點域中的細胞-細胞關係(例如,從 H&E 特徵、基因表達或蛋白質強度計算),並將關係轉換為 FC,FC 編碼和量化細胞-細胞變異模式,可將其視為 UnitedNet 的輸入之一。

關於將 SpaGFT 實現為可解釋的正則化器,可以將擴散熵引入到 UnitedNet 的重建損失函式中,因為 UnitedNet 具有編碼器-解碼器結構。

透過在傅立葉域上對編碼和解碼的空間組學特徵的熵進行正則化,可以引導 UnitedNet 學習呈現低頻訊號的空間組織區域(例如,具有特定模式和功能的一個功能組織單元)。這些增強對於使用可解釋的正則化深度學習框架來表徵複雜的生物結構至關重要,包括識別稀有的亞細胞器,從而對細胞機制提供更深入的瞭解。

仍有提升空間

然而,在預測效能和理解FTU機制方面仍有提升空間。

首先,SpaGFT在頻域中討論了低頻訊號,但缺乏對中高頻訊號的討論。雖然先前的研究表明大多數功能相關的生物訊號出現在低頻區域,但在中頻和高頻區域也發現了某些特殊訊號。因此,在未來的研究中,研究人員可能會更多地關注多頻訊號的解釋。

其次,儘管SpaGFT 的計算速度非常具有競爭力,但可以透過使用快速傅立葉變換演算法將計算複雜度從 O(n^2) 降低到 O(n×log(n)) 來進一步提高。

第三,點圖和 FTU 拓撲的改變代表著在來自不同組織或實驗的空間樣本中識別 FTU 的潛在挑戰,這會導致 FM 空間不同並使得 FC 無法比較。

這類似於多個單細胞 RNA 測序 (scRNA-seq) 整合分析中的“批次效應”問題。解決這一挑戰的一個可能方法是使用機器學習框架(例如最優傳輸)將空間資料點嵌入並對齊到固定的拓撲空間。另一種可能性是使用 H&E 影像作為所有影像的共同參考,以使嵌入組織具有感知能力。

第四,在 CODEX 影像上實施 SpaGFT 依賴於專家的知識來預先選擇功能區域。分析多路複用影像的未來方向是開發一個拓撲學習框架,基於 SpaGFT 特徵表示自動檢測和分割功能物件。

圖片

圖示:向 CAMPA 實施 FC 的案例。(來源:論文)

總的來說,該研究的價值在於為空間組學建模中可解釋的人工智慧帶來另一種視角,包括多解析度空間組學資料整合和跨時空資料的模式分析。

相關報導:https://www.nature.com/articles/s41467-024-51590-5

相關文章