新SOTA,僅幾個標記基因即可自動標記,復旦大學開發空間轉錄組學語義註釋貝葉斯框架

ScienceAI發表於2024-05-06

圖片

編輯 | 蘿蔔皮

空間轉錄組學的出現,徹底改變了組織內基因表達的研究。然而,註釋空間點的生物特性仍然是一個挑戰。

為了解決這個問題,復旦大學的研究人員引入了 Pianno,一個基於標記基因自動進行結構語義註釋的貝葉斯框架。

Pianno 在精確註釋各種空間語義(從不同的解剖結構到複雜的腫瘤微環境)以及估計細胞型別分佈(跨各種空間轉錄組學平臺生成的資料)方面的卓越能力。

研究人員使用 Pianno 結合聚類方法,揭示了人類新皮質深層 3 中區域和物種特異性的興奮性神經元亞型,展示了人類新皮質的細胞進化過程。

Pianno 作為一種準確高效的工具,能夠替代勞動密集型的手動註釋程式,並在與無監督聚類方法結合時揭示新的生物學洞見。

該研究以「Pianno: a probabilistic framework automating semantic annotation for spatial transcriptomics」為題,於 2024 年 4 月 2 日釋出在《Nature Communications》。

圖片

空間轉錄組學技術如 10× Visium、Slide-seq 和 Stereo-seq 已經徹底改變了研究組織內基因表達模式,同時保留了空間資訊。然而,僅僅獲取組織內特定物理座標的基因表達概況,還不足以完全理解生物系統的複雜性。

想要深入理解則需要識別每個空間點的生物學意義,即模式註釋。這些模式可以代表大腦區域、腫瘤或正常組織以及細胞型別,類似於計算機視覺中的「語義分割」概念。為此,科學家引入了空間轉錄組學語義註釋的概念,旨在將組織內的空間點分配給預定義結構或細胞型別的模式。

在生物學解釋方面,雖然已經開發了許多基於機器學習的方法來識別空間單元(點)的聚類並使用標記基因解釋它們的生物學意義,但這些方法通常缺乏將這些聚類與已知結構明確聯絡起來的能力。

在細胞型別層面,常用的工具依賴於去卷積方法來探索細胞型別的空間分佈,但這些工具受到單細胞 RNA-seq 資料需求和批次效應潛在干擾的限制。雖然學界開發了基於標記基因的方法,來進行多重原位成像資料的細胞分割和空間轉錄組學中的細胞型別解卷積,但仍缺乏基於標記基因的空間語義註釋工具。

為了解決現有方法的侷限性,復旦大學的研究人員開發了 Pianno(Pattern image annotation),這是一種貝葉斯框架,可使用預定義的標記列表自動註釋空間轉錄組學中點的生物學意義。Pianno 具有獨特的功能,只需幾個標記基因即可自動標記模式,包括解剖結構和細胞型別。該框架適用於各種空間轉錄組學技術生成的資料。

圖片

圖示:Pianno 框架工作流程。(來源:論文)

Pianno 框架工作流程

Pianno 採用機率框架基於一組標記基因對空間轉錄組學進行語義註釋。Pianno 的輸入包含空間轉錄組資料,例如空間座標、原始基因計數和初始標記基因列表,該團隊為每個模式提供了一個已知標記。

註釋過程由兩個連續步驟組成:初始分割步驟和細化步驟。

在初始步驟中,每個基因的空間表達都被轉換為灰度影像。然後,對於每個目標模式,透過聚合與該模式相關的標記基因的灰度影像來建立模式影像。然後,考慮到初始註釋結構中不同的表達模式,透過識別每個模式的其他候選標記基因來更新初始標記列表。這個標記列表被整合到後續的細化步驟中。

在細化階段,建立貝葉斯分類器來估計屬於不同模式的每個空間點的後驗機率。然後根據後驗機率更新註釋。

Pianno 提供了兩種更新註釋的方法。對於語義標註中的連續模式,研究人員建議將機率分佈作為模式影像並將其返回到模式檢測器以進行更新的標註。對於分散或尖銳形狀的圖案,則建議直接根據機率值更新標註,因為它保留了詳細資訊。

總之,Pianno 不僅簡化了註釋過程,而且還採用啟發式方法,使用初始單個標記基因來識別其他標記基因,從而最大限度地減少對作為輸入的已知標記數量的要求。

Pianno 卓越的效能

在後續的評估中,與最先進的空間聚類方法相比,Pianno 表現出了卓越的效能,能夠準確識別與手動標記相似的模式。此外,Pianno 在重建細胞型別的空間分佈方面優於反摺積方法。應用 Pianno,研究人員發現了新皮質第 3 層和第 5 層神經絲基因的大腦區域和物種特異性空間表達模式。

圖片

圖示:Pianno 在皮質結構重建方面的表現評估。(來源:論文)

Pianno 效能的提升歸功於其在模式檢測模組中對標記基因的創新處理,為貝葉斯分類器提供了強有力的先驗分佈。該分類器將馬爾可夫隨機場(MRF)與空間泊松點過程(sPPP)無縫整合,利用 sPPP 模擬來自 RNA-seq 的計數資料,並考慮空間鄰近點之間的協方差。在隨後的 MRF 設計中,Pianno 分析了轉錄組和空間相似性,以及點之間的全域性一致性,從而確保了標記的準確細化。

圖片

圖示:Pianno 語義註釋揭示了新的區域和物種特異性細胞組織。(來源:論文)

雖然 Pianno 在空間語義註釋方面展現出強大的能力,但其效果與明確的初始標記和組織分子知識密切相關,這可能限制了演算法發現未知生物學模式的能力。

未來的研究應優先考慮整合額外資訊維度,例如透過整合蘇木精-伊紅(H&E)或 4',6-二氨基-2-苯基吲哚(DAPI)影像獲得的細胞大小和密度資訊。這些增強措施可能減少 Pianno 對標記的依賴,從而提高其整體穩健性。

此外,將 Pianno 與標記識別流程整合是一個有前景的方向,這將為 Pianno 自動最佳化其標記選擇提供機會,增強其在標記選擇中的抗噪聲能力,減少對先驗知識的依賴。這些最佳化可以共同提高 Pianno 的穩健性和適用性。

論文連結:https://www.nature.com/articles/s41467-024-47152-4

相關文章