編輯丨&
自我監督學習 SSL 是一個概念,即資料及其固有的成對關係足以學習有意義的資料表示。監督學習依賴於成對的觀察值和標籤 ,而 SSL 僅依賴於輸入和樣本間關係 。
SSL 已成為一種強大的方法,用於從龐大、未標記的資料集中提取有意義的表示,從而改變計算機視覺和自然語言處理。
在單細胞基因組學 (SCG) 中,表徵學習提供了對複雜生物資料的見解,尤其是新興的基礎模型。然而,在 SCG 中識別 SSL 優於傳統學習方法的場景仍然是一個微妙的挑戰,在 SSL 框架內為 SCG 選擇最有效的藉口任務是一個關鍵但尚未解決的問題。
來自德國慕尼黑的一支研究團隊試圖透過調整和基準測試 SCG 中的 SSL 方法來解決這一差距,這其中包括具有多種掩碼策略的掩碼自動編碼器和對比學習方法。
他們的研究結果以「Delineating the effective use of self-supervised learning in single-cell genomics」為題,於 2024 年 12 月 27 日釋出在《Nature Machine Intelligence》。
在 SCG 中,掩蔽自動編碼器優於對比方法,這與計算機視覺趨勢不同。SSL 在零鏡頭設定與跨模態預測和資料整合方面中有著顯著潛力。
SSL 在 SCG 之中
單細胞基因組學 (SCG) 已迅速擴充套件到大資料領域,這主要是由單細胞 RNA 測序技術的進步引起的。更大的資料集會帶來更多的挑戰,而大模型便因此受到關注並急速發展。
然而,在理解他們的用例以及如何有效利用包含數百萬個單元的新興資料集方面仍然存在差距。SCG 領域現在不僅需要計算能力,還需要戰略性地使用處理大資料複雜性的方法。在這種情況下,SSL 是一種很有前途的方法。
SSL 通常是基礎模型的根本,已經開始影響到小型和大型 SCG。在小規模上,專門的 SSL 方法部署了對比損失,使用多模態學習等技術進行定製,基於圖形的策略和基於聚類的方法以嵌入單元格。
雖然基礎模型已經透過自我監督的預訓練展示了改進,但理清 SSL、擴充套件定律或 transformer 架構的貢獻仍然很困難。
為了指導 SSL 在 SCG 中的有效使用,需要透過系統的經驗驗證來解決這些歧義。此類研究有助於確定 SSL 可以有效促進 SCG 的場景。
團隊的研究旨在確定 SCG 中 SSL 有用的特定場景,並徹底分析和評估 SCG 中的 SSL 方法。基於 SCG 中明確定義的 SSL 基準指標,實證分析主要集中在細胞型別預測應用上,並在基因表達重建、跨模態預測和資料整合方面進行驗證。
他們發現, SSL 可以提高遷移學習設定中的下游效能,即在分析由來自較大輔助資料集的見解提供的較小資料集時,以及在涉及看不見的資料集的情況下。
SSL 框架原意是用於開發自我監督方法並研究 SCG 中的不同用例,其核心是使用完全連線的自動編碼器架構,這些架構因其在 SCG 任務中無處不在的應用而被選中。
圖示:SCG 中輔助資料上的 SSL 提高的效能。(圖源:論文)
這些最佳化策略需要利用不同程度的生物學洞察力,從具有最小歸納偏差的隨機掩蔽到密集利用已知基因功能的孤立掩蔽,強調有針對性的生物學關係。
SSL 與訓練後的預測
作為 SCG 中自我監督的第一個用例,團隊詢問了對細胞圖譜或較小資料集的分析是否可以從輔助資料的自我監督預訓練中受益。
值得注意的是,在大量供體上進行預訓練,SSL 的效能優於監督學習,這凸顯了豐富的預訓練資料集的必要性。
團隊對 SSL 方法的基準測試揭示了對選擇預訓練策略的敏感性。對比學習已被證明在語言或者視覺建模等領域有效的方案,SSL 在較小規模上有效。
圖示:SSL 在看不見的資料集上實現了高零樣本效能與更高的準確性。(圖源:論文)
如果為監督模型和 SSL 模型提供對相同資料的訪問許可權,它們的效能將非常相似。倘若把這點擴充套件到看不見的資料集中,就能發現,雖然都是在分佈內部,但是在分析看不見的資料集時,SSL 對於泛化的運用更加具有優勢。
在對 SSL 在轉錄組學上的效用進行了基準測試後,研究團隊試圖將研究擴充套件到多組學,意在尋找 SSL 是否可以利用來自一種模態的輔助資料來增強多模態下游任務。
在經歷了對蛋白質組學計數等預訓練後,團隊得出了結論。SSL 在預測上的效能明顯優於其監督對應物。這一發現突出了在一種模式更豐富的情況下自我監督的優勢。
更多的發展方向
由於批次效應(例如實驗條件或混雜因素),整合單細胞資料集進行聯合分析非常困難,這給圖譜分析工作帶來了獨特的挑戰。
團隊的實驗結果闡明瞭 SSL 可以表現出色的背景,尤其是在利用來自龐大輔助資料集的見解進行較小的資料集任務和看不見的資料集場景時。
SSL 與受監督方法相同,在監督方法中,兩者都訪問相同的資料,並且零樣本 SSL 模型接近該效能。
團隊為 SCG 中的 SSL 提供了穩健的、以實證為基礎的觀點,為研究複雜生物系統提供更明智的資料驅動方法鋪平了道路。在大型模型與基礎模型的上下文中,這些理解可以幫助設計預訓練和選擇藉口任務。
SSL 方法的基準為從業者提供了關於在上述設定中哪種方法有利的明確建議。因其在各種任務中具有魯棒性和多功能性,團隊建議使用隨機掩碼策略進行掩碼預訓練,這是基礎模型的核心。
對於更廣泛的計算生物學社群,研究團隊已經證明,對圖譜級資料進行自我監督的預訓練有助於提高通常更難擴充套件的生物學或醫學相關性較小資料集的效能。
原文連結:https://www.nature.com/articles/s42256-024-00934-3
程式碼連結:https://doi.org/10.5281/zenodo.13358872