預測蛋白質共調控和功能,哈佛&MIT訓練含19層transformer的基因組語言模型

ScienceAI發表於2024-04-17

預測蛋白質共調控和功能,哈佛&MIT訓練含19層transformer的基因組語言模型

編輯 | 蘿蔔皮

破譯基因及其基因組背景之間的關係,是理解和設計生物系統的基礎。機器學習在從大量蛋白質序列資料集中學習序列-結構-功能正規化背後的潛在關係方面表現出潛力。

哈佛大學和麻省理工學院(MIT)的研究人員在數百萬個宏基因組框架上訓練基因組語言模型(gLM),從而分析基因之間潛在的功能和調控關係。

gLM 能夠學習「上下文」化的蛋白質嵌入,捕獲基因組上下文以及蛋白質序列本身,並編碼具有生物學意義和功能相關的資訊(例如酶功能、分類學)。

該研究以「Genomic language model predicts protein co-regulation and function」為題,於 2024 年 4 月 3 日釋出在《Nature Communications》。

圖片

進化過程在蛋白質的序列、結構和功能之間建立了複雜的聯絡,這些聯絡對於解釋基因組資料至關重要。雖然在基於神經網路(NN)的蛋白質結構預測方法和蛋白質語言模型(pLM)在無監督學習方面取得了進展,但這些模型通常忽略了蛋白質在基因組中的相互關係和背景。

特別是在細菌和古細菌中,水平基因轉移(HGT)等進化事件對基因組的組織和多樣性產生了顯著影響。因此,需要一種能夠捕捉基因、基因組背景和基因功能之間進化聯絡的方法。現有的基因組資訊建模嘗試主要關注基因功能的預測,而忽略了基因在多維空間中的連續性。

最近的研究如 GenSLM 之類的方法嘗試透過預訓練和微調來學習基因組規模資訊,但目前還沒有一種方法能夠綜合預訓練——不同生物譜系、豐富連續的基因表示以及處理包含多個基因的長片段——三方面內容,來學習不同生物學譜系的基因組背景資訊。

為了縮小基因組背景和基因序列結構功能之間的差距,哈佛大學和 MIT 的研究人員開發了一種基因組語言模型(gLM)來學習基因的背景表示。gLM 利用 pLM 嵌入作為輸入,對基因產物的關係屬性和結構資訊進行編碼。

圖片

圖示:gLM 訓練和推理示意圖。(來源:論文)

透過無監督訓練,模型學習了語言的語義和語法,並在掩碼語言建模中透過預測被遮蔽的單詞來提高效能。特別是,該模型基於 19 層 Transformer 架構,並透過掩碼語言建模目標使用數百萬個未標記的宏基因組序列進行訓練;模型學習根據基因組上下文預測掩碼基因,允許在給定上下文中對最多四個不同的預測選項及其機率進行估計。

效能評估採用偽精度指標,並重點關注 E.coli K-12 基因組,透過從訓練集中排除與其高度相似的子片段。驗證結果顯示,gLM 達到 71.9% 的偽精度和 59.2% 的絕對精度,表明其能夠學習有意義的置信度指標,其中 75.8% 的高置信度預測正確。與使用相同任務和資料集訓練的雙向 LSTM 模型(偽精度為28%,絕對精度為15%)相比,gLM 的效能顯著提高。

圖片

圖示:gLM (A) 和 biLSTM 基線 (B) 的驗證精度曲線。(來源:論文)

同時,研究人員強調了使用預訓練蛋白質語言模型(pLM)表徵的重要性,當將其替換為單熱氨基酸表徵時,模型效能降至隨機預測水平(偽精度為3%,絕對精度為0.02%)。

圖片

圖示:gLM 預測蛋白質-蛋白質相互作用的同源性。(來源:論文)

總體而言,gLM 為研究基礎生物學提供了一個有潛力的方式,研究人員還提出了未來的幾個最佳化方向:

首先,Transformer 架構在高效擴充套件方面已被證明是成功的;在自然語言和蛋白質語言處理中,增加模型中的引數數量以及訓練資料集的大小已被證明可以大大提高效能和通用性。該團隊的模型由約 1B 個引數組成,與最先進的 pLM 相比,這些引數至少要小一個數量級。透過進一步的超引數調整和縮放,模型將有更好的效能。

其次,目前該模型使用 pLM 嵌入來表示輸入中的蛋白質。這些嵌入是透過對整個蛋白質序列的氨基酸殘基水平隱藏狀態進行平均池生成的,因此殘基特異性資訊和同義突變效應可能被掩蓋。該模型的未來迭代可以使用原始殘基水平或密碼子水平嵌入作為輸入,以允許對蛋白質之間的殘基到殘基共同進化相互作用以及同義突變對基因功能的影響進行建模。

第三,重建掩蔽蛋白質嵌入的任務需要對可能嵌入的分佈進行建模;該方法使用固定數量的預測來近似該分佈。未來的工作可以透過使用生成方法(例如擴散或 GAN 模型)來改進這一點。這可以為未見過的資料集提供更好的預測準確性和更大的通用性。

第四,新增非蛋白質模式(例如非編碼調控元件)作為 gLM 的輸入也可以極大地改善 gLM 對生物序列資料的表示,並且可以學習以其他模式為條件的蛋白質功能和調控。

第五,該模型主要是在細菌、古菌和病毒基因組上進行訓練,因此,該方法如何適用於真核基因組,特別是那些具有廣泛基因間區域的真核基因組,仍有待進一步探索。

圖片

圖示:對上下文無關、僅上下文和上下文化基因嵌入的線性探測。(來源:論文)

研究人員也指出了應用 gLM 推進生物學研究的未來方向:

1、基於特徵的遷移學習,用於預測蛋白質功能(例如基因本體論[GO]術語),特別是那些具有有限序列和結構同源性的蛋白質功能。

2、針對蛋白質-蛋白質-相互作用組預測任務微調 gLM。

3、使用 gLM 特徵對基因組上下文進行編碼,作為改進和上下文化的蛋白質結構預測的附加輸入。

總之,基因組語言模型是一個強大的工具,可以從完整的宏基因組序列中公正地濃縮重要的生物資訊。再加上長讀長測序的進步,研究人員認為輸入資料的質量、數量和多樣性將大幅提高。基因組語言建模提供了一條彌合原子結構和有機體功能之間差距的途徑,從而使科學家更接近生物系統建模,並最終精確地操縱生物學(例如基因組編輯、合成生物學)。

論文連結:https://www.nature.com/articles/s41467-024-46947-9

相關文章