可發現藥物靶點,哈佛等機構開發了一種對蛋白建模的深度學習方法

ScienceAI發表於2024-03-18

可發現藥物靶點,哈佛等機構開發了一種對蛋白建模的深度學習方法

編輯 | 蘿蔔皮

翻譯延伸對於維持細胞蛋白質穩態至關重要,並且翻譯景觀的改變與一系列疾病相關。核糖體分析可以在基因組規模上詳細測量翻譯。然而,目前尚不清楚如何從這些資料中的技術產物中分離出生物變異,並識別翻譯失調的序列決定因素。

在最新的研究中,中國科學院、哈佛大學(Harvard University)、史丹佛大學(Stanford University)、約翰霍普金斯大學(Johns Hopkins University)的研究團隊開發了 Riboformer,一個基於深度學習的框架,用於對翻譯動態中上下文相關的變化進行建模。

Riboformer 利用 Transformer 架構,能夠以密碼子解析度準確預測核糖體密度。當在無偏資料集上進行訓練時,Riboformer 會糾正以前未見過的資料集中的實驗偽影,這揭示了同義密碼子翻譯中的細微差異,並揭示了翻譯延伸的瓶頸。

研究人員表明 Riboformer 可以與計算機誘變相結合,以識別有助於核糖體在各種生物環境(包括衰老和病毒感染)中停滯的序列基序。

該研究以「Riboformer: a deep learning framework for predicting context-dependent translation dynamics」為題,於 2024 年 3 月 5 日釋出在《Nature Communications》。

可發現藥物靶點,哈佛等機構開發了一種對蛋白建模的深度學習方法


翻譯動態分析的挑戰性

核糖體以不同的速率沿著 mRNA 移動,這會影響蛋白質穩態和細胞功能。轉錄組的延伸率是由區域性序列特徵(例如 mRNA 二級結構、帶電氨基酸簇和連續脯氨酸殘基)與全域性因素(例如細胞資源可用性和蛋白質質量控制)之間複雜的相互作用決定的。

這些錯綜複雜的問題會影響翻譯效率、共翻譯蛋白質摺疊和共價修飾。細胞必須微調延伸率,以達到每個 mRNA 的適當蛋白質輸出水平,滿足調節和蛋白質摺疊的需求。但是在理解翻譯動力學方面,破譯複雜疾病中翻譯失調和蛋白質穩態崩潰的調控密碼仍然具有挑戰性。

核糖體分析的出現使科學家對 mRNA 翻譯的理解取得了實質性進展。核糖體分析捕獲並測序受核糖體保護免於核酸酶消化的 mRNA 片段,從而可以可靠地推斷每個足跡中的核糖體解碼位點,併產生有關每個基因的 mRNA 上核糖體分佈的資訊。

一般來說,密碼子上的核糖體密度越大,解碼速度就越慢。科學家發現非最佳密碼子具有更高的核糖體密度,且解碼速度更慢。科學家已經開發了幾種計算方法,但人們很少致力於對翻譯動態中上下文相關的變化進行建模。並且,現有的計算工具缺乏使用多個資料集(有偏與無偏)來模擬這些偽影引起的核糖體分佈變化的能力。

其次,在複雜的生理狀態下驅動翻譯景觀變化的潛在機制,在很大程度上仍然難以捉摸。即便以疾病為中心的研究通常採用病例與對照等設計原則,但目前的方法並未利用這些方法來揭示影響疾病進展中翻譯延伸的序列特徵。另外,當前模型的預測能力有限。訓練後的模型不能用於改進現有實驗的分析或預測新環境中的核糖體分佈。

深度學習框架 Riboformer

為了應對這些挑戰,中國科學院、哈佛大學、史丹佛大學、約翰霍普金斯大學的研究人員提出了 Riboformer,這是一種基於深度學習的框架,可以模擬密碼子解析度下核糖體動力學中上下文相關的變化。

該模型比較了兩個資料集之間的核糖體分佈,並提取驅動它們之間差異的序列特徵。這種結構使經過訓練的 Riboformer 模型能夠從輸入資料集中消除實驗偏差,查詢核糖體密度相對變化的序列決定因素,並根據單體譜預測核糖體碰撞(二體)位點。

可發現藥物靶點,哈佛等機構開發了一種對蛋白建模的深度學習方法


圖示:Riboformer 概述。(來源:論文)

該方法基於 Transformer 架構,可以有效地捕獲翻譯延伸調節中密碼子之間的相互依賴性。研究人員使用各種原核和真核核糖體分析資料集對 Riboformer 的預測效能進行了基準測試。

測試結果證明,該神經網路結構在模擬實驗方案對體內翻譯景觀的影響方面有效,並且經過訓練的 Riboformer 模型可以糾正各種未見過的資料集中的偽影。這個過程揭示了同義密碼子翻譯中的細微差異,並揭示了翻譯延伸中的潛在瓶頸。

與計算機誘變分析相結合,Riboformer 可以識別在各種生物環境(例如衰老和病毒感染)中導致核糖體停滯的肽基序,證明了其在不同研究領域的多功能性。

可發現藥物靶點,哈佛等機構開發了一種對蛋白建模的深度學習方法


圖示:Riboformer 捕捉翻譯動態的上下文依賴性。(來源:論文)

Riboformer 可用於藥物靶點

透過模擬序列突變對核糖體佔用的影響,Riboformer 模型識別了負責核糖體碰撞的序列,提供了超越簡單基序分析的見解。這種方法能夠對核糖體暫停位點進行精細分類,揭示氨基酸電荷和 mRNA 結構對核糖體碰撞的影響,並確定富含脯氨酸的基序對年輕和老化酵母中核糖體停頓的影響。

此外,它還提供了對翻譯動力學調控密碼的深入瞭解,有助於發現新的治療靶點。該團隊應用 Riboformer 分析 SARS-CoV-2 感染人類細胞後的核糖體譜。

可發現藥物靶點,哈佛等機構開發了一種對蛋白建模的深度學習方法


圖示:SARS-CoV-2 規範開放閱讀框 (ORF) 的核糖體譜分析。(來源:論文)

結果表明,脆性 X 智力遲鈍蛋白 (Fragile X Mental Retardation Protein,FMRP) 的結合基序有助於感染後期核糖體佔用率的增加。值得注意的是,FMRP 已被證明可以與多核糖體結合,該團隊的結果表明脆性 X 綜合徵藥物具有抑制 SARS-CoV-2 病毒繁殖的治療潛力。

有趣的是,FMRP 對 ZIKA 病毒具有抗病毒活性。此外,一項新的研究表明,透過抑制 mGluR5 可減少 SARS-CoV-2 病毒載量,mGluR5 是透過 FMRP 發出訊號的脆性 X 綜合徵的主要藥物靶點。

Riboformer 的侷限性

Riboformer 框架也存在侷限性。首先,它依賴現有的資料集進行訓練。隨著平移景觀無偏測量技術的發展,研究人員設想可以進一步訓練新的 Riboformer 模型,以改進對有偏資料集的分析。其次,與許多現有方法一樣,Riboformer 不考慮翻譯起始和終止,這兩者都會影響核糖體沿著轉錄本排隊。該模型在下游分析中排除了基因編碼區的前十個密碼子。這可以在未來的工作中透過翻譯起始率和延伸率的系統量化和建模來解決。第三,由於訓練樣本數量有限,Riboformer 不適用於處理核糖體移碼等罕見事件。

結語

總而言之,Riboformer 是一種端到端工具,有助於核糖體分析資料集的標準化和解釋,同時提供了一種對現有異質核糖體分析資料集進行綜合分析的方法。比較多個物種的核糖體譜可以透過進化的視角研究核糖體停滯,為研究決定密碼子選擇和延伸效率的進化力量鋪平道路。

此外,隨著單細胞 Ribo-seq 和 RIBOmap 等單細胞測序方法的快速發展,Riboformer 等上下文感知模型將使以細胞狀態和細胞型別特異性方式研究翻譯動力學成為可能。當參考輸入被遮蔽時,Riboformer 可以用作純基於序列的模型,或者與 Scikit-ribo 和 choros 等其他計算方法結合使用,以更準確地估計核糖體分佈。

同時,研究人員認為 Riboformer 架構可以廣泛適用於對其他型別的高通量測序資料中的實驗偏差和生物變異進行建模。

Riboformer 獲取:https://github.com/lingxusb/Riboformer/

論文連結:https://www.nature.com/articles/s41467-024-46241-8

相關文章