成功率超越RoseTTAFold系列,用序列資訊直接預測蛋白質-配體複合物結構

ScienceAI發表於2024-06-18

圖片

編輯 | 蘿蔔皮

蛋白質-配體對接是藥物發現和開發中一種成熟的工具,用於縮小實驗測試的潛在治療範圍。然而,高質量的蛋白質結構是必需的,而且蛋白質通常被視為完全或部分剛性的。

在這裡,柏林自由大學(Freie Universität Berlin)的研究人員開發了一個人工智慧系統,可以直接從序列資訊預測蛋白質-配體複合物的完全柔性全原子結構。

雖然經典對接方法仍然更勝一籌,但這也取決於目標蛋白質的晶體結構。除了預測靈活的全原子結構外,預測置信度指標 (plDDT) 還可用於選擇準確的預測,以及區分強結合劑和弱結合劑。

該研究以「Structure prediction of protein-ligand complexes from sequence information with Umol」為題,於 2024 年 5 月 28 日釋出在《Nature Communications》。

圖片

小分子與蛋白質靶標的對接是評估新藥及重新定位已知藥物的重要問題,但現有對接方法存在侷限:需要高質量的蛋白質結構;難以確定正確的對接姿態;多基於結合態(飽和)結構評估,限制了對新配體的探索。

機器學習雖然已應用於這一領域,但在針對已知靶標區域的表現上,仍未超越基於打分函式的經典方法。並且,預測的蛋白結構往往不適宜直接用於配體對接。

此外,評估集中若結構基於釋出時間而非相似性劃分,會引入偏差,尤其是面對訓練中未見的受體結構時效能減半。

蛋白質靈活性對於達到結合狀態和成功對接至關重要,RoseTTAFold All-Atom 雖能在預測蛋白質時結合配體,其在 PoseBusters 測試集上的成功率也只有 42%,且對未見過的蛋白質表現未知,表明蛋白質-配體複合物結構預測的挑戰尚未完全解決。

柏林自由大學的團隊開發了一種 AI 方法,透過擴充套件 AlphaFold2 中的 EvoFormer,可以根據序列資訊預測蛋白質-配體複合物的結構。該網路與 RFAA 類似,不同之處在於不包括 3D 軌跡,使用模板結構或額外的晶體學配體資料作為輸入或在訓練期間使用。

圖片

圖示:Umol 概述。(來源:論文)

從蛋白質序列、可選蛋白質靶位(口袋)和配體 SMILES 開始,建立了多序列比對 (MSA) 和鍵矩陣。由此,在網路內生成特徵並生成 3D 結構。由於無需任何結構資訊即可生成最終的蛋白質-配體複合物結構,因此對蛋白質或配體的靈活性沒有任何限制。

與最接近的 RoseTTAFold All-Atom 和 NeuralPlexer1 相比,Umol 在 PoseBusters 測試集上包含口袋資訊時獲得了更高的成功率(SR,配體 RMSD ≤ 2 Å),分別為 45%、42%、24%,使其成為蛋白質-配體結構預測中表現最好的方法。

圖片

圖示:預測精度。(來源:論文)

當從 Umol 中刪除口袋資訊並從 RFAA 中刪除模板資訊時,SR 分別下降到 18% 和 8%。當使用帶有 AF 預測的 DiffDock 時,準確率為 21%,但取決於高度準確的介面預測(口袋 RMSD < 1 Å)。除 RFAA 外,所有方法在與訓練集相似的結構上均具有更高的效能,這表明 RFAA 在訓練或驗證過程中可能存在資料洩露。

許多略高於 2 Å 成功閾值的配體姿勢可能相當,這表明可能需要更靈活的評分系統。Umol 在 2.35 Å 閾值下的成功率超過了 AutoDock Vina。在未使用天然蛋白質結構進行評分的情況下,即使是微小的對齊錯誤也會成為問題。

共摺疊蛋白質-配體複合物具有加速藥物重新定位的潛力。特別是,研究人員發現配體的預測 lDDT (plDDT) 可用於選擇準確的對接姿勢,而蛋白質口袋的 pIDDT 適用於選擇準確的介面。

圖片

圖示:置信度指標和準確性。(來源:論文)

配體 plDDT 也分離了高親和力配體和低親和力配體,這表明 Umol 和 Umol-pocket 不確定的一些預測可能是弱結合劑。這進一步證明了 Umol 的能力,並強調似乎已經瞭解了蛋白質-配體相互作用的重要方面。

圖片

圖示:BindingDB 預測。(來源:論文)

儘管沒有口袋資訊的準確率為 18%,但網路仍可以在一定程度上區分強結合劑和弱結合劑。這對於註釋未知複合物特別有用,該團隊以非常高的置信度(配體 plDDT>85)呈現了 336 種蛋白質-配體結構。需要注意的是,雖然這些結構看似合理且其 L-plDDT 得分很高,但仍需透過實驗驗證。

圖片

圖示:使用 Umol-pocket 分析 PoseBusters 測試集 (n=428) 上的預測的不同特徵與配體 RMSD (LRMSD) 之間的關係。(來源:論文)

研究人員沒有發現模型的預測效能與「同蛋白質或配體相關的不同特徵」之間存在明確的關係。

圖片

圖示:最困難的 5 個結構。(來源:論文)

然而,在其他方法難以預測的情況下,Umol-pocket 在 5 種情況下有 3 種是準確的。透過反轉訓練好的網路,可以設計新的配體結合蛋白或蛋白結合配體。另一種選擇是使用遷移學習來建立用於相同目的的生成擴散模型。在這種情況下,可以最大化配體或蛋白 plDDT 以嘗試建立高親和力結合物。

PDBbind 的當前版本包含 2019 年從 PDB 處理的資料。從那時起,已經提交了更多蛋白質-配體複合物,這表明可能可以實現更高的精度。

然而,目前尚不清楚需要什麼樣的精度才能獲得有意義的蛋白質-配體對接結果。蛋白質結構預測的高精度在涉及其他分子(如小分子或 RNA)的任務中無法實現。

如果沒有蛋白質的共同進化資訊,結構預測的準確性會迅速下降。由於小分子或 RNA 沒有類似的資訊來源,因此人們只能依賴原子表徵。

表:PoseBuster 基準集上的成功率(配體 RMSD≤2Å 的百分比)除以 PDBBind 2020 版本的序列同一性 (seqid)。(來源:論文)

圖片

研究人員認為口袋資訊非常有效,如果沒有口袋資訊,深度學習方法似乎容易過度擬合。這一發現進一步證實了以下觀察結果:儘管 PoseBusters 測試集中的許多分子在訓練資料集中包含高度相似的類似物,但這種相似性與模型成功率無關。

圖片

圖示:一些測試。(來源:論文)

對於基於結構的對接方法(如 Vina 或 Gold),未觀察到相同程度的過度擬合。這是意料之中的,因為它們基於原子評分函式,因此不會在相同程度上依賴蛋白質同源性。

深度學習方法在訓練集上具有明顯更高的效能,這表明蛋白質同源性在蛋白質-配體對接中起著重要作用。RFAA 在測試集上的效能高於訓練集,這表明訓練集和測試集之間可能存在資料洩漏。

總之,要完全掌握蛋白質-配體相互作用的複雜性還有很長的路要走,但利用深度學習對整個複合物的結構進行預測可能會讓科學家更接近解決方案。

Umol:https://github.com/patrickbryant1/Umol

論文連結:https://www.nature.com/articles/s41467-024-48837-6

相關文章