Survey | 基於圖卷積網路的藥物發現方法

極驗發表於2019-09-04

本期介紹2019年6月發表在Briefings in Bioinformatics的綜述,該綜述由康奈爾大學等機構的研究人員撰寫,系統總結了GCN及其在藥物發現方面的最新進展,重點是與藥物相關的應用;在圖形卷積原理部分提供圖卷積的理論支援和GCN的詳細架構及其在藥物發現中的應用並討論了當前方法之外的挑戰和可能性。

Survey | 基於圖卷積網路的藥物發現方法
簡介


藥物開發是一個昂貴且耗時的過程,其需要測試數千種化合物以找出安全有效的藥物。現代藥物開發旨在利用藥物開發的機器學習工具來加速中間步驟並因此降低成本。化合物分子通過一系列漸進的試驗進行過濾,這些試驗確定了它們在後期階段的性質、有效性和毒性。機器學習傾向於越來越多地用於更好地預測早期階段的分子特性,可以顯著減少後期過程失敗的負荷,節省大量資源和時間。
Survey | 基於圖卷積網路的藥物發現方法

目前廣泛採用QSAR / QSPR模型,機器學習在藥物開發中的應用包括但不限於以下:生物活性或物理化學預測、預測藥物-蛋白質和藥物-藥物對的相互作用、從頭分子設計產生具有理想藥理特性的分子結構、合成可及性預測、預測合成反應的產物。由於傳統機器學習方法只能處理固定大小的輸入,大多數早期藥物發現都使用了特徵工程,即生成和使用特定問題的分子描述符。通常,一組特定問題的分子描述符用作任務中的特徵。常用的描述符包括:

(1)分子指紋,通過一系列代表特定子結構存在的二進位制數字編碼分子結構;(2)源自量子化學、物理化學和微分拓撲的描述符,由統計學家和化學家處理;

(3)SMILES字串,獨特地表徵分子的結構並將其表示為線符號。給定預定義的預測變數,然後通過機器學習演算法構建和學習分類或預測模型。

Survey | 基於圖卷積網路的藥物發現方法

近年來,越來越多的大型化學資料庫可用於藥物研發。因此,在使用深度神經網路應用於藥物開發方面已經出現了新的嘗試。深度學習的優勢在於它能夠學習輸入特徵與大規模資料輸出決策之間的複雜關係。它在藥物發現和分子資訊學中的應用仍處於起步階段,但已經顯示出巨大的潛力。與傳統的機器學習方法相比,幾種常用的深層架構已經用於與藥物相關的工作中並且取得了實質性的改進。然而,由於以下原因,深度模型仍然存在侷限性。首先,大多數當前的深度模型仍然基於人工製作的特徵或預定義的描述符,從而防止結構資訊直接從原始輸入中學習。其次,現有架構不太適合像分子這樣的結構化資料。在這些體系結構的特徵提取過程中,既未考慮也未充分使用內部結構資訊。因此,更適合的體系結構對於進一步提高藥物發現中深度學習的潛力至關重要。

結構化資料,例如影像已被卷積神經網路(CNN)成功地處理,這是一種深度神經網路的特殊結構。CNN揭示了影像相關任務中的最新效能,因為它可以通過卷積運算子自動從繪圖影像中提取任務相關的特徵。對於由原子和化學鍵組成的藥物和小分子有不同的型別結構,即圖形,對於它們其中每個原子是節點,每個化學鍵是邊緣。一個簡單的嘗試是對分子圖類似地適應卷積過程。然而,與影像不同,圖形具有不規則的形狀和大小;節點上沒有空間順序,其鄰居也與位置有關。因此,常規網格狀結構上的傳統卷積不能直接應用於圖形。實際上,現實世界中的各種結構資料通常形成為圖形而不是影像,這意味著開發處理不規則結構的方法非常重要且迫切需要。

報導中已經努力對非歐幾里德結構化資料上的卷積運算元進行推廣,從而產生所謂的圖卷積網路(GCN)。GCN已被確立為與藥物相關任務的最先進方法,其方式是:

(1)通過考慮資料結構提取特徵;

(2)能夠從原始輸入而不是從手工製作的特徵中自動提取特徵這可能會導致由專家的偏見引起的重要資訊。目前正在出現的GCN遵循兩個主流,可以概括為空間GCN,其通過對圖中所有相鄰節點的所有特徵向量求和來直接在空間域中形成卷積;另一種被稱為光譜GCN,根據譜圖理論,它定義了圖譜域中的卷積。最近的工作還表明,譜卷積可以表徵為空間卷積的特殊情況。但是,由於理論基礎不同,仍然將它們視為以下各節中的單獨卷積運算。在兩個域中都定義了卷積,生成GCN利用卷積過程來編碼隱藏的表示和生成分子圖。

圖卷積的原理

處理圖形或網路的資料形式存在許多重要的實際問題,如社交網路、知識圖形、蛋白質相互作用網路和分子圖形等。然而,將深度學習應用於這些圖形資料是非常重要的,因為它具有獨特地圖特徵。人們非常關注神經網路模型對這種結構化圖形資料的概括。過去的幾年中,許多論文重新討論推廣神經網路以處理任意結構化圖形的問題。下面的小節中給出了圖的表示和圖卷的兩種方式,即空間卷積和譜卷積。空間卷積GCN是可區分的訊息傳遞模式,其在區域性圖形鄰域上操作到任意圖形。對於社交網路,知識圖和分子圖等圖形,它比譜卷積更受歡迎。譜卷積GCN的思想是利用光譜理論在拓撲圖上實現卷積運算,通常用於處理資料,如影像和視訊。

圖定義

圖(graph)是一種資料格式,它可以用於表示社交網路、通訊網路、蛋白分子網路等,圖中的節點表示網路中的個體,連邊表示個體之間的連線關係。許多機器學習任務例如社團發現、鏈路預測等都需要用到圖結構資料,因此圖卷積神經網路的出現為這些問題的解決提供了新的思路。

Survey | 基於圖卷積網路的藥物發現方法

空間卷積
早期嘗試推廣結構化資料的判別嵌入中,Dai等人提出了structure2vec,一種用於嵌入圖結構化資料的潛變數模型,在圖形模型中使用近似推理演算法。推理演算法的解決方案意味著一個傳播方程,其中節點的表示是鄰域邊緣和來自鄰居訊息的函式。後來大部分GCN都建立在這個概念之上,並進行了廣泛的修改,稱為空間卷積。

空間卷積旨在直接在頂點域中構造卷積。關鍵思想是通過聚合來自其相鄰節點的資訊來更新某個節點的表示。空間卷積與Weisfeiler-Lehman演算法一致,通常用於測試兩個圖是否是同構,其中節點標籤由相鄰節點的有序標籤集重複地增強。這種傳播的基本機制是首先將鄰域資訊視為圖子結構,然後通過將不同的子結構遞迴地投影到不同的特徵空間中,通過可微函式對這種子結構進行建模。鄰居和中心節點之間的資訊也稱為訊息。訊息傳遞到中心節點的方式產生表徵網路體系結構的不同傳播規則。

 譜卷積
Survey | 基於圖卷積網路的藥物發現方法

GCN在藥物發現中的

GCN在計算藥物開發和發現中不同專案的開原始碼:
Survey | 基於圖卷積網路的藥物發現方法

3.1 定量構效關係(QSAR)/ 定量結構-性質關係(QSPR);

3.2 相互作用預測:藥物-靶標相互作用、蛋白-蛋白相互作用和藥物-藥物相互作用;

3.3 合成預測

3.4 全新分子設計

藥物發現和分子生物資訊學資料庫

分子特性和活性

PubChem

MUV (Maximum Unbiased Validation)

ChEMBL

ZINC

NCI

Tox21、ToxCast and ClinTox

FreeSolv

相互作用資料庫

SIDER (Side Effect Resource)

OFFSIDES (Off-label Side Effect)

STITCH (Search Tool for Interacting Chemicals)

DrugBank

TTD (Therapeutic Target Database)

DBD5 (Docking Benchmark Database)

綜合資料庫

USPTO:包含化學品反應物反應資訊的資料庫。

綜合基準資料庫

MoleculeNet

Decagon

Survey | 基於圖卷積網路的藥物發現方法
Survey | 基於圖卷積網路的藥物發現方法

結果展望

GCN被描述為對結構化資料建模施加關係歸納偏差。GCN的出現及其在分子生物資訊學等領域的成功應用描繪了結合深度學習和結構化方法的強大功能,這些方法對輸入和模型施加了嚴格的約束。從更廣泛的意義上講,GCN適用於任何可以表示為圖形的資料結構,因此在各種實際應用中具有重要意義。

藥物發現領域中深度學習能夠在相對短的時間內大規模預測化學性質和活性,自動化並加速藥物發現過程。與傳統方法相比,圖卷積網路的引入通過考慮內在分子結構提供了更準確的預測。此外,當與其他機制組合時,圖形卷積網路產生生物可解釋的結果。儘管圖形卷積網路最近取得了成功,但仍然存在挑戰,以便充分釋放圖形卷積網路在藥物發現方面的潛力。

資料庫挑戰和機遇

深度模型需要大量資料才能學習輸入和目標之間的複雜關係。雖然大型資料庫正在變得可用,但由於以下原因仍然存在不足。首先,對於某些分子特性可用資料被限制或擴充套件為不同的小資料集。除了收集更多資料外,更好地整合不同資料來源的統一平臺對於交叉引用和獲取更多資料也是必不可少的。其次,現有的資料庫主要是陽性的樣本。當前的計算方法要麼設計新的目標,要麼手動生成負樣本以面對限制,而識別負樣本實際上是困難的。因此,官方策劃的陰性樣本對於使用機器學習方法進行更準確的預測非常重要。第三,可以將更多詳細資訊新增到資料庫中。當藥物與另一種藥物相互作用時,效果可以是協同或拮抗,而實際上只記錄拮抗作用。事實上,藥物協同相互作用效應是有益的,因此它可以為患者護理中的藥物組合提供重要指導。

方法論的挑戰和機遇

化合物分子,尤其是蛋白質是3D形狀的實體,其中3D空間中的摺疊結構極大地影響它們的功能。當前圖卷積主要在平面2D圖形上操作,其忽略第三維空間中的結構資訊。已經有一些嘗試在3D結構上開發卷積演算法並且將圖形卷積網路擴充套件到3D結構肯定是值得探索的方向。另一方面,高階結構在二維圖形上的聚焦和探索較少,而實際上可能提供額外的資訊。例如,在疾病-蛋白質網路分析中,作者發現疾病途徑不對應於單個連線良好的組分,而更高階的網路結構為疾病途徑發現提供了額外的資訊。

現有圖卷積對規則圖形進行操作,而對於某些關係可以形成超圖形。例如,不同的藥物可以共享相同的ADR、靶標或指示,其可以轉換成超圖。如何在超圖上定義適當的卷積以提取有用資訊尚未在文獻中進行研究。

網路設計的挑戰和機遇

能做出的一個改進是結合兩個場景並構建端到端框架,利用低階結構資訊和全域性網路結構資訊。對於第二種情況,通常在互動網路中最多呈現兩個實體,而實際上,藥物發現涉及兩個以上的實體,並且另外的實體有助於提供附加資訊。例如,在更大的網路中實體可能是藥物,靶標、疾病甚至是ADR。然而,文獻中沒有充分考慮具有兩種以上模態的圖形卷積形式多模網路。一個可能的原因是儘管圖卷積網路適用於可以表示為圖形的任何資料,但是圖形表示對於現有資料並不總是明確的。用於藥物發現的多模型網路的情況下,具有三種或更多種型別的實體通常更復雜,因此設計適當的圖以便應用卷積框架是至關重要的。

可解釋性挑戰和機遇

由於深度神經網路的複雜性,它總是受到缺乏可解釋性的批評。然而,生物資訊學和健康相關領域中,在評估計算模型和更好地理解潛在機制時,可解釋性非常重要。因此,設計允許解釋或視覺化複雜關係的微妙架構既是GCN應用在藥物發現中的挑戰,也是機遇。以前的研究使用注意機制或節點對評分成功地顯示了藥物和蛋白質實體(DTI和PPI)之間的相互作用複合物。需要其他機制來進一步提高學習模型的可解釋性。

參考資料

Sun M, Zhao S, Gilvary C, et al. Graph convolutional networks for computational drug development and discovery[J]. Briefings in bioinformatics, 2019.

相關文章