新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

wujiy發表於2020-06-04

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

最近,Deepmind 釋出了利用其基於機器學習的 AlphaFold System 所實現的與引起 COVID-19 的病毒有關的蛋白質結構的預測結果 [25][26]。DeepMind 強調,這些結構預測尚未得到實驗驗證,但希望它們能有助於科學界解釋病毒是如何發揮作用的,以及為今後開展治療學的實驗工作提供一個假設的生成平臺。我們知道,瞭解病毒的蛋白質結構是瞭解其功能的重要資源,但受限於複雜的蛋白質結構和實驗流程,確定蛋白質結構的實驗可能需要數月或更長的時間。為此,研究人員一直在開發從氨基酸序列預測蛋白質結構的計算方法。

這次,DeepMind 的工作(AlphaFold)是在沒有類似蛋白質的結構可用時,利用稱為「自由模型」的機器學習模型精確預測蛋白質結構。一般情況下,研究人員會等到披露具體研究方法的文章被學術期刊同行評議後再公佈方法或模型。然而,考慮到 COVID-19 的潛在嚴重性和時間敏感性,DeepMind 在一個開放的許可證下提前釋出了預測結構,以便任何人都可以利用它們開展相關科學研究。

在這篇文章中,我們並不具體分析 AlphaFold 的結構和應用,感興趣的讀者可以閱讀我們機器之心相關的資料在 DeepMind 這項工作的啟發下,本文探討機器學習的一個專門的應用方向,即「如何利用機器學習協助藥物研發」。實際上,在藥物發現領域,近年來,機器學習技術已經實現了一定程度的應用,例如預測藥物早期階段的分子特性等。我們一起來在這篇文章中對主要的應用情況進行回顧,主要內容參考了三篇綜述的文章 [27][28][32]。

一、應用於藥物研發的機器學習方法概覽

得益於強大的 CPU 和 GPU 硬體,深度神經網路(DNNs)在藥物發現中的應用非常廣泛,包括生物化合物活性預測、化學結構設計、合成預測等,這其中不同的 DNN 結構,包括經典的卷積神經網路 CNNs、迴圈神經網路 RNN、長短期記憶神經網路 LSTM、深度自編碼神經網路 DAEN、生成性對抗網路 GAN 等都被應用在不同的藥物發現任務中。

應用於藥物發現領域中的機器學習的工作是由至少 80% 的資料處理和清理以及 20% 的演算法應用組成的,資料處理所佔的比例遠高於其它機器學習的應用任務。因此,機器學習在藥物發現領域的應用效果取決於高質量的大量資料的可用性,訓練資料需要準確、有組織性和儘可能完整,以便最大限度地提高可預測性。實驗設計通常涉及到對理想樣本大小的討論和正確估計該引數的適當功率計算。在訓練資料系統性好、標註質量高、噪聲小的情況下,機器學習方法往往能在藥物發現應用中獲得很好的效果。

二、應用領域分析

在本小節中,我們選取了幾個應用機器學習演算法的藥物研發領域進行介紹。

1、化合物活性預測

包括人工神經網路在內的機器學習方法在藥物研發的化合物活性預測中應用已久。具體來說,化合物的活性直接反映在它的分子描述符(molecular descriptors),因此可以使用 DNN 進行建模來預測活性。Dahl 等在 Merck-Kaggle challenge 資料庫上針對二維拓撲描述符使用 DNN 獲得了較好的效果 [1],Dahl 的實驗發現:(i)DNNs 可以處理數千個藥物相關的描述符。由於 DNN 的特性,無需進行預先的特徵選擇。(ii)使用 dropout 可以避免傳統人工神經網路存在的過度擬合問題。(iii) 對超引數(層數、每層節點數、啟用函式型別等)進行最佳化調整可以改進 DNN 效能。(iv)多工 DNN 模型的效能優於單任務模型。Mayr 等提出了一種多工 DNN[2],該多工 DNN 同樣使用了 dropout 和 ReLU 啟用函式,同時基於 GPU 實現了平行計算,大大提升了計算速度。他們使用一個帶有靜態描述符(對於預定義毒物的 3D,2D 描述符)和動態生成的擴充套件連線指紋描述符(extended connectivity fingerprint descriptors,ECFP)的大特徵集,使 DNN 能夠在訓練期間進行自我特徵推斷,此外,利用 ECFP 對 DNN 模型進行統計關聯分析,可以識別出與各隱層已知毒物顯著相關的亞結構。

另一類用於化合物活性預測的方法是圖卷積模型(graph convolution models),其基本思想是利用神經網路 NNs 自動生成一個分子描述向量,透過訓練 NN 來學習向量值。受 Morgan 的圓形指紋方法(circular fingerprint method)啟發 [31],Duvenaud 等人提出了神經指紋方法(neural fingerprint method),透過引入圖卷積模型將神經指紋作為分子描述向量,該方法的工作流程如圖 1 所示 [3]。首先,讀取 2D 分子結構以形成狀態矩陣,其中包含每個原子的原子和鍵資訊(基於與原子相連的鍵)。然後,狀態矩陣透過單層神經網路進行卷積運算,生成固定長度的向量作為分子表示。透過考慮相鄰原子的貢獻,卷積運算可以在不同的層級上進行,這相當於在不同的相鄰層級上的圓形指紋。由不同卷積運算產生的向量首先經過一個 softmax 變換,然後求和形成化合物的最終載體,它是編碼分子水平資訊的神經指紋。神經指紋透過另一個全連線的神經網路層來產生最終的輸出。神經指紋中的位元值是透過訓練學習的,並且是可微的

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 1:圖卷積神經網路(GCNNs)圖解。

2、預測反應和逆合成分析

在該領域中,兩類問題可以透過機器學習來解決。一種是正向反應預測(forward reaction prediction),即在給定一組反應物的情況下預測產物;另一種是逆向合成預測(retrosynthetic prediction),即在給定最終產物的情況下,預測生成產物的反應步驟。如圖 2,從機器學習本質上,逆向合成和反應預測所需要的是在可能的幾十條或數百條匹配規則中選擇正確的規則。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 2:預測反映和逆向合成挑戰。

Coley 等人利用神經網路對 15,000 個反應的訓練庫中的一組反應的候選產品進行排序,這些候選產品來自於美國專利。將產生的不同反應劃分為模板,訓練後的模型對於主要產品等級為 1 的情況實現了 71.8% 的正確分類,對於主要產品等級為 3 的情況實現了 86.7% 的正確分類,而對於主要產品等級為 5 的情況實現了 90.8% 的正確分類。為了克服經典基於模板的反應預測方法 (template-based) 所面臨的覆蓋率和效率問題,在同一研究組的後續研究中提出了一種無模板的方法。他們使用 Weisfeiler-Lehman 差分網路對生成的候選反應進行評分,與之前基於反應模板的方法相比,獲得了更好的效能 [30]。Liu 等人使用神經序列到序列模型進行反向合成預測,他們使用從美國專利獲得的 50,000 個反應來訓練網路,並獲得與基於規則的方法相似的精度 [29]。

在另一項工作中,Segler 等人將策略網路和蒙特卡羅樹搜尋相結合,以實現逆向合成。具體來說,研究人員利用由 1200 萬科學文獻反應組成的訓練庫進行預測的 [6]。為了自動提取規則,Segler 等人使用了 Reaxys 資料庫 (約 1100 萬個反應和約 30 萬條規則),並執行了蒙特卡羅樹搜尋 (Monte Carlo tree search,MCTS),以結合 DNN 對樹節點進行評分,以將搜尋引導到最有希望的機率反應方向。該方法可以完成與經典基於規則的方法(rule-based)相比約兩倍的分子逆向合成計劃。在定量分析中,該方法優於黃金標準,即最佳優先搜尋,並且可以有兩種不同的實現方式 (啟發式方法和神經網路)。此外,對於幾乎三分之二的被檢查的分子,MCTS 比傳統的計算機輔助搜尋方法快 30 倍。定性測試也是在一項雙盲研究中進行的。有機化學家被要求在基於文獻的合成路線和預測的合成路線之間進行選擇,而不知道路線是如何獲得的。在這裡,所訪問的化學家們認為預測路線的質量平均而言與文獻中的路線一樣好。該方法的流程如圖 3 所示,其中,使用的機器學習方法是 DNN。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 3:神經符號方法流程示例。

3、藥物靶點識別和驗證

開發藥物(小分子、肽、抗體或包括短 RNAs 或細胞療法在內的新模式)是藥物研發領域中最重要的任務,其目的是開發出能透過調節分子靶點的活性來改變疾病狀態的藥物,即透過靶點的調節實現對疾病狀態的調節。首先,根據現有醫學證據確定靶點,之後,使用生理相關的體內外模型來驗證所選靶點在疾病中的作用(靶點驗證)。早期靶點確認對於將研發精力集中在可能成功的專案上是至關重要的。

機器學習的方法可用於分析具有假定目標函式資訊的大型資料庫以預測潛在因果關係,目前,機器學習已經以這種方式應用於靶點識別的幾個方面。Costa 等人構建了一個基於決策樹的元分類器 [7],該分類器訓練了蛋白質-蛋白質、代謝和轉錄相互作用的網路拓撲,以及組織表達和亞細胞定位,目的是預測與發病率相關的基因,而這些基因可用於藥物治療。透過對決策樹的研究,他們將多轉錄因子(transcription factors, TFs)、代謝途徑的中心性和細胞外定位確定為關鍵的分類特徵。Jeon 等人建立了一個支援向量機(SVM)分類器,使用各種基因組資料集將蛋白質分類為乳腺癌、胰腺癌和卵巢癌的藥物靶點和非藥物靶點。主要分類特徵為基因必要性、mRNA 表達、DNA 複製數、突變發生率和蛋白質相互作用網路拓撲結構 [8]。

文獻是瞭解靶點與疾病關聯的主要來源。自然語言處理(NLP)是一種應用於文字挖掘的機器學習方法,基於 NLP 的最新進展,資料探勘能夠更有效地識別相關論文。BeFree 等應用 NLP 核方法識別 Medline 摘要中的藥物-疾病、基因-疾病和靶向藥物關聯 [9]。這種監督學習方法依賴於人工標註的歐盟藥品不良反應(EU-ADR)關聯式資料庫語料庫和基於遺傳關聯資料庫的半自動標註語料庫。

Medline 是美國國立醫學圖書館生產的國際性綜合生物醫學資訊書目資料庫,是當前國際上最權威的生物醫學文獻資料庫。內容包括美國《醫學索引》(IndexMedicus,IM)的全部內容和《牙科文獻索引》(IndextoDentalLiterature)、《國際護理索引》(InternationalNursingIndex)的部分內容,涉及基礎醫學、臨床醫學、環境醫學、營養衛生、職業病學、衛生管理、醫療保健、微生物、藥學、社會醫學等等領域。
瞭解剪接訊號(splicing signals)的遺傳變異能夠找到替代模式或新靶點來確定治療時機。最新的機器學習整合剪接模型將剪接因子在體內結合的 CLiP-seq 分析資料與這些剪接因子被敲除或過度表達的 RNA 測序實驗結合起來 [10],結合剪接編碼模型和對從頭開始和複雜剪接變化的預測,可以識別特定於阿爾茨海默病的剪接變體 [11]。

機器學習還可以預測腫瘤特異性藥物效應。Iorio 等從 265 種抗癌藥物中篩選了 990 株癌細胞株,研究了全基因組基因表達、DNA 甲基化、基因複製數和體細胞突變資料對藥物反應的影響 [12]。他們使用方差分析、邏輯模型和機器學習演算法(彈性網路迴歸和隨機森林)來識別預測藥物反應的分子特徵。癌症型別中最具預測性的資料型別是基因表達,而最具預測性的癌症特異性模型包括基因組特徵(驅動基因突變或複製數改變),如果包括 DNA 甲基化資料,則效果更好。

對藥物開發人員來說,另一個重要的問題是一種藥物有多大可能被用於任何給定的靶點。對於小分子藥物來說,這就需要識別出具有表明這些蛋白質可以結合小分子的特徵。一些研究從已知藥物和非藥物靶點的蛋白質序列中獲得了各種物理化學性質,並將 SVM 或有偏 SVM 與疊層自編碼(stacked autoencoders,一種深度學習模型)一起應用於預測藥物靶點 [13]。這些機器學習方法的例子生成了一組預期可能與藥物結合的靶點,從而減少了潛在的搜尋空間,當然,這些靶點仍需要進一步的驗證。

4、小分子設計與最佳化

發現能夠阻斷或啟用感興趣的目標蛋白的候選藥物涉及對大型化合物文庫進行廣泛的虛擬和實驗性的高通量篩選。然後進一步提純和修飾候選結構,以提高靶標專一性和選擇性,同時最佳化藥效學、藥代動力學和毒理學特性。然而,由於缺乏足夠的高質量的新化學資料,如蛋白質水解靶向分裂 (PROTAC) 和大環,可能會限制應用機器學習方法對這些化學的影響。

當推斷小分子的性質和活性時,DNNs 可以顯著提高預測能力 [14]。單樣本學習(one-shot learning)技術可以用來減少在新的實驗裝置中對分子讀數進行有意義的預測所需的資料量。結合機器學習和馬爾可夫狀態模型,這項技術被用來鑑定以前未知的阿片劑與μ阿片受體結合的機制,揭示了參與其啟用的變構位點 [15]。

機器學習在化學資訊學、藥物研發中的另一個有趣的應用是透過 NNs 產生新的化學結構。Gomez Bombarelli 等人提出了一種利用變分自動編碼器(VAE)生成化學結構的新方法(圖 4)。第一步是使用 VAE 進行無監督學習將 ZINC 資料庫中的化學結構(SMILES 符串)對映到潛在空間。當 VAE 訓練完成,潛在空間中的潛在向量就成為分子結構的連續表示,並且可以透過訓練後的 VAE 可逆地轉化為 SMILES 符串。透過任何一種最佳化方法(如貝葉斯最佳化)在連續的潛在空間中搜尋最優的潛在解,然後將搜尋到的潛在解解碼成 SMILES 符串,就可以生成具有期望效能的新結構。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 4:變分自動編碼器(VAE)方法的說明。

基於 Kaggle 社群的競賽在推動藥物研發領域的方法開發也有著積極的意義。默克·夏普 (Merck Sharp) 的研究人員組織了一項 Kaggle 比賽(https://www.kaggle.com/c/MerckActivity),用於預測其他相關物質的吸收、分佈、代謝和排洩 (absorption, distribution, metabolism and excretion,ADME) 引數以及某些生化指標。獲勝的團隊使用 DNNs,在 15 個化驗系統中,有 13 個系統的表現略好於標準的隨機森林 [16]。

小分子設計領域中一個尚未解決的挑戰是如何最好地表示化學結構。目前存在過多的化學結構表示方法,包括簡單的迴圈指紋、擴充套件連通性指紋 (extended-connectivity fingerprint,ECFP),以及複雜的對稱函式等等,如圖 5 所示。目前還不清楚哪種結構表示法最適合於哪種小分子設計問題。因此,在化學資訊學領域中機器學習研究的興起是否會為結構表示的最佳選擇提供更多的指導,這將是一件非常有趣的、值得深入探討的事情。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 5:機器學習模型中化學結構表示的 Kaggle 挑戰賽。

5、預測性生物標記物

基於機器學習的生物標記物發現和藥物敏感性預測模型已經被證明是幫助提高臨床成功率、更好地瞭解藥物的作用機制,以及為患者識別正確藥物的一種有效方法。在藥物研發的整個過程中,後期臨床試驗需要花費多年時間和數百萬美元來進行,因此使用臨床前和/或早期臨床試驗資料及早建立、驗證和應用預測模型將是非常有益的。這一流程包括:在臨床前資料庫上使用機器學習方法預測翻譯生物標記物,在使用獨立的資料庫 (臨床前或臨床) 進行驗證後,使用該模型及其相應的生物標記物對患者進行分層,識別潛在的適應症,並提示藥物的作用機制。整個過程如圖 6 所示。藥物敏感性預測模型 (黃框) 可以使用機器學習方法生成臨床前資料。然後,可以使用來自早期臨床患者樣本的資料來測試該模型。一旦得到驗證,該模型可用於患者分層和/或疾病適應症選擇,以支援藥物的臨床開發,並推斷其作用機制。圖 6 中:En 表示彈性網路;IHC 表示免疫組織化學;MOA 表示作用機理;RF 表示隨機森林;SVM 表示支援向量機。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 6:利用預測生物標誌物支援藥物發現和開發。

不過,雖然有關生物標記物和預測模型的文獻數以千計,但很少有文獻應用於臨床試驗。造成這一差距的因素有很多,包括資料質量、模型選擇、資料和軟體的獲取、模型的重複性以及適合臨床環境的分析方法的設計等等。幾年前,美國食品和藥物管理局 (FDA) 組織了微陣列質量控制 II(MAQC II) 計劃,以評估從基線基因表達資料預測臨床終點的各種機器學習方法 [17]。在該專案中,36 個獨立團隊分析了 6 個微陣列資料集,以生成預測模型,從而將樣本與 13 個臨床終點中的 1 個進行分類。總體觀察結果包括資料質量控制過程的重要性、對熟練科學家的需求 (一些團隊的表現始終好於使用相同機器學習方法的其他團隊),以及為臨床終點選擇適當的建模方法的重要性。例如,多發性骨髓瘤患者的總生存期預測不佳,部分原因可能是應用了 24 個月的任意生存期截止的預設進行預測。多發性骨髓瘤的基因表達和總生存期都是連續變數,因此,使用基於迴歸的預測模型更為合適。事實上,使用單變數 Cox 迴歸方法,已經識別出了能夠顯著預測高危患者亞群的基因表達特徵。這一特徵在幾個獨立的研究和不同的基於迴歸的方法中得到了證實:這些沒有用到預定義的類成員的迴歸方法,也有自己的優勢。

此外,美國國家癌症研究所 (NCI) 旨在評估建立藥物敏感性預測模型 (定義為迴歸問題) 的迴歸方法 [18]。每個參與團隊都使用了他們最好的建模方法,並在相同的訓練資料集 (用 31 種藥物治療的 35 個乳腺癌細胞株) 上最佳化了他們的引數集,然後在相同的盲測資料集 (用同樣的 31 種藥物治療的 18 個乳腺癌細胞株) 上測試了他們的模型的效能。有六種型別的基線剖面資料可用於生成預測模型:RNA 微陣列、單核苷酸多型性 (SNP) 陣列、RNA 測序、反相基因表達、外顯子組測序與 DNA 甲基化狀態。44 個參與團隊應用了各種迴歸方法,如核方法、非線性迴歸 (迴歸樹)、稀疏線性迴歸、偏最小二乘迴歸、主成分迴歸或整合方法。與 MAQC II 的結果一致的是,一些團隊的表現一直優於使用相同方法的其他團隊。不同的表現可能反映了用於質量控制、資料約簡、特徵選擇、分裂策略和微調機器學習引數的技術細節,以及可能將諸如基因功能資訊或臨床資料等生物學知識納入預測模型的構建。

目前已經有幾個成功的案例研究,其中機器學習的預測模型及其相應的生物標記物在藥物發現和開發中發揮了關鍵作用,特別是在腫瘤學以外的適應症中,基於機器學習的預測生物標記物已經有了很大的進展。Tasaki 等人將機器學習方法應用於多組資料,以更好地瞭解類風溼性關節炎患者的藥物反應 [19]。Pare 等人開發了一種基於梯度增強迴歸樹的新型機器學習框架,用於建立預測複雜性狀的多基因風險分數。在英國生物庫資料集上進行測試,他們基於 SNP 的模型能夠分別解釋身高和 BMI 總體多基因方差的 46.9% 和 32.7%[20]。

Ding 等人開發了一個機率生成模型,SCVIS,透過不確定性估計將單細胞基因表達資料中的高維空間縮減為低維結構。然後,該工具被用來分析四個單細胞 RNA 測序資料集,併產生多維單細胞 RNA 測序資料的 2D 表示,這些資料可以可靠地識別細胞型別 [21]。

近年來,應用機器學習方法進行生物標記物發現的特徵選擇迅速興起。例如,研究人員應用無監督 DL 模型來提取基因模組或樣本簇的有意義的表示 [22]。Way 和 Greene 引入了基於癌症基因組圖譜 (TCGA) 泛癌 RNA 測序資料的 VAE 模型,並確定了 VAE 編碼特徵中的特定模式 [23]。

在所有這些例子中,機器學習方法生成的預測生物標記物取得了很大成功,但仍有幾個關鍵問題需要解決。一是分類器的可解釋性,這對機器學習方法的臨床應用至關重要。二是需要在多點、多機構資料庫的背景下驗證這些方法,以證明該方法的普適性。研究人員正在積極解決這些問題並已經取得了一些快速進展,包括應用客觀的方法和措施進行模型訓練和引數最佳化、模型解釋和生物學見解的提取以及模型的重現性研究。

6、計算病理學

病理學是一個描述性的研究領域,因為病理學家需要透過肉眼檢查來解釋玻片上看到的東西。對這些玻片的分析能夠獲得大量資訊,例如組織中存在的細胞型別和它們的空間背景。腫瘤與免疫細胞在腫瘤微環境中的相互作用在免疫腫瘤學的研究中越來越重要,除了病理學以外,目前其他技術無法做到這一點。製藥公司需要了解藥物治療如何影響特定的組織和細胞,並需要在選擇臨床試驗的候選者之前測試數千種化合物。此外,隨著臨床試驗數量的增加,發現新的生物標記物對於識別對特定治療有反應的患者將變得越來越重要。更多地使用計算病理學,可以發現新的生物標記物,並以更精確、可重複性和高通量的方式產生它們,最終將縮短藥物開發時間,並允許患者更快地獲得有益的治療。

在應用機器學習的方法之前,組織影像分析的演算法通常是透過與病理學家的合作完成,並需要電腦科學家為影像抽取描述性特徵,以對特定型別的組織或細胞進行分類。圖 7 給出了一些機器學習應用的計算病理學任務示例。

新冠肺炎肆虐,看機器學習如何大展手腳,更有效地協助醫藥研發

圖 7:機器學習應用的計算病理學任務。

CNNs 在病理影像中的應用效果很好,因為從單個活檢或切除的病理中可以獲得大量的可用於訓練的畫素點。給定足夠多的有效樣本,DL 演算法可以自動學習各種分類任務的特徵 [24]。在具體的影像分析任務中,大多數問題集都採用 DL 演算法和傳統影像分析演算法相結合的方法。這樣做有幾個原因。首先,雖然 DL 已經顯示出它在非常具體的問題 (例如腎小球的檢測) 上能夠趕上或超過人類的能力,但它仍然不是一個很好的通用影像分析工具。由於缺乏靈活性,開發時間仍然很長。因為生成這些標籤的成本很高, 可用於特定分類任務的專家標籤總體上也比較稀缺。緩解這一問題的方法包括使用免疫組化染色為註解變長的樣本向病理學家提供額外資訊,以及廣泛使用的案例 (癌細胞與正常細胞) 增加有效專家註釋標籤的可用性,這也是一項正在積極進行的社群性任務。第二是透明度問題。DL 方法以其黑盒方法而聞名。決定分類任務背後的基本原理尚不清楚。這在藥物研究特別是病理學分析中是很難接受的。第三,是在臨床試驗中直接應用 DL 來推斷治療反應所需的大樣本量問題。DL 通常需要基於數萬樣本來學習,而臨床試驗通常不會產生足夠的樣本。在某些情況下,可能會將跨臨床試驗的資料組合在一起,但可能存在偏差,從而使結果更難解釋。

三、文章小結

在這篇文章中,我們介紹了幾個應用機器學習協助藥物開發的任務示例。這些模型或演算法也可以應用在公共衛生管理領域中,與藥物發現相結合可能會導致個性化醫學的重大進步。此外,在醫學領域中機器學習還可以應用於電子健康記錄和真實世界證據,以改善臨床試驗結果並最佳化臨床試驗資格評估過程。

但是,基於深度訓練的神經網路的一個典型問題是缺乏可解釋性,也就是說,很難從訓練的神經網路中獲得關於它是如何得出結果的合適的解釋。這一問題,在其它機器學習的應用領域中也同樣存在。但是這個問題在醫學或藥物研發中顯得更加嚴重,這種缺乏可解釋性可能會阻礙科學家、監管機構、醫生和患者選擇這項技術,即使在神經網路比人類專家表現更好的情況下也是如此。比起人類專家的診斷,患者會更相信黑盒機器學習演算法的診斷嗎?一家制藥公司是否會因為機器學習演算法預測選擇了一個小分子就將其納入他們的投資組合並投入臨床,而這個機器學習演算法根本無法明確解釋為什麼會選擇這個分子?目前,機器學習的結果主要作為一種猜測或預估的起點,然後由研究人員在研究中進一步發展,本文開頭提到的 DeepMind 給出的與引起 COVID-19 的病毒有關的蛋白質結構的預測結果就類似如此。

機器學習的另一個重要問題是可重複性,這是因為機器學習輸出高度依賴於網路引數的初始值或權重,甚至取決於向網路呈現訓練樣本的順序,因為它們通常都是隨機選擇的。網路是否總是使用與輸入相同的表達資料選擇相同的疾病目標?機器學習方法提出的藥物結構是否總是相同的?還有一個需要考慮的重要問題是,是否有大量高質量、準確和精選的資料來訓練和開發機器學習模型。對所需數量和精度的要求取決於資料型別的複雜性和要解決的問題。因此,生成這些資料集的成本可能很高。

醫學和藥物研發是一個專業程度很高的專門領域,如何在其中有效發揮機器學習演算法和模型的作用,值得研究人員深入研究,我們也會持續關注相關問題的最新研究進展。

本文參考引用的文章

[1] Ma, J. et al. (2015) Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model. 55, 263–274
[2] Mayr, A. et al. (2016) DeepTox: toxicity prediction using deep learning. Front. Environ. Sci. http://dx.doi.org/10.3389/fenvs.2015.00080
[3] Duvenaud, D. et al. (2015) Convolutional networks on graphs for learning molecular fingerprints. In Proceedings of the 28th International Conference on Neural Information Processing Systems, MIT Press. pp. 2224–2232
[4] Go ´mez-Bombarelli, R. et al. (2016) Automatic chemical design using a data-driven continuous representation of molecules. ArXiv arXiv:1610.02415
[5] Coley, C.W. et al. (2017) Prediction of organic reaction outcomes using machine learning. ACS Cent. Sci. 3, 434–443
[6] Segler, M.H.S. and Waller, M.P. (2017) Neural-symbolic machine learning for retrosynthesis and reaction prediction. Chemistry 23, 5966–5971
[7] Costa, P. R., Acencio, M. L. & Lemke, N. A machine learning approach for genome- wide prediction of morbid and druggable human genes based on systems- level data. BMC Genomics11, S9–S9 (2010)
[8] Jeon, J. et al. A systematic approach to identify novel cancer drug targets using machine learning, inhibitor design and high- throughput screening. Genome Med.6, 57 (2014)
[9] Bravo, A., Pinero, J., Queralt- Rosinach, N., Rautschka, M. & Furlong, L. I. Extraction of relations between genes and diseases from text and large- scale data analysis: implications for translational research. BMC Bioinformatics16, 55 (2015)
[10] Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative splicing. Bioinformatics33, i274–i282 (2017)
[11] Vaquero- Garcia, J. et al. A new view of transcriptome complexity and regulation through the lens of local splicing variations. eLife5, e11752 (2016)
[12] Iorio, F. et al. A landscape of pharmacogenomic interactions in cancer. Cell166, 740–754 (2016). This paper applies ML to data from somatic mutations, copy number alterations, DNA methylation and gene expression from 1,000 cancer cell lines to model drug response of the cell lines and demonstrates the importance of genomic features for prediction
[13] Wang, Q., Feng, Y., Huang, J., Wang, T. & Cheng, G. A novel framework for the identification of drug target proteins: combining stacked auto- encoders with a biased support vector machine. PLOS ONE12, e0176486 (2017)
[14] Ma, J., Sheridan, R. P., Liaw, A., Dahl, G. E. & Svetnik, V. Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model.55, 263–274 (2015)
[15] Barati Farimani, A., Feinberg, E. & Pande, V. Binding pathway of opiates to μ- opioid receptors revealed by machine learning. Biophys. J.11 4, 62a–63a (2018)
[16] Ma, J., Sheridan, R. P., Liaw, A., Dahl, G. E. & Svetnik, V. Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model.55, 263–274 (2015)
[17] Shi, L. et al. The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray- based predictive models. Nat. Biotechnol.28, 827–838 (2010)
[18] Costello, J. C. et al. A community effort to assess and improve drug sensitivity prediction algorithms. Nat. Biotechnol.32, 1202–1212 (2014). This paper is an effort to collect and objectively evaluate various ML approaches by teams around the world on multi- omics data sets and various compounds. The data sets and results are continuously used as benchmarks for new method developments and validation
[19] Tasaki, S. et al. Multi- omics monitoring of drug response in rheumatoid arthritis in pursuit of molecular remission. Nat. Commun.9, 2755 (2018). This work identifies molecular signatures that are resistant to drug treatments and illustrates a multi-omics approach to understanding drug response.
[20]Paré, G., Mao, S. & Deng, W. Q. A machine- learning heuristic to improve gene score prediction of polygenic traits. Sci. Rep.7, 12665 (2017)
[21] Ding, J., Condon, A. & Shah, S. P. Interpretable dimensionality reduction of single cell transcriptome data with deep generative models. Nat. Commun.9, 2002 (2018)
[22]Tan, J., Hammond, J. H., Hogan, D. A. & Greene, C. A.-O. ADAGE- based integration of publicly available Pseudomonas aeruginosa gene expression data with denoising autoencoders illuminates microbe-host interactions. mSystems1, e00025–15 (2016)
[23] Way, G. P. & Greene, C. S. Extracting a biologically relevant latent space from cancer transcriptomes with variational autoencoders. Pac. Symp. Biocomput.23, 80–91 (2018)
[24] anowczyk, A. & Madabhushi, A. Deep learning for digital pathology image analysis: a comprehensive tutorial with selected use cases. J. Pathol. Informat.7, 29 (2016). This article is the first comprehensive review of DL in the context of digital pathology images. The paper also systematically explains and presents approaches for training and validating DL classifiers for a number of image- based problems in digital pathology, including cell detection, segmentation and tissue classification
[25] https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery
[26] https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19
[27] Hong Ming Chen, et al. The rise of deep learning in drug discovery, Drug Discovery Today. 
[28] Stephenson, Natalie,Survey of Machine Learning Techniques in Drug Discovery, Current Drug Metabolism. 
[29] Liu, B. et al. (2017) Retrosynthetic reaction prediction using neural sequence-to-sequence models. ACS Central Science 3, 1103–1113 
[30] Jin, W. et al. (2017) Predicting organic reaction outcomes with Weisfeiler–Lehman network. ArXiv arXiv:1709.04555 
[31] Morgan, H.L. (1965) The generation of a unique machine description for chemical structures—a technique developed at Chemical Abstracts Service. J. Chem. Doc. 5, 107–113
[32] Vamathevan, Jessica Clark, Dominic Czodrowski, Paul Dunham, Ian Ferran, Edgardo Lee, George Li, Bin Madabhushi, Anant Shah, Parantu Spitzer, Michaela Zhao, Shanrong, Applications of machine learning in drug discovery and development, Nature Reviews Drug Discovery, 2019

相關文章