圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

機器之心發表於2021-01-31
2020年,圖機器學習(Graph ML)已經成為機器學習(ML)領域中的一個備受關注的焦點研究方向。其中,圖神經網路(GNN)是一類用於處理圖域資訊的神經網路,由於有較好的效能和可解釋性,現已被廣泛應用到各個領域。
圖是一種強大的工具,可以表示由各種人工和自然過程產生的豐富而複雜的資料。圖可以視為具有以下特徵的結構化資料型別:頂點(儲存資訊的實體)和邊(儲存資訊的頂點之間的連線),因此具有組成性質和關係性質。圖提供了處理關係和互動這些抽象概念的一種方法,還提供了用直觀的視覺去思考這些概念的方式。
GNN 的目的是使圖中的每個頂點學習包含有關其鄰域(透過邊直接連線到目標頂點的點)的資訊的嵌入。此嵌入可用於頂點標籤、頂點預測、邊預測等不同問題。因此,在與每個頂點進行嵌入後,我們可以透過新增饋送神經網路層來轉換邊進而組合圖和神經網路。
「對於Graph ML研究來說,這是令人震驚的一年。在所有主要的ML會議上,有關該領域的所有論文中約有10%至20%,並且在如此規模下,每個人都可以找到自己感興趣的有趣的圖主題。」Criteo研究員、Graph Machine Learning newsletter編輯員Sergey Ivanov如是說。
GNN在生物分子結構以及分子之間的功能關係和整合多組資料集模型方面的能力,使得它在醫療行業中受到越來越多的關注。本文就將聚焦於Graph ML在醫療領域中的應用,分享2020年值得關注的幾篇論文,包含腦科學、醫療診斷、藥物研發以及COVID-19四部分。
腦科學
這一年,圖機器學習在醫療成像中取得了非凡的成就,尤其是大腦方面,包括腦區分割、腦結構分析。另外,關於人腦的研究提供了模型的可解釋性,這對於臨床和技術專家來說有著關鍵意義,表面可以將圖機器學習可靠地合併到計算機輔助診斷(CADx)系統中。
論文題目:圖域自適應恆對齊的腦表面分割

簡介:文章提出了一種針對腦表面圖的新型對抗域自適應框架。提出的演算法利用對抗訓練機制來獲得廣義的腦表面分割,使得直接跨多個大腦學習表面資料並對大腦不同皮質區域進行分析成為可能。他們使用一組圖卷積層直接在源域的大腦表面上執行切分的分割,並用鑑別器對根據該分割的預測域以及目標域之間進行概括,實驗結果表明效能平均提升了8%。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

透過將圖拉普拉斯運算元分解,將輸入腦圖對映到頻譜域。源域和目標域是透過將特徵根分別與源引用和目標引用對齊來獲得的。segmentator GCN學習預測每個域的通用皮質分割標籤。discriminator旨在對分割器預測進行分類,從而幫助分割器GCN適應源域和目標域

論文地址:https://arxiv.org/pdf/2004.00074.pdf

論文題目:BrainGNN: 用於功能磁共振成像分析的可解釋性腦圖神經網路

簡介:文章提出了一種圖形神經網路(GNN)框架——BrainGNN,用於分析功能性磁共振影像(fMRI)並發現神經生物學標誌物,以此來了解大腦。透過將感興趣的大腦區域(ROI)定義為頂點,將ROI之間的功能連線性定義為邊,將fMRI時間序列定義為成對相關性,文章把大腦建模為圖作為輸入,然後輸出預測結果和解釋結果。透過使用不同的核心並使用新的損失項調節中間輸出來促進模型的可解釋性,提供了在個人級別和組級別的解釋。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

框架流程圖。fMRI影像由圖譜分解並轉移到圖中。然後,將圖傳送到我們提出的BrainGNN,由BrainGNN給出特定任務的預測。BrainGNN共同選擇對預測任務有用的重要大腦區域,並將大腦區域聚集到與預測相關的功能區中。

論文地址:https://www.biorxiv.org/content/10.1101/2020.05.16.100057v1

醫學診斷
TUM 博士研究生、醫學成像中的Graph ML的多篇論文的作者Anees Kazi說:「在醫學領域,Graph ML改變了分析多模態資料的方式,這種方式與專家如何從臨床常規操作中的所有可用維度看待患者的狀況非常相似。」多項研究已證明可以將圖機器學習應用於CADx系統中,潛在的圖學習和資料補全解決了ML在醫學領域中應用的關於資料集的常見問題。
論文題目:使用多模式資料和圖卷積網路識別早期輕度認知障礙

簡介:輕度認知障礙(EMCI)是阿爾茨海默氏病(AD)的早期階段,與大腦的結構和功能變化有關。但是,提取哪些特徵以及如何組合多個特徵以提高EMCI識別的效能一直是一個難題。文章提出了一種利用多模態資料和圖形卷積網路進行的新EMCI識別框架。實驗表明該框架在臨床實踐中對EMCI的識別是有效的。此方法為 EMCI 的計算機輔助識別的區分成像標記鋪平了道路。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

GCN-EMCI框架示意圖。首先基於每個受試者的T1wMRI和rs-fMRI資料,基於自動解剖標記(AAL)地圖集作為特徵表示,提取每個大腦區域的灰質體積和最短路徑長度。然後,為了獲得對識別 EMCI 更有幫助的功能,採用了一種通用的多工功能選擇方法。之後,使用成像表型度量和非成像表型測量來構建未完全標記的主題圖。最後,應用GCN模型來執行 EMCI 標識任務。

論文地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-3437-6

論文題目:基於邊變化圖卷積網路的不確定性疾病預測

簡介:文章提出了一種可擴充套件的圖卷積框架,該框架可以自動將人群中的影像資料與非影像資料整合在一起,以進行不確定性感知的疾病預測。為了估計與圖拓撲相關的預測不確定性,文章提出了蒙特卡洛邊缺失的新概念。實驗結果表明該方法可以持續顯著地提高自閉症譜系障礙、阿爾茨海默氏病和眼部疾病的診斷準確性,這表明可廣泛利用多模態資料進行計算機輔助診斷。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載
提出的方法框架。PAE:成對關聯編碼器。ED:邊緣脫落。GC:圖卷積。Fusion:逐頂點級聯。圖表中綠色和橙色標記為診斷值(例如健康或患病),灰色為未標記;ui:物件i預測的不確定性。
論文地址:https://arxiv.org/pdf/2009.02759.pdf
論文題目:使用多圖幾何矩陣完成(MGMC)在不完整的醫學資料集中同時進行歸因和疾病分類

簡介:基於大規模人群的醫學研究是改善疾病的診斷、監測和治療的重要資源。為了解決資料丟失的問題,文章提出了透過多圖幾何矩陣完成(MGMC)對不完整醫學資料集進行歸因和疾病預測的端到端學習。實驗展示了該方法在分類和歸因效能方面的優越性,這些發現可作為將來使用不完整資料集的計算機輔助診斷方法的基準。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

MGMC使用多個迴圈圖卷積網路,其中每個圖代表基於諸如年齡、性別或認知功能等關鍵臨床特徵的單體模型。來自本地患者鄰域的圖訊號聚合,再加上透過自注意的多圖形訊號融合,對矩陣重建和分類效能均具有正則化作用。

論文地址:https://arxiv.org/pdf/2005.06935.pdf

藥物發現和研究
GNN不僅可以在精心設計的基準資料集上勝過先前的方法,而且可以為開發新藥從根本上幫助人們和理解自然開闢途徑,重點包括蛋白質和結構生物學以及藥物發現的進展。今年也有相關研究人員對該領域進行了綜述,供更多人的去研究。
論文題目:利用圖機器學習藥物發現和開發

簡介:本文在藥物發現和開發的背景下,對該主題進行了多學科的綜述。介紹了關鍵術語和建模方法之後,按時間順序瀏覽了藥物開發流程,總結了包括以下內容:目標識別、小分子和生物製劑的設計以及藥物的再利用。文章還就資料集等問題提出了現有模型的一些挑戰。儘管該領域仍在興起,但圖機器學習將成為生物醫學機器學習中選擇的建模框架。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

基於 GNN 的藥物發現時間表。

論文地址:https://arxiv.org/abs/2012.05716

報告標題:圖神經網路用於藥物開發

簡介:報告講述了製藥的整個流程,討論了GNN在製藥的第三環節(臨床研究)和第五環節(上市後的安全監控)中的應用。報告主要闡述了為什麼要用GNN、如何使用GNN以及目前的一些成果,給到讀者一個直觀、清晰且較為全面的相關知識結構。

ppt地址:https://grlearning.github.io/slides/zitnik.pdf

論文標題:基於深度學習方法的抗生素發現

簡介:在這項工作中,訓練了一個名為Chemprop的深層GNN模型,以預測分子是否具有抗生素特性:對細菌大腸桿菌的生長抑制作用。在僅使用FDA批准的藥物庫中的約2500個分子進行訓練後,Chemprop就被應用於更大的資料集,包括包含分子Halicin的Drug Repurposed Hub。這項工作突出了深度學習方法透過發現結構獨特的抗菌分子來擴充套件我們的抗生素庫的實用性。

論文地址:https://www.cell.com/cell/fulltext/S0092-8674(20)30102-1?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867420301021%3Fshowall%3Dtrue

論文標題:基於半二分圖模型和深度學習的藥物-靶標相互作用預測

簡介:識別藥物-靶標相互作用是藥物發現中的關鍵要素。在計算機上預測藥物與靶標的相互作用可以加快識別藥物與靶標蛋白之間未知相互作用的過程。文章提出了一種利用網路拓撲結構並識別相互作用和非相互作用的新藥物-靶標相互作用預測框架,該框架從相互作用網路中學習潛在特徵,證明了能夠學習複雜的藥物-靶標拓撲特徵。

圖神經網路在生物醫藥領域的12項研究綜述,附資源下載

藥物-靶標相互作用預測框架流程圖。(a)透過藥物-靶標相互作用,藥物-藥物相似性和蛋白質-蛋白質相似性來構建半二分圖。(b)藥物靶標正負對樣本表示為捕獲藥物靶標對周圍拓撲環境的子圖。(c)在每個子圖上應用圖示記方法,以保留圖頂點的順序。(d)將最終的子圖轉換為鄰接矩陣,並且每個矩陣的上三角代表要嵌入的特徵,以訓練分類器。(e)訓練了一個深度神經網路,並將其用於預測新的藥物靶標對。

論文地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-3518-6

論文標題:幾何深度學習解密蛋白質分子表面的相互作用指紋

簡介:蛋白質結構的分子表面顯示出化學模式和幾何特徵,這些模式和特徵可識別蛋白質與其他生物分子相互作用。文章提出了MaSIF(分子表面相互作用指紋),這是一個基於幾何深度學習方法的概念框架,用於捕獲對於特定生物分子相互作用非常重要的指紋。文章假設參與相似相互作用的蛋白質可能共享共同的指紋。該概念框架將導致對蛋白質功能和設計的理解得到改善。

論文地址:https://www.nature.com/articles/s41592-019-0666-6

論文標題:圖卷積神經網路從化學結構預測藥理活性

簡介:許多治療藥物可以用簡單的化學結構表示,這些化學結構在作用部位包含重要的親和力決定因素。在這項研究中,僅從化合物的二維結構資訊構建的GCN模型顯示了針對ChEMBL資料庫中127個不同目標的高度活性可預測性。文章還使用資訊熵作為度量標準表明結構多樣性對預測效能的影響較小。

論文地址:https://www.nature.com/articles/s41598-020-80113-7?from=from_parent_mindnote

COVID-19
2020年醫學領域的另一個重要亮點當然是冠狀病毒大流行,研究人員成功使用Graph ML方法檢測Covid-19,並用藥物重新定位的方法預測針對Covid-19藥物的療效。Google Graph Mining團隊也在他們的年度報告中提及使用時空GNN建模COVID-19,想要了解更多可以訪問https://gm-neurips-2020.github.io/master-deck.pdf。
論文標題:ResGNet-C:用於檢測COVID-19的圖卷積神經網路

簡介:病毒核酸檢測和胸部計算機斷層掃描(CT)篩查是COVID-19臨床診斷應用最廣泛的兩種技術。病毒核酸測試需要複雜的裝置、長時間的測驗與高假陰性率,而胸部CT影像報告靈敏度高但需要人為解釋,非常耗時且不穩定。文章在ResGNet框架下開發了圖卷積神經網路ResGNet-C,以將肺部CT影像自動分類為COVID-19引起的肺炎和正常的肺炎。

論文地址:https://www.sciencedirect.com/science/article/pii/S0925231220319184

論文標題:用於識別針對COVID-19的藥物再利用的醫學網路框架

簡介:文章提出一種多模式方法,該方法融合了人工智慧、網路擴散和網路鄰近性的預測演算法,對6340種藥物的抗SARS-CoV-2預期療效進行排名,表明不同預測方法之間的共識始終超過最佳單個演算法的效能。實驗發現多數藥物依賴基於網路的行為,因此無法使用基於靶向對接的策略來識別。這一進展提供了一種方法論,可用於確定因新藥開發成本和時長而無法滿足的針對未來病原和其他疾病的再定位藥物。

論文地址:https://arxiv.org/pdf/2004.07229.pdf

相關文章