使用知識圖解開生命科學資料挑戰

banq發表於2022-11-18

知識圖結合資訊以建立描述不同實體之間關係的互連網路。它們目前簡化了我們的許多日常數字體驗,支撐著谷歌搜尋、社交媒體網站和流媒體推薦引擎等應用程式。憑藉其定義複雜和重疊關係的能力,例如,在細胞水平上視覺化蛋白質和分子之間發生的數百種相互作用,知識圖譜在生命科學中具有豐富的應用。如果使用得當,它們可以深入瞭解新的治療目標,揭示疾病的機制,或識別某些基因突變的連鎖反應。  

知識圖譜是如何構建的? 
要構建知識圖譜,可以使用命名實體識別 (NER)、自然語言處理 (NLP) 和機器學習來識別、理解和連線資料。知識圖以機器可以處理的方式表示資料和知識實體之間的特定關係,稱為三元組。這些三元組要麼從現有本體中提取,要麼自動提取並定義兩個事物之間的特定關係。

例如,在“The wasp gene is implicated in Wiskott-Aldrich syndrome”這句話中,NER 可用於將術語“wasp”識別為基因(而非昆蟲),並使用來自 HGNC 基因本體的資料對其進行註釋(標籤:WAS,ID:HGNC_12731)。
可以提取三元組‘WAS—(implicated in)—Wiskott-Aldrich syndrome’,並從 HGNC 本體中新增額外的三元組。

因此,知識圖譜可用於視覺化、描述和對映覆雜、重疊的關係。這種豐富的模型比使用關鍵字搜尋文獻產生更多相關資訊,並幫助研究人員更快地找到相關資訊和見解。 
格式良好的資料對於任何知識圖譜都至關重要,並且它必須與應用程式相關。必須仔細管理和獲取資料,使其真正有效。然而,研究資料、研究報告、影像和其他文字在沒有任何上下文的情況下往往缺乏意義,這對依賴大量資料才能開始學習的機器來說是一個挑戰。  

有意義的資料  
構建知識圖的資料可以來自許多來源:臨床試驗記錄、期刊文章、公共資料庫(如 BioGRID 和 ClinVar)、第三方工具和資料庫,以及專有和實驗資料。為了真正充分利用資料,在設計知識圖譜時應牢記最終目標。這包括使用專門的本體來協調資料集並使它們可搜尋。  
這個階段可能需要語義技術將非結構化文字轉化為結構化資訊,歸類並提取關係資訊。這將帶來更深入的見解,突出聯絡並降低複雜性。透過應用特定領域的本體和使用交叉檢查的 ID,知識圖可以提高科學的嚴謹性。自動化的 AI 過程不是一個“封閉的盒子”,它讓研究人員對所做的決定更有信心。  
為知識圖譜構建資料集的關鍵任務是確保資料公平,即可查詢、可訪問、可互操作和可重用。如果沒有全面、統一且可比的資料,用於查詢知識圖譜的系統和指令將更具挑戰性。  
一旦乾淨、準確描述和適當格式化,知識圖中的資料就可以互操作;它可以交換和利用,為構建圖形模型提供了堅實的基礎。  

成功之路 
知識圖譜是一種動態資訊源——可以實時或根據需要更新——並不斷從定義的資料來源中提取新資訊。這使它們能夠基於傳入資訊的語義網路進行進化。透過深入挖掘資料和利用潛在知識,研究人員可以回答諸如適應症的潛在目標是什麼、哪些藥物相互相互作用,或者藥物是否可以重新用於治療具有相似生物途徑的另一種疾病等問題。 
在生命科學中使用知識圖的機會是巨大的。他們的力量在於識別和利用資料和知識實體之間的關係來尋找答案,但良好的資料實踐和可信來源對於利用這種方法是必要的。在知識圖中使用資料有可能加速藥物發現,產生對臨床結果的見解或預測,並最終更快地為患者提供治療。 


 

相關文章