使用知識圖解開生命科學資料挑戰
知識圖結合資訊以建立描述不同實體之間關係的互連網路。它們目前簡化了我們的許多日常數字體驗,支撐著谷歌搜尋、社交媒體網站和流媒體推薦引擎等應用程式。憑藉其定義複雜和重疊關係的能力,例如,在細胞水平上視覺化蛋白質和分子之間發生的數百種相互作用,知識圖譜在生命科學中具有豐富的應用。如果使用得當,它們可以深入瞭解新的治療目標,揭示疾病的機制,或識別某些基因突變的連鎖反應。
知識圖譜是如何構建的?
要構建知識圖譜,可以使用命名實體識別 (NER)、自然語言處理 (NLP) 和機器學習來識別、理解和連線資料。知識圖以機器可以處理的方式表示資料和知識實體之間的特定關係,稱為三元組。這些三元組要麼從現有本體中提取,要麼自動提取並定義兩個事物之間的特定關係。
例如,在“The wasp gene is implicated in Wiskott-Aldrich syndrome”這句話中,NER 可用於將術語“wasp”識別為基因(而非昆蟲),並使用來自 HGNC 基因本體的資料對其進行註釋(標籤:WAS,ID:HGNC_12731)。
可以提取三元組‘WAS—(implicated in)—Wiskott-Aldrich syndrome’,並從 HGNC 本體中新增額外的三元組。
因此,知識圖譜可用於視覺化、描述和對映覆雜、重疊的關係。這種豐富的模型比使用關鍵字搜尋文獻產生更多相關資訊,並幫助研究人員更快地找到相關資訊和見解。
格式良好的資料對於任何知識圖譜都至關重要,並且它必須與應用程式相關。必須仔細管理和獲取資料,使其真正有效。然而,研究資料、研究報告、影像和其他文字在沒有任何上下文的情況下往往缺乏意義,這對依賴大量資料才能開始學習的機器來說是一個挑戰。
有意義的資料
構建知識圖的資料可以來自許多來源:臨床試驗記錄、期刊文章、公共資料庫(如 BioGRID 和 ClinVar)、第三方工具和資料庫,以及專有和實驗資料。為了真正充分利用資料,在設計知識圖譜時應牢記最終目標。這包括使用專門的本體來協調資料集並使它們可搜尋。
這個階段可能需要語義技術將非結構化文字轉化為結構化資訊,歸類並提取關係資訊。這將帶來更深入的見解,突出聯絡並降低複雜性。透過應用特定領域的本體和使用交叉檢查的 ID,知識圖可以提高科學的嚴謹性。自動化的 AI 過程不是一個“封閉的盒子”,它讓研究人員對所做的決定更有信心。
為知識圖譜構建資料集的關鍵任務是確保資料公平,即可查詢、可訪問、可互操作和可重用。如果沒有全面、統一且可比的資料,用於查詢知識圖譜的系統和指令將更具挑戰性。
一旦乾淨、準確描述和適當格式化,知識圖中的資料就可以互操作;它可以交換和利用,為構建圖形模型提供了堅實的基礎。
成功之路
知識圖譜是一種動態資訊源——可以實時或根據需要更新——並不斷從定義的資料來源中提取新資訊。這使它們能夠基於傳入資訊的語義網路進行進化。透過深入挖掘資料和利用潛在知識,研究人員可以回答諸如適應症的潛在目標是什麼、哪些藥物相互相互作用,或者藥物是否可以重新用於治療具有相似生物途徑的另一種疾病等問題。
在生命科學中使用知識圖的機會是巨大的。他們的力量在於識別和利用資料和知識實體之間的關係來尋找答案,但良好的資料實踐和可信來源對於利用這種方法是必要的。在知識圖中使用資料有可能加速藥物發現,產生對臨床結果的見解或預測,並最終更快地為患者提供治療。
相關文章
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 百分點科技:《資料科學技術: 文字分析和知識圖譜》資料科學
- 想從事資料科學領域,需要多少數學知識?資料科學
- SOLIDWORKS生命科學解決方案Solid
- 資訊科學領域中的知識管理
- ApacheCN 資料科學/人工智慧/機器學習知識樹 2019.2Apache資料科學人工智慧機器學習
- 首次「機器學習」挑戰賽下週開始,內含知識點劇透機器學習
- 使用圖資料庫 Nebula Graph 資料匯入快速體驗知識圖譜 OwnThink資料庫
- 聊聊圖資料庫和圖資料庫的小知識資料庫
- 知識圖譜資料開發是做什麼的
- 資料科學家必知的五大深度學習框架!(附插圖)資料科學深度學習框架
- 圖解機器學* | 機器學*基礎知識圖解
- 知識圖譜學習記錄--知識圖譜概述
- 【知識圖譜】知識圖譜資料構建的“硬骨頭”,阿里工程師如何拿下?深度學習在知識圖譜構建中的應用。阿里工程師深度學習
- 知識圖譜學習
- 聊聊何為圖資料庫和圖資料庫的小知識資料庫
- 大資料架構師知識圖譜大資料架構
- 中國科協生命科學學會聯合體:中國生命科學十大進展
- Flutter 資料庫sqflite使用知識點Flutter資料庫
- 【Python資料採集】國家自然科學基金大資料知識管理服務門戶資料採集Python大資料
- 解碼知識圖譜:從核心概念到技術實戰
- 扣丁學堂大資料開發之Hive基礎知識精華講解大資料Hive
- 資料科學資料科學
- 圖解 IP 基礎知識!圖解
- [譯] 鮮為人知的資料科學 Python 庫資料科學Python
- 圖形學基礎知識
- 為知識的海洋繪製地圖 —— 利用CirroData-Graph圖資料庫構建知識圖譜地圖資料庫
- 使用Java客戶端將資料載入到Grakn知識圖中Java客戶端
- 大資料學習,涉及的知識點大資料
- 資料庫MySQL需要學習基本知識資料庫MySql
- 新北洋,知識型員工的科學管理
- 《圖解HTTP》學習筆記(附帶WebSocket知識點)圖解HTTP筆記Web
- KGB知識圖譜,利用科技解決傳統知識圖譜問題
- 學習大資料要從哪些知識點開始著手?大資料
- 學大資料開發要掌握的基礎知識有哪些?大資料
- NeurIPS 2024 Workshop 科學基礎模型: 進展, 機遇, 挑戰模型
- 《圖解HTTP》知識點摘錄圖解HTTP
- (資料科學學習手札160)使用miniforge代替miniconda資料科學