OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

新闻助手發表於2020-02-28

2020年2月11日,世界衛生組織宣佈了新型冠狀病毒肺炎官方正式命名為 COVID-19,21日國家衛健委決定與世界衛生組織保持一致,中文名稱不變。隨著關於新型冠狀病毒病毒疫情的不斷髮展,有關疫情的各類資訊也在不斷更新。OpenKG 緊隨疫情發展,繼續釋出新領域的新冠知識圖譜,同時對已經發布的圖譜進行持續不斷的更新。

本次主要新增清華大學與妙健康等單位構建的新冠健康圖譜、浙江大學與華為雲聯合構建的病毒藥物和病毒親緣關係等圖譜、河海大學等單位構建的新冠熱點事件圖譜,武漢科技大學等單位構建的新冠物資IBM中國研究院等構建的流行病學圖譜 (例項資料更新中)。同時來自同濟大學、浙江大學、東南大學、海乂知資訊科技、文因互聯、小米人工智慧實驗室、復旦大學等分別更新了百科圖譜科研圖譜臨床圖譜英雄圖譜等部分的資料。近期我們還將釋出新冠防控圖譜

OpenKG 釋出的所有新冠知識圖譜都基於統一的命名規範和語義格式,採用 CC-by SA 相似署名開放許可協議,供大家免費下載使用。持續更新,敬請關注!

此外,在 OpenKG 的知識圖譜眾包平臺 OpenBase 上,我們還將展開新冠知識圖譜眾包,歡迎大家為高質量的中文知識圖譜貢獻力量。

新冠圖譜專題連結

http://openkg.cn/group/coronavirus

1.新冠百科圖譜 V1.1

圖譜連結:

http://www.openkg.cn/dataset/covid-19-baike

1.1 更新記錄

  • 相較於第一版,第二版修改了資料爬取範圍,通過重新抓取百科資料,提升了整個圖譜資料規模。實體數擴充套件至54318,三元組數擴充套件至270807,關係數和屬性數分別擴充套件至22和50個。

  • 對百科實體進行了類別推斷,根據不同類別的實體特點,擴充了schema的屬性部分。

  • 通過三元組和文字分析挖掘和構建了新的實體關係網路。

1.2 簡介以及潛在應用

新冠百科圖譜包括病毒、細菌、流行病、傳染病等相關實體。作為新冠領域知識圖譜的基礎,圖譜以病毒、細菌為主體,擴充套件了治療,疾病等相關內容,通過了這些概念的百科知識,形成了新冠百科圖譜。除了新冠相關的實體外還涵蓋了過往疫情。

潛在應用:面向新冠相關術語的語義檢索、智慧問答,並可用於新冠相關文件的智慧搜尋和推薦。

後續工作中,將從百度百科,互動百科,中文維基百科,醫學百科中進一步挖掘病毒,細菌,疾病,醫學之間的關係。採用基於本體的資訊抽取技術,擴充實體的屬性資訊。同時,完成與zhishi.me等通用知識圖譜的連結。            

1.3 視覺化樣例

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

2.新冠科研圖譜 V1.1

圖譜連結:

http://www.openkg.cn/dataset/covid-19-research

2.1 更新記錄

  • 科研圖譜新增病毒藥物、病毒親緣關係、新冠病毒基礎資訊三個資料庫和資料集,並更新病毒分類圖譜

2.2 概要介紹

在第一階段的釋出版本中,我們從病毒的生物學分類角度出發,以NCBI美國生物資訊中心 Taxonomy 板塊下的資料為基礎,構建了一個病毒的族系網路——病毒分類圖譜。該圖譜具有較大的規模,其中例項的數量達20w以上,三元組的數量更是達到了190w+。但是其在分類及族系關係以外未引入其他資訊,具有一定的侷限。

通過與醫藥、生物學相關科研人員的交流及合作,從專業的角度瞭解病毒差異的來源以及區分/聯絡不同病毒的重要屬性;同時,通過與華為雲語音語義創新Lab及華為雲醫療智慧體團隊開展合作,從不同科研內容角度展開多方面的工作,期望通過雙方深入的交流及合作,共同構建並完善用於科研用途的知識圖譜

當前工作建立在不斷完善schema的基礎上, 通過梳理病毒、基因、蛋白、藥物等相關概念,圍繞新型冠狀病毒、抗病毒藥物等展開工作。從病毒的基因,蛋白,宿主以及核苷酸序列等相關資訊出發,基於NCBI資料庫中新冠病毒(COVID-19)相關資料,構建新冠基本資訊圖譜 V1.0。從抗病毒藥物、Human Protein、Virus Protein、宿主等資訊出發,基於DrugBank等資料庫的資料,構建抗病毒藥物圖譜 V1.0。

除此之外,考慮到病毒流行學是重要的科研方向,我們從該角度出發,以Gisaid全球流感資料庫所提供的實時新冠病毒sequence資料為基礎,結合nextstrain對於新冠病毒基因組流行病學的分析及相關演算法, 整理出了一個短期病毒突變的連線網路——病毒親緣關係圖譜v1.0。其中包含了地理,時間,變異度,突變的基因蛋白等資訊,為後續的相關研究(病毒溯源)及圖譜的融合提供支撐。

2.3 潛在應用

在後續對於其他屬性進行補充與關聯,擴充圖譜之後,資料集可用於嘗試以下應用:

(1)預測新病毒的生物學分類,新物種發現

(2)預測病毒變異性

(3)預測病毒熱穩定性

(4)預測病毒的易感群體、宿主

(5)預測病毒的致病部位

(6)預測病毒可導致的症狀,可緩解症狀的藥物

(7)潛在治療的藥物,如老藥新用

(8)預測病毒的傳播途徑、傳播種類

(9)預測可能與病毒蛋白相互作用的蛋白,發現新的蛋白靶點

(10)針對新的蛋白靶點,進行藥物開發

(11)病毒溯源,病毒變異的分析與預測

2.4 圖譜視覺化

(1)病毒分類圖譜 V1.1

parent關係用於連線Resource之間的層級關係,比如COVID-19病毒在其家族樹種的上層結點是unclassified Betacoronavirus。通過parent關係可向上遍歷家族樹。

species、genus、family等關係用於直接連線病毒與其屬類別、種類別結點。這樣即可不通過遍歷家族樹直接找到其屬。

broader用於連線不同的家族概念,比如Genus屬就是Species種的一個更寬泛的家族概念。

虛線中的關係和概念是未來工作中會新增的關係和連線的實體型別。比如病毒的基因實體、蛋白質實體、宿主實體等等。

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

(2)新冠基本資訊圖譜 V1.0 (新增)

如下圖視覺化展示,express表示COVID-19與其表達基因間的關係,例如COVID-19表達ORF7B/ORF10/NS6等型別的基因;

translate表示基因與蛋白間的翻譯關係,例如COVID-19的ORF8基因可翻譯出ORF8 protein;另外,我們又用produce關係表示COVID-19可產生對應的蛋白。

為了進一步表示COVID-19和宿主的關係,我們使用host表示,目前圖譜中的宿主實體主要是human和vertebrates。

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

(3)抗病毒藥物圖譜 V1.0 (新增)

如下圖視覺化展示,effect 關係用於表示抗病毒藥物對於病毒有一定效果,例如Nelfinavir 和 Abacavir 對Human immunodeficiency virus 1有抗病毒效果,通過本關係可檢視抗病毒藥物和對應病毒間的聯絡;

produce關係可用於挖掘病毒與其所表達蛋白間的express關係,並可進一步挖掘不同病毒與同一型別蛋白間的關係,進而發現兩個病毒間的間接關係;再通過某病毒與某抗病毒藥物間關係,又可發現某抗病毒藥物和另一病毒的間接關係;可以幫助發現對於某一型別病毒蛋白可能有作用的更多藥物。

Interaction 和 binding 關係可以用於發現病毒蛋白與宿主蛋白間的相互作用,比如Human的ACE2 和SARS-COV的Spike glycoprotein間的interaction;之後可再補充某些藥物和ACE2間的target關係,進而可以研究這些藥物和SARS-COV的Spike glycoprotein間的作用.

通過belong to關係,可以明確哪些蛋白屬於哪類宿主,這類宿主的哪些蛋白與病毒有相互作用關係等。

在屬性方面,我們又進一步從DrugBank挖掘了這些資訊(商品名、化學式,分子重量,indication等),作為drug實體的屬性,使得研究者可以更直觀的瞭解某drug的一些重要資訊。之後我們會進一步完善補充更多關鍵實體的重要資訊。

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

(4)病毒親緣關係圖譜 V1.0 (新增)

如圖所示,圖中有Strain毒株,Branch分支,Country國家,State區域和City城市這些實體型別,其中地理位置與Strain毒株的連線通過from_country, from_division和from_location來標識。Country,State,City互相連線構成網路。

對於Strain毒株的屬性,包括了AA變異,核苷酸突變,與上一分支的差異率等等資訊,展示在圖中的表格中。其中變異資料和差異率資料都是相對mutate_from_branch指示的Branch結點來說的,而Branch也相對上層的Branch,因此最終的Strain突變應當是整個樹目錄突變的總和。

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

2.5 資料來源及規模

資料來源:

  • NCBI中的Taxonomy板塊     截止至2020.2.21

    • https://www.ncbi.nlm.nih.gov/Taxonomy

  • 全球流感資料庫                   截止至2020.2.21

    • https://www.gisaid.org

  • Nextstrain網站                   截止至2020.2.21

    • https://github.com/nextstrain/ncov

  • DrugBankVersion 5            截止至2019.08

  • NCBI Taxonomy COVID-19資料       截止至2020.2.20

  • VirHostNet1.1                    截止至2019.01

  • Virus Pathogen Database          截止至2020.02

資料規模:

病毒分類圖譜 V1.1

  • 概念:16個                       

  • 例項:205500個

  • 物件屬性:15個

  • 三元組數目:2140191個

新冠基本資訊圖譜 V1.0

  • 概念:4個                       

  • 例項:470個

  • 物件屬性:7個

  • 三元組數目:2096個

抗病毒藥物圖譜 V1.0

  • 概念:5個                       

  • 例項:7845個

  • 物件屬性:27個

  • 三元組數目:60662個

新冠親緣關係圖譜 V1.0

  • 概念:6個                       

  • 例項:233個

  • 物件屬性:15個

  • 三元組數目:2071個

3.新冠健康圖譜 V1.0

圖譜連結:

http://www.openkg.cn/dataset/covid-19-health

3.1 簡介以及潛在應用

新冠健康圖譜由清華大學和北京妙醫佳健康科技聯合構建,包含跟新冠肺炎相關的各類疾病、藥物、症狀、檢查、全國各地接收新冠肺炎定點醫院等資訊。

潛在應用: 流行病調查研究,基於圖譜的新冠肺炎健康防護問答。

3.2 資料schema 

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

目前圖譜只包含schema,例項知識會在後續逐步更新,敬請期待。

3.3 資料來源與規模

資料來源

  • 《新型冠狀病毒感染的肺炎診療方案》

  • 百度百科

  • 北京妙醫佳健康科技集團有限公司

  • 衛生健康委

資料規模

  • 概念:592個

  • 例項:7110個

  • 數值屬性:104個

  • 物件屬性:16個

  • 三元組數量:50405個

3.4 視覺化的圖譜樣例

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

圖例說明:方形代表概念(class),圓形代表例項(instance),懸浮到連線上顯示的是兩者的關係(relation)。

4.新冠物資圖譜 V1.0

圖譜連結:

http://openkg.cn/dataset/covid-19-goods

4.1簡介以及潛在應用

新冠物資圖譜包含防控新型冠狀病毒所需要的各類物資,主要包括醫用防護裝備、日常防護用品、醫用診療裝置以及治療用藥。其中,醫用防護裝備包含了醫用手套、口罩、隔離服等;日常防護用品包含洗手液、消毒用品等;醫用診療裝置包含常規檢查裝置和氧療裝置;治療用藥包含了《新型冠狀病毒感染的肺炎診療方案》多個版本中的中、西藥品。

示例問題

問:在疫情期間,如果出門買菜,帶哪種口罩比較好?

答:選擇醫用外科口罩、N95口罩、KN95口罩即可,但是目前醫用口罩比較稀缺,建議供應給一線使用。

問:如果買不到N95和醫用外科口罩怎麼辦?

答:如果沒有適合的口罩,您可以使用醫用護理口罩,建議戴2層,防護效能會好一些,使用完畢後一定要洗手,並將口罩外用塑料袋或者紙巾包住,丟入垃圾桶內。

4.2 資料來源與規模

資料來源

  • 《新型冠狀病毒感染的肺炎診療方案》

  • 《國家基本藥物目錄》

  • 《全國衛生行業醫療器械、儀器裝置(商品、物資)分類與程式碼》

  • 紅十字會官網 http://www.wuhanrc.org.cn/

  • 百度百科

資料規模

  • 概念:165個

  • 例項:132個

  • 數值屬性:56個

4.3 視覺化樣例

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

5.新冠流行病學圖譜 V1.0

圖譜連結:

http://openkg.cn/dataset/covid-19-epidemiology

本次預釋出流行病圖譜 schema,例項資料待更新。

5.1 簡介以及潛在應用

    新冠肺炎流行病學知識圖譜包含了流行病學知識圖譜Schema和基於此Schema定義的新冠肺炎資源例項(待更新)。其中流行病學知識圖譜Schema重點刻畫流行病學的基本概念、流行病學調查等內容,未包含“流行病學研究方法”、“預防與控制策略”、“臨床治療與預後”等內容,需要在後續版本中與其他新冠肺炎知識圖譜整合或連線。新冠肺炎資源例項包含了發生在2019年~2020年2月期間,COVID-19疫情中確診患者的流行病學調查資料,這些資料來自中各省市衛健委公佈的個案流調資訊。

新冠流行病學圖譜可以助力對流行病調查、溯源、密切接觸者追蹤,為醫護人員和疾病防控人員提供技術支援,加速流行病調查研究。 

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

5.2 資料schema

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

1.傳染源(動物,人,植物)

2.傳播途徑(飛沫,接觸,氣溶膠,糞口,食物,水,土壤,醫源性,垂直)

3.傳播模式(小範圍暴露傳播,擴散傳播,散發,流行,暴發流行,超級傳播)

4.流行病學特徵(發病率,死亡數,粗病死率,年齡分佈,性別分佈,時空分佈,季節特徵,暴露史即疫區疫源接觸史)

5.易感人群(兒童、老人、男人、女人)

6.潛伏期

7.傳染性(強,中,弱)

8.感染來源(宿主,中間宿主)

9.宿主(蝙蝠)

10.中間宿主(穿山甲,果子狸)

11.防控方式(限制人員流動,減少接觸,洗手,戴口罩,隔離)

12.病例基本資訊(年齡,性別,身高,體重,暴露史,歸屬地,常住地,職業,種族)

13.病例合併基礎性疾病(高血壓、糖尿病、心血管疾病、呼吸道傳染、腫瘤、肥胖)

14.病例臨床表現(發熱,咳嗽,乾咳,乏力,嘔吐,腹瀉,肌肉痠痛,頭痛,頭暈,精神不振,胸悶,呼吸困難,呼吸窘迫)

15.病例診療資訊(感染時間、發病時間、就醫時間、確診時間、住院時間、醫院名稱、出院時間、死亡時間)

16.消毒方式

17. 微生物(細菌,病毒,真菌,放線菌,立克次氏體,支原體,衣原體,螺旋體)

18.寄生蟲(原蟲,蠕蟲,節肢動物)

11.事件

20.疫情發展(拐點,基本控制,徹底控制,消除疫區)

5.3 資料來源與規模

資料來源

  • 王建華,劉民,《流行病學-第7版》人民衛生出版社

  • 陳清,徐德忠,《流行病學複習考試指導》人民軍醫出版社

  • 各地衛健委公開資訊

資料規模

  • 概念:49 個

  • 例項:6  個

  • 數值屬性:34個

  • 物件屬性:19個

  • 三元組數量:374 個

5.4 視覺化的圖譜樣例

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

6.新冠熱點事件圖譜 V1.1

圖譜連結:

http://www.openkg.cn/dataset/covid-19-event

6.1 更新記錄

  • 加入新的150份政府各部委的政策通告檔案的事件抽取結果。

  • 新增schema中的政策事件的相關概念和屬性。

  • 加入初期的事件型別標籤。後期會進一步完善事件關鍵詞抽取的結果。

6.2 簡介以及潛在應用

從第一例出發到封城到各地響應等,重大事件脈絡,以及相關時間等,和新冠百科、新冠科研、新冠臨床、新冠防控、新冠英雄等均有關聯, 並對新聞中的一些內容進行相關語義標註。

支援對新型冠狀病毒的事件在時間上的正向和反向索引。並提供事件本身發展脈絡的列舉。

支援查證事件的溯源。後期會加入對事件的存真鑑偽等高階特性。

6.3 資料schema

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

6.4 資料來源與規模

資料來源:

人民日報

http://activity.peopleapp.com/broadcast/?from=timeline

丁香醫生

https://ncov.dxy.cn/ncovh5/view/pneumonia

騰訊

https://news.qq.com/zt2020/page/feiyan.htm

新浪微博

https://m.weibo.cn

資料規模:

  • 概念:4個                         

  • 例項:640個

  • 物件屬性:17個

6.5 圖譜視覺化

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

7.新冠臨床圖譜 V1.1

圖譜連結:

http://www.openkg.cn/dataset/covid-19-medical 

7.1 更新記錄

  • 根據最新的新冠肺炎診療方案第六版檔案進行圖譜模式更新及資料補充

  • 完善schema中藥及藥品部分的屬性和關係,中藥新增屬性藥理作用、性味、性狀、中藥基原、適用症,藥品新增子概念化學藥、中成藥,新增屬性禁忌、適用症。

7.2 簡介以及潛在應用

臨床圖譜從目前已有的規範檔案入手,基於診療規範(流行病學+症狀+實驗室指標+治療)、研究進展(測序、藥物開發、疫苗)、發病統計(丁香園), 將研究進展與科研相關聯。

圖譜以新型冠狀病毒(COVID-19)為核心延展至病毒、治療方案、症狀、方劑等各類概念,形成新冠臨床知識圖譜,可基於圖譜進行知識問答。

7.3 資料來源與規模

資料來源

  • 《新型冠狀病毒感染的肺炎診療方案》

  • Wiki百科

  • 中醫藥知識服務平臺 http://www.tcmkb.cn/ 

  • 醫療器械分類目錄 https://db.yaozh.com/fenleimulu?from=www&position=index_hotdb 

  • https://github.com/liuhuanyong/QASystemOnMedicalKG

資料規模:

  • 概念:43 個

  • 例項:383 個

  • 數值屬性:90 個

  • 物件屬性:553 個

7.4 視覺化樣例    

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

8.新冠英雄圖譜 V1.1

圖譜連結:

http://www.openkg.cn/dataset/covid-19-character

8.1 更新記錄

  • 構建新的實體關係網路,如人物間的隊友、同事關係等。

  • 根據目前的疫情發展情況實時更新熱點人物,擴充圖譜規模。

8.2 簡介以及潛在應用

新冠英雄圖譜包括了醫療專家組、因公殉職英雄、武漢當地和全國各地的意見領袖等,涉及生平事蹟和基本屬性,並與新冠百科、新冠科研、新冠臨床、新冠防控等圖譜中的一些概念或實體關聯。

圖譜以新冠病毒專家為核心延展至履歷、成果、事件、戰役等各類概念,形成新冠英雄知識圖譜,可基於圖譜進行英雄人物動態展示。

8.3 資料來源與規模

資料來源百度百科、微信公眾號、知網、澎湃新聞

資料規模

  • 概念:21個

  • 例項:747個

  • 數值屬性:291個

  • 物件屬性:1160個

目前圖譜中共包含123人個人物,其中包括5位專家人員,27位因公殉職人員,醫療隊代表人員91位。具體名單如下:


專家

因公殉職英雄

醫療隊代表人物

人物名單

鍾南山

劉大慶

張新忠

崔嵬

魯翔

張文巨集

曾文聰

於正洲

鄧少華

吳紅輝

李蘭娟

何建華

樑醫生

黃漢明

謝巨集超

張定宇

蘇萊曼·巴馬丁

毛樣洪

姜娜

….

張繼先

宋英傑

陳在華

蔣金波

….


胡鋒

程建陽

李弦

….


樑武東

馬承武

孫訓祥

….


尹祖川

李文亮

章良志

….


張輝

黃和豔

徐輝

….

總計(人)

5

27

91


8.4 視覺化圖譜樣例

OpenKG組織釋出第二批並更新近十個新冠知識圖譜開放資料集

主要貢獻者

總體協調人

王昊奮,陳華鈞 ,漆桂林

1. 新冠百科圖譜

東南大學:李志強,秦旭,許茜,李林,殷春鎖,吳亦珂,王然,吳天星,漆桂林 

2. 新冠科研圖譜

浙江大學:陳卓,吳楊,邵鑫,楊海巨集,畢禎,葉巨集斌,方尹,陳華鈞

華為:鄭毅,張雷,王鵬,章濤,劉登輝,徐遲,袁晶,喬楠,懷寶興 

3. 新冠健康圖譜

清華大學:許斌,毛亦銘,閻婧雅,初鳳靈,吳高晨,仝美涵,孫靜怡,李子明,陳秋陽,李凱曼,鄭曉飛

北京妙醫佳健康科技集團有限公司::劉邦長,常德傑,閆廣慶,季科 

4. 新冠物資知識圖譜

武漢科技大學:劉宇,徐航,向軍毅,顧進廣 

5.新冠流行病學圖譜

IBM中國研究院:李靜,王健,梅婧 

6.新冠事件知識圖譜

河海大學:唐彥,張作為,王魯威,張呈陽

小米人工智慧實驗室:劉作鵬,王獻敏,彭茜 ,戴振 

7. 新冠臨床圖譜

海乂知資訊科技:蔡嘉輝,馮莉

文因互聯:杜會芳

同濟大學:王昊奮 

8. 新冠英雄圖譜

海乂知資訊科技:王智鳳,蔡嘉輝,李一斌

同濟大學:王昊奮 

9.新冠防控圖譜

武漢科技大學:胡丹陽,王萌,李秋,劉宇,顧進廣

東南大學:張振志,胡潤秋,徐毅男,張濤,史淼,郭文孜,黃紅藍

10.其他技術支援

OpenKG:尚憶秋

文因互聯:耿新鵬

浙江大學:李娟

上海分佈科技:胡凝

相關文章