王昊奮知識圖譜學習筆記--第三講知識抽取與知識挖掘(上)
本文是基於王昊奮老師的知識圖譜入門教程第三講內容的學習筆記。總體來說,這節課介紹了知識圖譜三種資料來源,以及針對每種資料來源實現的知識抽取方法,最後介紹了一個關於佛學知識圖譜的實現案例,並留了兩道基於正規表示式實現知識抽取的作業。
因為視訊內容過於豐富,我個人有針對性的學習了第一部分,即針對非結構化的知識抽取,也就是關於文字的處理。而對於結構化的資料,和半結構化的資料,僅作為了解,筆記總結的內容不夠詳細。最後的案例我覺得是很好的,而且有線上的網址效果和對應的論文,有很好的學習和借鑑價值。
前言 知識圖譜資料來源和知識抽取方式
知識圖譜的資料來源分為三種型別:結構化、半結構化和非結構化。
- 結構化資料:連結資料、資料庫。
- 針對資料庫的知識抽取方法主要是D2R,難點是巢狀表等複雜表資料的處理
- 針對連結資料的知識抽取方法主要是圖對映,難點是資料對齊。從開放知識圖譜中希望做一個領域知識圖譜,一種方便的做法是圖對映,基於自己領域知識圖譜中定義的schema, 就需要有開放知識圖譜與自己領域知識圖譜的資料對齊。
- 半結構化資料:網頁中的表格、列表、百科中的資訊。
- 針對半結構化資料的知識抽取是使用包裝器,難點是包裝器的定義方法、包裝器的自動生成、更新和維護
- 非結構化資料:純文字資料、多媒體資料
- 針對非結構化資料的知識抽取方法是資訊抽取,難點是結果的準確率與覆蓋率
第一部分 面向非結構化的知識抽取任務
1.1 實體抽取
實體抽取
實體抽取,又稱為命名實體識別。
它要做的是首先從文字中識別和定位文字,然後將識別到的實體分類到預定義的類別中去。
在這個例子中,“背景” 和 “10月25日” 分別為地點和時間型別的實體。而“騎士”和“公牛” 為組織型別的實體。
實體抽取的方法
- 基於規則的方法:首先構建大量的實體抽取規則,然後將規則與文字字串進行匹配。適用於小規模資料集。
- 基於統計模型的方法:基於統計模型的方法主要涉及到訓練語料標註、特徵定義和模型訓練三個步驟。主要使用的模型有隱馬爾可夫模型HMM和條件隨機場模型CRF;其中史丹佛大學的NER 是一個基於CRF實現的命名實體識別工具,具有較高的準確率。
- 基於深度學習的方法:主要是將深度學習和統計模型結合使用,通過深度學習得到每個詞的新向量表示,然後使用CRF模型輸出對每個詞的標註結果。主要有LSTM+CRF 、LSTM-CNNs-CRF(該模型在CoNLL-2013命令實體識別資料集上獲得了91.2%的F1值。)
相關開源系統
這一部分涉及的內容太多,理解的不好。
1.2 關係抽取
關係抽取
從文字抽取兩個或多個實體之間的關係。
關係抽取和實體抽取關係密切,一般是在識別出文字中的實體後,再抽取實體之間的關係。
也即是說實體抽取完成後,在知識圖譜中的呈現只有點,沒有邊。當關系抽取完成後(關係抽取出來的叫抽取元組,還需要再做清理、融合、以及人工稽核),我們就有了邊。這樣一個知識圖譜就基本完成了。
關係抽取分類
基於觸發詞的Pattern
基於依存句法分析的Pattern
這是哈工大LTP工具實現的效果,後續可以深入學習LTP的使用。
這種依存句法分析,可以理解為更泛化的正規表示式。
基於監督學習的關係抽取方法
基於深度學習的方法主要包括兩大類:
- 流水線方法。將實體抽取和關係抽取作為兩個獨立的部分,因此關係抽取的結果依賴於實體抽取的結果,會存在錯誤累積的問題。
- 聯合抽取方法。將實體抽取和關係抽取相結合,在統一的模型中共同優化。
半監督學習-遠端監督
1.3 事件抽取
第二部分 面向結構化的知識抽取任務
垂直領域的知識往往來源於企業業務系統的關聯式資料庫。因此,從資料庫這種結構化資料中抽取知識也是一類重要的知識抽取方法。在該領域,已經有一些標準和工具支援將資料庫轉化為RDF資料、OWL本體等。
W3C的RDB2RDF工作組於2012年釋出了兩個推薦的RDB2RD對映語言。
-
直接對映DM。
-
R2RML。
相關工具 -
D2RQ
-
Mastro
-
Ultrawrap
-
Morph-RDB
-
Ontop
老師推薦使用Ontop去了解對映的過程
第三部分 面向半結構化的知識抽取任務
目前,百科類資料、網頁資料是可被用於知識獲取的重要半結構化資料。
第四部分 實踐
這裡作者初略介紹了一個線上百科知識抽取技術的具體應用,即構建佛學知識圖譜的一個例子。下面是實現的網址和對應的論文,感興趣的朋友可以深入學習,很有借鑑價值。
這是實現的網址:http://www.kg-buddhism.com
這是論文名稱: KG-Buddhism: The Chinese Knowledge Graph on Buddhism
下面介紹以下這個實踐的基本思路:
4.1 抽取框架
4.2 知識連線
這一步驟的工作是抽取類別和例項:
- 先找到與佛學相關的分類,抽取佛教人物分類下所有文章對應的實體。
- 維基百科“佛教頭銜”分類下的所有實體
- 已抽取的實體名中高頻的公共字串
4.3 知識融合
這一個過程是做主語的融合:
- 實體的別名屬性和重定向作為實體的別名集合
- 不同來源的實體,存在一個完全匹配的別名,則認為是相同實體
- 人工檢查相同實體數多於三個的對映
主語融合中存在的問題:
-
同名,不同實體
-
同實體,不同名 (這種情況屬於同義詞)
解決方案: -
多個相同別名,來判斷是否是同一實體
-
實體的“地址”、“建築時間”屬性來判斷是否衝突
以上是介紹的主語的融合。除此之外,也會做謂語和賓語的融合。
4.4 知識補全
這裡介紹基於正則化的知識補全。**作者推薦正則化是最早應該學習的,**這種方法因為編寫規則需要領域經驗,很難對文字中的關係通過規則做到全面的覆蓋,但它的好處是一旦基於文字提取了規則,準確率挺高。
按照評價指標來評價這種方法,屬於精確率高、召回率低的方法。
實現效果
相關文章
- 知識圖譜學習記錄--知識圖譜概述
- 【知識圖譜 趙軍 學習筆記】第二章 知識表示筆記
- 知識圖譜學習
- 知識圖譜入門——知識表示與知識建模
- 知識圖譜之知識表示
- 知識圖譜01:知識圖譜的定義
- 知識圖譜|知識圖譜的典型應用
- 【知識圖譜】知識圖譜實體連結無監督學習框架框架
- 學習筆記 - 知識圖譜的符號表示方法筆記符號
- 如何高效學習 Kubernetes 知識圖譜?
- go 知識圖譜Go
- OI知識圖譜
- 基礎知識學習筆記筆記
- 【知識圖譜】知識圖譜資料構建的“硬骨頭”,阿里工程師如何拿下?深度學習在知識圖譜構建中的應用。阿里工程師深度學習
- 知識圖譜技術的新成果—KGB知識圖譜介紹
- 構建知識圖譜-初學
- Http/2知識圖譜HTTP
- KGB知識圖譜,利用科技解決傳統知識圖譜問題
- 【知識圖譜】 一個有效的知識圖譜是如何構建的?
- ISWC 2018概覽:知識圖譜與機器學習機器學習
- React學習筆記知識點整理React筆記
- RxJava 學習筆記 -- 基礎知識RxJava筆記
- 知識圖譜構建之實體關係挖掘
- 知識圖譜與知識發現領域的頂級期刊與會議
- 知識圖譜的器與用(一):百萬級知識圖譜實時視覺化引擎視覺化
- 知識圖譜丨知識圖譜賦能企業數字化轉型
- 知識圖譜構建與應用
- 把知識變成圖譜一共需要花幾步?89頁全網最全清華知識圖譜報告-學習筆記筆記
- 【講壇實錄】知識圖譜的探索與應用
- 機器學習學習筆記——基本知識機器學習筆記
- 知識點,如何應用“安全知識圖譜”識別內部威脅?
- 知識圖譜入門2
- NumPy基礎知識圖譜
- 01 知識圖譜概論
- [NLP] 知識抽取技術
- 知識圖譜構建與應用推薦學習分享
- 學習記錄 -- 知識點
- JAVA學習筆記及知識積累Java筆記