王昊奮知識圖譜學習筆記--第三講知識抽取與知識挖掘(上)

行路南發表於2020-10-18

本文是基於王昊奮老師的知識圖譜入門教程第三講內容的學習筆記。總體來說,這節課介紹了知識圖譜三種資料來源,以及針對每種資料來源實現的知識抽取方法,最後介紹了一個關於佛學知識圖譜的實現案例,並留了兩道基於正規表示式實現知識抽取的作業。

因為視訊內容過於豐富,我個人有針對性的學習了第一部分,即針對非結構化的知識抽取,也就是關於文字的處理。而對於結構化的資料,和半結構化的資料,僅作為了解,筆記總結的內容不夠詳細。最後的案例我覺得是很好的,而且有線上的網址效果和對應的論文,有很好的學習和借鑑價值。

前言 知識圖譜資料來源和知識抽取方式

知識圖譜的資料來源分為三種型別:結構化、半結構化和非結構化。

  • 結構化資料:連結資料、資料庫。
    • 針對資料庫的知識抽取方法主要是D2R,難點是巢狀表等複雜表資料的處理
    • 針對連結資料的知識抽取方法主要是圖對映,難點是資料對齊。從開放知識圖譜中希望做一個領域知識圖譜,一種方便的做法是圖對映,基於自己領域知識圖譜中定義的schema, 就需要有開放知識圖譜與自己領域知識圖譜的資料對齊。
  • 半結構化資料:網頁中的表格、列表、百科中的資訊。
    • 針對半結構化資料的知識抽取是使用包裝器,難點是包裝器的定義方法包裝器的自動生成、更新和維護
  • 非結構化資料:純文字資料、多媒體資料
    • 針對非結構化資料的知識抽取方法是資訊抽取,難點是結果的準確率與覆蓋率

在這裡插入圖片描述

第一部分 面向非結構化的知識抽取任務

1.1 實體抽取

實體抽取

實體抽取,又稱為命名實體識別。
它要做的是首先從文字中識別和定位文字,然後將識別到的實體分類到預定義的類別中去。
在這裡插入圖片描述

在這個例子中,“背景” 和 “10月25日” 分別為地點和時間型別的實體。而“騎士”和“公牛” 為組織型別的實體。
在這裡插入圖片描述

實體抽取的方法

  • 基於規則的方法:首先構建大量的實體抽取規則,然後將規則與文字字串進行匹配。適用於小規模資料集。
  • 基於統計模型的方法:基於統計模型的方法主要涉及到訓練語料標註、特徵定義和模型訓練三個步驟。主要使用的模型有隱馬爾可夫模型HMM和條件隨機場模型CRF;其中史丹佛大學的NER 是一個基於CRF實現的命名實體識別工具,具有較高的準確率。
  • 基於深度學習的方法:主要是將深度學習和統計模型結合使用,通過深度學習得到每個詞的新向量表示,然後使用CRF模型輸出對每個詞的標註結果。主要有LSTM+CRF 、LSTM-CNNs-CRF(該模型在CoNLL-2013命令實體識別資料集上獲得了91.2%的F1值。)

相關開源系統

這一部分涉及的內容太多,理解的不好。
在這裡插入圖片描述

1.2 關係抽取

關係抽取
從文字抽取兩個或多個實體之間的關係。
關係抽取和實體抽取關係密切,一般是在識別出文字中的實體後,再抽取實體之間的關係。
也即是說實體抽取完成後,在知識圖譜中的呈現只有點,沒有邊。當關系抽取完成後(關係抽取出來的叫抽取元組,還需要再做清理、融合、以及人工稽核),我們就有了邊。這樣一個知識圖譜就基本完成了。
在這裡插入圖片描述

關係抽取分類

在這裡插入圖片描述

基於觸發詞的Pattern

在這裡插入圖片描述
基於依存句法分析的Pattern

這是哈工大LTP工具實現的效果,後續可以深入學習LTP的使用。
這種依存句法分析,可以理解為更泛化的正規表示式。
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

基於監督學習的關係抽取方法

在這裡插入圖片描述
基於深度學習的方法主要包括兩大類:

  • 流水線方法。將實體抽取和關係抽取作為兩個獨立的部分,因此關係抽取的結果依賴於實體抽取的結果,會存在錯誤累積的問題。
  • 聯合抽取方法。將實體抽取和關係抽取相結合,在統一的模型中共同優化。

在這裡插入圖片描述
半監督學習-遠端監督

在這裡插入圖片描述

1.3 事件抽取

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

第二部分 面向結構化的知識抽取任務

垂直領域的知識往往來源於企業業務系統的關聯式資料庫。因此,從資料庫這種結構化資料中抽取知識也是一類重要的知識抽取方法。在該領域,已經有一些標準和工具支援將資料庫轉化為RDF資料、OWL本體等。

W3C的RDB2RDF工作組於2012年釋出了兩個推薦的RDB2RD對映語言。

  • 直接對映DM。

  • R2RML。
    在這裡插入圖片描述
    相關工具

  • D2RQ

  • Mastro

  • Ultrawrap

  • Morph-RDB

  • Ontop
    老師推薦使用Ontop去了解對映的過程

第三部分 面向半結構化的知識抽取任務

目前,百科類資料、網頁資料是可被用於知識獲取的重要半結構化資料。

第四部分 實踐

這裡作者初略介紹了一個線上百科知識抽取技術的具體應用,即構建佛學知識圖譜的一個例子。下面是實現的網址和對應的論文,感興趣的朋友可以深入學習,很有借鑑價值。
這是實現的網址http://www.kg-buddhism.com
這是論文名稱: KG-Buddhism: The Chinese Knowledge Graph on Buddhism

下面介紹以下這個實踐的基本思路:

4.1 抽取框架

在這裡插入圖片描述

4.2 知識連線

這一步驟的工作是抽取類別和例項:

  • 先找到與佛學相關的分類,抽取佛教人物分類下所有文章對應的實體。
  • 維基百科“佛教頭銜”分類下的所有實體
  • 已抽取的實體名中高頻的公共字串

在這裡插入圖片描述

4.3 知識融合

這一個過程是做主語的融合:

  • 實體的別名屬性和重定向作為實體的別名集合
  • 不同來源的實體,存在一個完全匹配的別名,則認為是相同實體
  • 人工檢查相同實體數多於三個的對映

在這裡插入圖片描述
主語融合中存在的問題:

  • 同名,不同實體

  • 同實體,不同名 (這種情況屬於同義詞)
    在這裡插入圖片描述
    解決方案:

  • 多個相同別名,來判斷是否是同一實體

  • 實體的“地址”、“建築時間”屬性來判斷是否衝突

在這裡插入圖片描述
以上是介紹的主語的融合。除此之外,也會做謂語和賓語的融合。

在這裡插入圖片描述

4.4 知識補全

這裡介紹基於正則化的知識補全。**作者推薦正則化是最早應該學習的,**這種方法因為編寫規則需要領域經驗,很難對文字中的關係通過規則做到全面的覆蓋,但它的好處是一旦基於文字提取了規則,準確率挺高。
按照評價指標來評價這種方法,屬於精確率高、召回率低的方法。
在這裡插入圖片描述

實現效果

實現的網址http://www.kg-buddhism.com
在這裡插入圖片描述

相關文章