00 知識圖譜 課程導讀

最小森林發表於2020-04-07

image

知識圖譜 課程導讀

0課程介紹

本文為小象學院 王昊奮 的知識圖譜課程筆記。

課程主要包括三大部分:

  • 1)知識圖譜的工程方法論。指導學員瞭解並掌握知識圖譜的基本概念和發展歷史,梳理清知識圖譜的技術體系,掌握知識圖譜的核心技術原理,建立知識圖譜工程的方法論思維。

  • 2)知識圖譜的實戰技術。從實戰出發,圍繞知識表示、知識抽取、語義搜尋、知識問答、知識推理、知識融合等系統性介紹知識圖譜相關的實戰技術,使得學員具備研發知識圖譜相關應用的基礎能力。

  • 3)知識圖譜的典型應用。結合醫療、金融、電商等實際應用場景,介紹知識圖譜各個技術點的實際應用落地方式,使得學員具備結合自身背景開展知識圖譜技術實踐的應用能力。

1下載地址

課程下載連結:https://pan.baidu.com/s/10c2HPyX0Mtd7fLHnXL5FFQ
密碼:ufj3

2課程大綱:

第一課: 知識圖譜概論

  1. 知識圖譜的起源和歷史
  2. 典型知識庫專案簡介
  3. 知識圖譜應用簡介
  4. 本次課程覆蓋的主要範圍:知識表示與建模、知識抽取與挖掘、知識儲存、知識融合、知識推理、語義搜尋、知識問答和行業知識圖譜應用剖析等內容。

第二課: 知識表示與知識建模

  1. 早期知識表示簡介
  2. 基於語義網的知識表示框架
    • a. RDF和RDFS
    • b. OWL和OWL2 Fragments
    • c. SPARQL查詢語言
    • d. Json-LD、RDFa、HTML5 MicroData等新型知識表示
  3. 典型知識庫專案的知識表示
  4. 基於本體工具(Protege)的知識建模最佳實踐

第三課: 知識抽取與挖掘I

  1. 知識抽取任務定義和相關比賽:實體識別、關係抽取和事件抽取
  2. 面向結構化資料(關聯式資料庫)的知識抽取,包括D2RQ和R2RML等轉換與對映規範與技術介紹
  3. 面向半結構化資料(Web tables, 百科站點等)的知識抽取
    • a. 基於正規表示式的方法
    • b. Bootstrapping和Wrapper - Induction介紹
  4. 實踐展示:基於百科資料的知識抽取

第四課: 知識抽取與挖掘II

  1. 面向非結構化資料(文字)的知識抽取
    • a. 基於本體的知識抽取,包括NELL和DeepDive系統介紹
    • b. 開放知識抽取,包括TextRunner、Reverb和OLLIE等系統介紹
  2. 知識挖掘
    • a. 知識內容挖掘:實體消歧與連結
    • b. 知識結構挖掘:關聯規則挖掘與社群發現
    • c. 知識表示學習與連結預測,包括TransE和PRA等演算法介紹

第五課: 知識儲存

  1. 基於關聯式資料庫的儲存設計,包括各種表設計和索引建立策略
  2. 基於RDF的圖資料庫介紹
    • a. 開源資料庫介紹:Apache Jena、Sesame、gStore、RDF-3X等
    • b. 商業資料庫介紹:Virtuoso、AllegroGraph、BlazeGraph等
  3. 原生圖資料庫介紹,包括Neo4j、OrientDB、Titan和Cayley等
  4. 實踐展示:使用Apache Jena儲存百科知識,並使用Fuseki構建圖譜查詢服務

第六課: 知識融合

  1. 知識融合任務定義和相關競賽:本體對齊和實體匹配
  2. 本體對齊基本流程和常用方法
    • a. 基於Linguistic的匹配
    • b. 基於圖結構的匹配
    • c. 基於外部知識庫的匹配
  3. 實體匹配基本流程和常用方法
    • a. 基於分塊的多階段匹配
    • b. 基於規則(配置或通過學習)的實體匹配
  4. 知識融合工具介紹:包括Falcon-AO、Silk、PARIS、DEDUPE、LIMES和KnowledgeVault
  5. 實踐展示:使用Falcon-AO融合百度百科與維基百科中的知識

第七課: 知識推理

  1. 本體知識推理簡介與任務分類,包括概念可滿足性、概念包含、例項分類和一致性檢測等
  2. 本體推理方法與工具介紹
    • a. 基於Tableaux運算的方法:Fact++、Racer、Pellet和Hermit等
    • b. 基於一階查詢重寫的方法:Ontology-based Data Access的Ontop等
    • c. 基於產生式規則的方法(如Rete):Jena、Sesame和OWLIM等
    • d. 基於邏輯程式設計(如Datalog)改寫的方法:KAON2和RDFox等
  3. 實踐展示:使用Jena完成百科知識上的上下位推理、缺失類別補全和一致性檢測等

第八課: 語義搜尋

  1. 語義搜尋概述,包括Knowledge Card、Rich Snippet、Facebook Graph Search等
  2. 基於語義標註的網頁搜尋
    • a. Web Data Commons專案介紹
    • b. 排序演算法介紹,擴充套件BM25
  3. 基於圖譜的知識搜尋
    • a. 本體搜尋(ontology lookup)
    • b. 探索式知識檢索,包括查詢構造、結果排序和分面(facets)推薦
  4. 知識視覺化,包括本體、查詢、結果等的展現方式和視覺化分析
  5. 實踐展示:使用ElasticSearch實現百科資料的語義搜尋

第九課: 知識問答I

  1. 知識問答概述和相關資料集(QALD和WebQuestions)
  2. 知識問答基本流程
  3. 知識問答主流方法介紹
    • a. 基於模板的方法,包括模板定義、模板生成和模板匹配等步驟
    • b. 基於語義解析的方法,包括資源對映,邏輯表示式候選生成與排序等
    • c. 基於深度學習的方法

第十課: 知識問答II

  1. IBM Watson問答系統及核心元件詳細解讀
    • a. 問句理解
    • b. 候選答案生成
    • c. 基於證據的答案排序
  2. 實踐展示:面向百科知識的問答baseline實現

第十一課: 行業知識圖譜應用

  1. 行業知識圖譜特點
  2. 行業知識圖譜應用,包括金融、醫療、數字圖書館等領域應用
  3. 行業知識圖譜構建與應用的挑戰
  4. 行業知識圖譜生命週期定義和關鍵元件

相關文章