知識圖譜構建與應用

龍騰AI技術發表於2022-09-20

一、知識圖譜概論

1.1知識圖譜始於20世紀50年代,至今大致分為三個發展階段:

• 第一階段 (1955年—1977年)是知識圖譜的起源階段,在這一階段中引文網路分析 開始成為一種研究當代科學發展脈絡的常用方法;

• 第二階段(1977年-2012 年)是知識圖譜的發展階段,語義網得到快速發展,“知識本體”的研究 開始成為電腦科學的一個重要領域,知識圖譜吸收了語義網、本體在知識組織和表達方面的理念,使得知識更易於在計算機之間和計算機與人之間交換、流通和加工;

• 第三階段(2012年—至今)是知識圖譜繁榮階段,2012年穀歌提出Google Knowledge Graph,知識圖譜正式得名,谷歌透過知識圖譜技術改善了搜尋引擎效能。在人工智慧的蓬勃發展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到國內外學者和工業界廣泛關注。

知識圖譜具體的發展歷程如下圖所示。


知識圖譜構建與應用

1.2知識圖譜的價值

知識圖譜用節點和關係所組成的圖譜,為真實世界的各個場景直觀地建模,運用“圖”這種基礎性、通用性的“語言”,“高保真”地表達這個多姿多彩世界的各種關係,並且非常直觀、自然、直接和高效,不需要中間過程的轉換和處理——這種中間過程的轉換和處理,往往把問題複雜化,或者遺漏掉很多有價值的資訊。

在風控領域中,知識圖譜產品為精準揭露“欺詐環”、“窩案”、“中介造假”、“洗錢”和其他複雜的欺詐手法,提供了新的方法和工具。儘管沒有完美的反欺詐措施,但透過超越單個資料點並讓多個節點進行聯絡,仍能發現一些隱藏資訊,找到欺詐者的漏洞,通常這些看似正常不過的聯絡(關係),常常被我們忽視,但又是最有價值的反欺詐線索和風險突破口。

儘管各個風險場景的業務風險不同,其欺詐方式也不同,但都有一個非常重要的共同點——欺詐依賴於資訊不對稱和間接層,且它們可以透過知識圖譜的關聯分析被揭示出來,高階欺詐也難以“隱身”。

凡是有關係的地方都可以用到知識圖譜,事實上,知識圖譜已經成功俘獲了大量客戶,且客戶數量和應用領域還在不斷增長中,包括沃爾瑪、領英、阿迪達斯、惠普、FT金融時報等知名企業和機構。

目前知識圖譜產品的客戶行業,分類主要集中在:社交網路、人力資源與招聘、金融、保險、零售、廣告、物流、通訊、IT、製造業、傳媒、醫療、電子商務和物流等領域。在風控領域中,知識圖譜類產品主要應用於反欺詐、反洗錢、網際網路授信、保險欺詐、銀行欺詐、電商欺詐、專案審計作假、企業關係分析、罪犯追蹤等場景中。

那相比傳統資料儲存和計算方式,知識圖譜的優勢顯現在哪裡呢?

(1)關係的表達能力強

傳統資料庫通常透過表格、欄位等方式進行讀取,而關係的層級及表達方式多種多樣,且基於圖論和機率圖模型,可以處理複雜多樣的關聯分析,滿足企業各種角色關係的分析和管理需要。

(2)像人類思考一樣去做分析

基於知識圖譜的互動探索式分析,可以模擬人的思考過程去發現、求證、推理,業務人員自己就可以完成全部過程,不需要專業人員的協助。

(3)知識學習

利用互動式機器學習技術,支援根據推理、糾錯、標註等互動動作的學習功能,不斷沉澱知識邏輯和模型,提高系統智慧性,將知識沉澱在企業內部,降低對經驗的依賴。

(4)高速反饋

圖式的資料儲存方式,相比傳統儲存方式,資料調取速度更快,相簿可計算超過百萬潛在的實體的屬性分佈,可實現秒級返回結果,真正實現人機互動的實時響應,讓使用者可以做到即時決策。


一、知識圖譜概論

1.1知識圖譜的起源和歷史

1.2知識圖譜的發展史——從框架、本體論、語義網、連結資料到知識圖譜

1.3知識圖譜的本質和價值

1.4知識圖譜VS傳統知識庫VS關聯式資料庫

1.5經典的知識圖譜

1.5.1經典的CYC, WordNnet, WikiData, DBpedia, YAGO, NELL等知識庫

1.5.2行業知識圖譜:

Google知識圖譜,微軟實體圖,阿里知識圖譜,醫學知識圖譜,基因知識圖譜等知識圖譜專案


二、知識圖譜應用

2.1知識圖譜應用場景

2.2知識圖譜應用簡介

2.2.1知識圖譜在數字圖書館上的應用   

2.2.2知識圖譜在國防、情報、公安上的應用

2.2.3知識圖譜在金融上的應用         

2.2.4知識圖譜在電子商務中的應用

2.2.5知識圖譜在農業、醫學、法律等領域的應用

2.2.6知識圖譜在製造行業的應用

2.2.7知識圖譜在大資料融合中的應用   

2.2.8知識圖譜在人機互動(智慧問答)中的應用


三、知識表示與知識建模

3.1知識表示概念

3.2 知識表示方法

a.語義網路 b.產生式規則 c.框架系統 d.描述邏輯 e.本體 f.RDF和RDFS

g.OWL和OWL2 Fragments   h.SPARQL查詢語言

i.Json-LD、RDFa、HTML5 MicroData等新型知識表示

3.3典型知識庫專案的知識表示

3.4知識建模方法學

3.5知識表示和知識建模實踐

1.三國演義知識圖譜的表示和建模實踐案例

2.學術知識圖譜等


四、知識抽取與挖掘

4.1知識抽取基本問題

a.實體識別 b.關係抽取 c.事件抽取

4.2資料採集和獲取

4.3面向結構化資料的知識抽取

a.D2RQ     b.R2RML

4.4面向半結構化資料的知識抽取

  a.基於正規表示式的方法  b.基於包裝器的方法

4.5.面向非結構化資料的知識抽取

a.實體識別技術(基於規則、機器學習、深度學習、半監督學習、預訓練等方法)

b.關係抽取技術(基於模板、監督、遠端監督、深度學習等方法)

c.事件抽取技術(基於規則、深度學習、強化學習等方法)

4.6.知識挖掘

a.實體消歧b.實體連結c.型別推斷 d.知識表示學習

4.7知識抽取上機實踐

A.面向半結構化資料的三國演義知識抽取

B.面向文字的三國演義知識抽取

C.人物關係抽取


五、知識融合

5.1知識融合背景

5.2知識異構原因分析

5.3知識融合解決方案分析

5.4.本體對齊基本流程和常用方法

a.基於文字的匹配 b.基於圖結構的匹配 c.基於外部知識庫的匹配

e.不平衡本體匹配 d.跨語言本體匹配   f.弱資訊本體匹配

5.5實體匹配基本流程和常用方法

  a.基於相似度的例項匹配   b.基於規則或推理的實體匹配

c.基於機器學習的例項匹配 d.大規模知識圖譜的例項匹配

(1)基於分塊的例項匹配

(2)無需分塊的例項匹配

(3)大規模例項匹配的分散式處理

5.6 知識融合上機實踐

1.百科知識融合  

2.OAEI知識融合任務


六、儲存與檢索

6.1.知識圖譜的儲存與檢索概述

6.2.知識圖譜的儲存

  a.基於表結構的儲存        b.基於圖結構的儲存

6.3.知識圖譜的檢索

a.關聯式資料庫查詢:SQL語言  b資料庫查詢:SPARQL語言   

6.4.上機實踐案例:利用GraphDB完成知識圖譜的儲存與檢索


七、知識推理

7.1.知識圖譜中的推理技術概述

7.2.歸納推理:學習推理規則

  a.歸納邏輯程設計Øb.關聯規則挖掘  c.路徑排序演算法

上機實踐案例利用AMIE+演算法完成Freebase資料上的關聯規則挖掘

7.3.演繹推理:推理具體事實

Ø  a.馬爾可夫邏輯網 b.機率軟邏輯

7.4.基於分散式表示的推理

a. TransE模型及其變種         b.RESCAL模型及其變種

c.(深度)神經網路模型介紹    d.表示學習模型訓練

7.5.上機實踐案例:利用分散式知識表示技術完成Freebase上的連結預測


八、語義搜尋

8.1.語義搜尋概述

8.2.搜尋關鍵技術

a.索引技術:倒排索引    

b.排序演算法:BM25及其擴充套件

8.3.知識圖譜搜尋

a.實體搜尋

b.關聯搜尋

8.4.知識視覺化  a.摘要技術

8.5. 上機實踐案例:SPARQL搜尋


九、知識問答

9.1.知識問答概述                       

9.2.知識問答基本流程

9.3.相關測試集:QALD、WebQuestions等

9.4.知識問答關鍵技術

   a.基於模板的方法   

 b.語義解析

   c.基於深度學習的方法

9.5. 上機實踐案例:DeepQA、TemplateQA

知識圖譜構建與應用

搜尋關注公眾號:人工智慧技術與諮詢

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70021344/viewspace-2915368/,如需轉載,請註明出處,否則將追究法律責任。

相關文章