知識圖譜已成 AI 下一風口,但你知道它進展到哪了嗎?

kobejayandy發表於2019-01-06

知識圖譜最初是由谷歌提出用來優化搜尋引擎的技術,在不斷髮展中外延也一度擴大。盤點目前知識圖譜的發展,其已經助力了很多熱門的人工智慧場景的應用,例如語音助手、聊天機器人、智慧問答等。當前的人工智慧其實可以簡單劃分為感知智慧(主要集中在對於圖片、視訊以及語音的能力的探究)和認知智慧(涉及知識推理、因果分析等),知識圖譜就是認知智慧領域中主要的技術之一。

從使用的範圍來講,知識圖譜分為通用知識圖譜和領域知識圖譜。通用知識圖譜主要應用於面向網際網路的搜尋、推薦、問答等業務場景。通用知識圖譜強調的是廣度,資料也多來自於網際網路,很難形成完整的全域性性的針對本體層的統一管理。而在越來越多的垂直領域中,知識圖譜也被廣泛應用,已經成為了基礎資料服務,為上層智慧應用提供基礎設施支撐。本文重點探討領域知識圖譜的發展與挑戰。

1. 構建領域大腦

知識圖譜的構建是整個應用鏈條的第一步,也是至關重要的一步,圖譜構建的質量直接決定了上層應用的效果。知識圖譜可以將多源異構的資料匯聚到一起。

在一些行業中,領域知識圖譜的構建比起通用知識圖譜,會更加依賴於結構化資料去迅速構建出行業的顯性網路。而在另外一些行業中,需要處理的資料幾乎都是非結構化資料,構建高質量的知識圖譜就面臨著更大的技術挑戰。

在知識圖譜構建技術挑戰中,領域內知識表示建模、實體識別與實體連結、關係事件抽取、隱性關係發現等技術都當前研究的熱點。

針對領域特點增強知識表示能力

領域知識圖譜往往匯聚多種領域內特有的資料,通用知識表示在特定的領域存在限制和不足。

舉個例子,在很多領域時間和空間都是重要的計算維度,對實體時序和空間屬性的建模缺失會限制上層應用的發揮。比如在安防領域,除了實體和關係兩種物件的資料外,還有一大類軌跡資料,具有更強的時空特徵和時效性,資料總量也更大。這類資料,雖然對實體的構建和關係構建都提供了資訊,但其本身強時空特徵,無法直接體現在實體 - 關係的拓撲結構或屬性中。

另外,時間和空間作為最重要的維度,往往涉及大量的區間計算與聚合操作。因此,在安防知識圖譜中,會設計第三類物件:事件(event),將實體物件的行為資料,即:具備“主體”-“客體”-“時間”-“地點”-“時間段”-“事件內容”等多方面資訊的資料,構造成為事件物件。事件物件往往描述了一個現實世界中一個實體在一個時間點(段)或空間點(範圍)發生的一個行為,其一個重要的特點就是資料的屬性值不會發生改變, 這個特點可以使得系統在針對事件資料的儲存和計算都可以進行優化。

批量結構化資料處理

行業知識圖譜的核心實體、屬性、關係和事件多來源於行業的內部的結構化資料。由於各種歷史原因,這些系統中的資料通常存在資料質量差、資料標準不統一、後設資料描述缺乏、資料字典不全、資料一致性不完備等問題。批量結構化資料知識圖譜構建的挑戰主要來自於如何做到工程化。越來越多的系統需要一整套完整的工程化的方案解決批式和流式的知識構建過程,通過資料探查、資料理解、資料清洗、資料標準化、資料對映、資料關聯、資料融合等幾個階段的工作,完成從質量不一的原始結構化資料到最終知識圖譜的過程。

實體識別與關係抽取

實體識別是利用非結構化資料構建知識圖譜的關鍵步驟。實體識別後需要進行實體連結。實體連結是識別出實體與已有知識庫中對應實體進行連結,以補充知識圖譜的內容。

傳統的基於規則統計和成熟演算法的手段已經可以很好的處理部分實體的抽取問題,很多領域實體識別都採用多種方法混合的實體識別流水線。例如,在某個領域使用 CWS 負責識別人名、地名、組織機構名;用基於規則的開源元件負責對時間、溫度、頻次等通用實體,以及難度較大的領域實體進行識別以及標準化;使用 biLSTM/CRF 負責酒店、網咖等機構名進行語料學習訓練,提升識別精度等。

除了傳統的實體識別方法,目前也有越來越多的深度學習演算法被用於解決實體識別問題。例如利用 CNN/LSTM 來學習詞位置處的向量表示,用滑動視窗分類的思想,使用神經網路學習句子中的每個 ngram 的表示,預測目標實體。 深度學習方法訓練是一個端到端的過程,無需人工定義相關的特徵。如何先驗知識融入深度學習方法提高識別準確率是當前的研究的熱點之一。 在目前階段使用深度學習出比較好的效果需要相對大量的訓練資料,所以在處理實際問題的時候要根據實際資料情況進行判斷。

實體識別與連結是知識圖譜構建與知識應用的核心技術。在抽取實體的同時,我們往往也會在非結構化資料中抽取關係。關係抽取是一項更有挑戰的任務。領域知識圖譜往往會先解決預定義關係抽取,因為在不同的領域中會存在領域特有的關係,而預定義關係抽取的技術難度也會低於開放式關係抽取。

在實際工作中,我們往往針對不同型別的關係採用不同的方法進行抽取。比較常用的手段包括基於模式和專家規則方法、半監督和有監督的機器學習方法。

基於規則的方法召回率低,實施成本高。基於機器學習的關係抽取方法佔據了主導地位。但半監督的關係 抽取得到的知識缺乏語義資訊,而有監督關係抽取中需要大量人工標註的高質量資料作為訓練資料,人工成不很高當前前,絕大部分的關係抽取研究還集中在預定義的關係抽取上。

另外,關係抽取根據行業資料的特點還會遇到一些難點,比如往往我們需要處理指代消解,這是因為由於使用者關心的實體和實體間語義關係往往散佈於文字的不同位置,其中涉及到的實體通常可以有多種不同的表達方式。在特定的領域中,嘗試使用傳統的分類思想和聚類相似度方法可以得到可用的結果,而越來越多的研究將深度強化學習引入解決指代消解問題,提高關係抽取的效率。

解決領域訓練資料少

在實體識別和關係識別的過程中都會使用到有監督的機器學習演算法,而很多訓練模型所必須的海量資料在很多領域中都是難以獲取的,是解決實際問題面臨的挑戰之一。遷移學習被認為是解決少訓練資料問題的方法之一,但從其成熟度和在實際應用中遇到的限制來講,越來越多的解決方案開始關注如何高效地標註行業資料來解決訓練資料的問題,來降低實施成本和提高應用能力。

a 高效地標註行業資料

在實際應用中,尤其是企業服務中,領域問題使用的文字在用詞和語言習慣都與公開文字資料有著較大的差異。在遷移學習等技術沒有成熟的當今,通過對現有資料進行標註效果要好於調整演算法。標註後的資料可以生成大量的資料集,這些資料集密切關係著訓練出來的 NLP 模型的優劣,模型的質量則關乎文字挖掘和自然語言處理的質量。目前為止,資料標註依舊是一個需要花費大量人力和物力的工作。所以高效的標註工作可以很好地加速知識構建,還可以在極大地節省人力物力。

提升標註效率可以採用使用詞典、使用深度學習模型和使用主動學習技術等方法實現。一般來講,成熟的標註工具都會提供豐富的詞典來幫助使用者進行自動標註。深度學習模型也是標註工具中常用的技術,深度學習模型除了幫助使用者標註以外,還可以幫助使用者快速建立某領域模型,幫助使用者解決領域文字挖掘問題。

另外,引入了主動學習技術。主動學習技術其實就是把採用一種學習演算法來計算出哪些資料更具有價值,率先讓標註人去進行標註,然後,再將這些資料加入到訓練樣本集中對演算法進行訓練。引入主動學習技術後可以更廣泛地發現標註價值更大的資料,花費同樣時間的情況下,採用主動學習技術的使用者標註的資料價值更高。

標註工作是處理領域中非結構化資料的基礎工作,也是最耗費人力和時間的工作,筆者所在的公司也針對這塊工作開發了面向領域的高效標註工具 Raptor。

b 嘗試使用遷移學習

面對缺少訓練資料,越來越多的工作嘗試使用遷移學習的辦法緩解訓練資料的缺少。遷移學習的思路在預訓練模型中找到能夠輸出可複用特徵的層次,然後利用該層次的輸出作為輸入特徵來訓練那些需要引數較少的規模更小的網路。當前遷移學習已經逐漸成為了資源不足時使用的人工智慧首選技術,也在慢慢嘗試應用在針對特定領域特定資料集的知識圖譜構建中。在實際使用中,遷移學習往往會引入噪聲和需要大量專業的引數除錯過程,這都給實際應用帶來了挑戰。

構建隱性關係

在構建領域知識圖譜的過程中,可以將關係分為顯性關係和隱性關係。顯性關係是指通過原始資料直接可以抽取出的關係,隱性關係是指需要通過複雜計算和資料探勘計算出來的動態關係。在很多領域中,隱性關係的構建很大程度上決定了整個圖譜對智慧應用支撐的好壞,對提升圖譜的分析、推理和挖掘效率起到關鍵作用。隱性關係可以有很多種,構建方法針對行業資料的特點有所不同,但多會涉及到使用行業規則,關係挖掘演算法、圖計算等技術手段。

在一些領域知識圖譜構建的過程中,隱性關係的構建是最為至關重要的一步。如果把知識庫比做大腦,那隱性關係構建就像是大腦在通過思考不斷學到新的知識的過程。在設計知識圖譜整體系統架構時,可以將構建隱性關係的過程服務化,提升最終知識圖譜的質量。

2. 大規模領域知識圖譜的儲存與計算

基於圖資料的混合儲存

大規模領域知識圖譜的儲存方案一般都會使用到圖資料庫。圖資料庫天然適合儲存知識圖譜中的實體和實體間的關係。然而在大部分領域中,圖儲存並不等於知識圖譜儲存。絕大多數領域不光有實體關係資料,如時空軌跡、標籤、推理規則等也是領域內重要的知識資料。近來領域知識圖譜的儲存多采用混合儲存模型,將知識庫中的元素針對各自的特點使用多種資料結構儲存,並保證資料的最終一致性。下面這張圖是當前圖資料庫的使用排名,單從資料庫的角度出發,也可以看到越來越多支援圖資料儲存的資料庫都已經支援多類資料模型。

image

 

在一些領域的知識儲存中,很容易碰到超級節點和關係爆炸的問題。在資料推演過程中碰到超級節點或者超級邊如何保證系統效能一直是一個挑戰。筆者在之前的分享中介紹過知識圖譜資料庫 NEST 如何優化超級節點和關係爆炸的問題,這裡就不再贅述。

程式性知識的儲存

目前基於通用知識圖譜的推理技術已經取得了很多進展,推理技術可以分為基於符號的推理和基於統計的推理。基於符號的技術指的是通過規則和經典邏輯,而基於統計的技術指的是應用機器學習演算法。但當我們把這些技術放到領域中,大部分推理技術離實際應用往往還有一段距離。如果我們把知識推理的範疇放大一些,我們可以從程式性知識的角度去看如何更好的進行領域內的知識推理。

我們常常將領域知識圖譜比作領域的大腦,大腦是具有思維和學習能力的。領域知識圖譜中的資料可以分為陳述性知識和程式性知識,陳述性知識就像大腦中的記憶,而程式性知識則是大腦中的思維。程式性知識可以是領域專家的行業經驗的程式化,也可以是一條行業規則或是一段行業邏輯,甚至是一個組合起來的複雜模型。如何以一種統一的形式儲存程式性知識,將人類的思維路徑轉化為機器的路徑,也是當前業界常討論的一個熱點問題。

不斷產生新知識資料

目前智慧應用的需求越來越豐富,領域知識圖譜為了支撐上層應用也需要更加智慧,彙總更多的知識資料。知識圖譜與資料探勘的關係往往是相輔相成的。知識圖譜不僅彙總經過治理的知識資料,還應該將產生的知識進一步應用到機器學習演算法中,不斷產生新的知識反哺知識庫,就像大腦在不斷學習的過程一樣。下圖展示了通過知識增強機器學習的過程來不斷豐富知識圖譜的內容,最終使應用更加智慧。

image

3. 知識圖譜互動的進展

在領域知識圖譜中獲取知識除了使用查詢語言,越來越多的研究也放在使用自然語言作為互動的入口,也就是實現基於領域知識圖譜的問答。智慧問答涉及的自然語言處理技術較多,需要做自然語言理解和意圖識別等工作。

下面簡單介紹明略開發的互動入口 LiteMind 小明中自然語言理解的工作。自然語言理解功能主要負責將非結構化的自然語言轉化為結構化的意圖語義表示。

首先,小明接受使用者輸入的自然語言,通過 NER 元件、duckling 規則模型、領域詞典、biLSTM/CRF 等模型識別通用實體及領域實體,並完成實體標準化。

其次,通過內建的深度學習模型,對實體進行向量化表示、將句子轉化為時序向量,輸入 LSTM 層自動提取語言特徵,特徵通過全連線網路層進行意圖分類。使用者僅需提供特定業務領域的語料資料,啟動線上訓練,即可得到一個該領域的深度學習模型。通過該深度學習模型,可計算出自然語言對應的每個意圖的概率,並將實體填入意圖的標準化空槽(即檢索條件),從而完成基於自然語言理解的意圖操作。

image

4. 落地領域知識圖譜應用

領域知識圖譜的應用目前集中在搜尋、推薦、問答、解釋和輔助決策等方面。也有越來越多的企業將知識圖譜作為雲平臺或資料中臺的基礎資料服務提供給上層應用消費。

高效的落地領域知識圖譜應用是一個工程性很強的工作,它不光要有效的解決上述技術上的難點,而且要有一套完整的方法論和落地流程。下面是我們在近幾年落地行業知識圖譜過程中總結的一套工程化流程。

image

打通感知和認知

領域知識圖譜是認知智慧的基礎,但人工智慧在行業真正落地發揮威力,往往是打通感知和認知的結果,通過完整的人工智慧能力為行業提供整合服務。感知計算本質上是為認知計算提供資料基礎。目前行業中感知計算對各類結構化資料、非結構化資料、文字、影象、視訊等多維資料的處理過程,處理的結果形成“符號”進入知識圖譜。優秀行業智慧解決方案需要連結行業中業已成熟的感知技術、認知技術以及其它所有元件。

5. 總結

知識圖譜是最接近真實世界的資料組織結構,符合人的思維模式,可以為人工智慧應用提供基礎環境。領域知識圖譜目前在很多行業中已經發揮越來越重要的作用,技術上的挑戰也有不斷的進展,希望有更多的領域知識圖譜落地,幫助推動行業應用的智慧化。

相關文章