知識圖譜:技術成熟度飛速躍升,與產業互聯結合更加緊密

龍騰AI技術發表於2022-11-07

國雙資料科學團隊劉燕

知識圖譜逐漸成為人工智慧應用的強大助力。

曲線表示,知識圖譜的發展還需要 5 - 10 年時間才能到達成熟的階段,知識圖譜依然有很大的發展空間。

知識圖譜:技術成熟度飛速躍升,與產業互聯結合更加緊密

知識圖譜:技術成熟度飛速躍升,與產業互聯結合更加緊密

本文將從 知識抽取、知識融合、知識推理 的角度探索過去一年知識圖譜在自動構建領域的技術突破,並結合圖機器學習、圖資料庫探討相關領域的技術發展。

在應用上,知識圖譜在 2020 年與產業互聯的結合更加緊密 ,除了在資料治理、搜尋與推薦、問答等通用領域有所突破之外,在智慧生產、智慧城市、智慧管理、智慧運維等眾多領域,以及工業、金融、司法、公安、醫療、教育等眾多行業也都有進一步的場景化落地的突破。

一、 重要的技術發展

知識圖譜構建

2020 年,利用自然語言處理、機器學習等技術從多源異構的資料資源中自動構建知識圖譜的技術取得長足進展。

主要涉及到兩種方法:一種是 基於語言規則的方法 ,另一種是 基於統計分析的機器學習方法 。自動構建的過程中,如果資料是結構化的 ( 例如圖表資料 ),已知屬性名稱、屬性間的層次結構等,構建知識圖譜相對較為容易。

如果缺乏以上資訊,則只能透過文字資訊等非結構化資料中提煉知識構建知識圖譜,技術上將面臨很多挑戰。

下面,我們從知識抽取、知識融合、知識推理這三方面來說明。

1. 知識抽取

2020 年以來,更多知識抽取的研究工作被用來支撐更加複雜的應用場景。多學科多領域交叉研究成為一個新的特點。小樣本學習在業界逐漸為人所關注。整體來看呈現以下趨勢:

(1)多模態(Multimodal)。

多模態並非 2020 年提出的新概念,但是 2020 年對於多模態的研究熱度較往年相比提升了很多。

目前 NLP 領域多模態研究主要集中在跨語言和視覺的模態研究上,且多模態知識圖譜也逐步成為一個新的趨勢。 多模態研究包括多模態資訊對齊,多模態文字生成,多模態推理,多模態表示,基於語言的視覺導航等。

多模態研究的基礎是模態融合和語義對齊,現在有很多工作研究從圖片或文字中提取出結構化的知識,進行語義對齊。

目前多模態的相關研究還處於起步階段,什麼場景使用以及如何使用還需要進一步探索

(2)任務複雜化(Task complexity)。

2020 年以來,知識抽取任務更貼合實際應用場景,複雜化的知識抽取任務向我們提出了新的挑戰。

關係抽取任務已不滿足於抽取封閉的三元組關係,而更貼合實際情況,出現了很多複雜關係和開放關係的抽取任務。例如,2020 LIC 比賽中關係抽取賽題相比 2019 年增加了複雜關係抽取;部分關係抽取工作從句子級別向篇章級別和多文字抽取過渡;很多研究開始探索如何利用深度學習模型自動發現實體間的新型關係,實現開放關係抽取等。

對於常規的資訊抽取任務,已經逐步往語義理解上轉變,並基於此衍生出很多閱讀理解和知識推理的任務 。

在實體融合和指代消解等任務上的研究,場景也更為複雜,逐步向深層次語義理解和知識推理演變。

(3)零次學習(zero-shot learning)和小樣本學習(few-shot learning)。

Zero-shot 和 few-shot 一直是知識抽取研究的難點,2020 年對於 zero-shot 和 few-shot 有了更多深入的研究,包括利用整合學習、多工學習、預訓練模型、知識表示等方法結合深度學習模型進行的相關探索。

預訓練模型的發展使得很多知識抽取工作的瓶頸下降,但是相對來說, 領域遷移和冷啟動問題還是目前的難點 。近幾年出現了很多結合知識圖譜進行知識表徵,新增多模態資訊,結合多領域進行多工學習等融合多源知識的相關方法和研究,並取得了一定進展。

除此之外, 多學科多領域交叉也是 NLP 和知識圖譜領域在 2020 年比較大的特點 。例如知識表示,包括文字表示、圖表示、多模態表示之間的交叉和結合研究。

同時在知識抽取的多種任務中,都有多領域多學科結合相互指導最佳化的發展趨勢,不同任務,不同學科之間的邊界變得越來越模糊 。

總的來說,2020 年是知識抽取研究飛速發展的一年,科學研究者們已經不滿足於一些簡單的知識抽取任務的實現,開始探索更貼合實際的應用場景。對於任務的探索邊界也越來越不明顯,並出現了很多結合多源異構資訊的相關探索。除此之外,多模態和知識圖譜表徵仍然有很大的發展空間。

2.知識融合

知識融合方面一直以來都面臨兩個重要的技術挑戰, 一是資料規模的挑戰,資料量大,種類多樣性,儲存位置不同、結構不同;另一個是資料質量的挑戰,資料命名模糊,格式不同,資料缺失,噪音問題嚴重。

這兩個問題無論是以前,還是 2020 年度,一直都是知識融合方面面臨的嚴峻挑戰。

資料規模方面,行業算力的不斷提升使實用系統可以有效處理更大規模的圖譜資料 。在多個知識圖譜聯合使用的知識融合方面,本年度 ACM SIGKDD 提出了 KGSF,透過互資訊最大化,對齊不同圖譜中的語義空間,實現多知識圖譜的語義融合。這種方法使用多個知識圖譜打通了不同型別資訊的語義鴻溝,在會話推薦系統的任務上起到了很好效果,也為融入多個外部的知識圖譜提供了一條可行之路。

資料質量方面,在處理不同知識圖譜對齊問題中,本年度提出了一種不同知識圖譜中語義相似的實體進行關聯時的噪音問題的解決方法 。在現有方法大多都是面向乾淨資料的前提下,帶有噪音檢測和基於噪音感知的實體融合方法探索出了一種魯棒的實體對齊方式,魯棒性的跨語言實體對齊模型,透過圖神經網路建模知識圖譜中的實體對,得到噪音感知的實體對齊模組,利用生成對抗網路來生成噪音實體對並訓練一個噪音判別器,識別出乾淨的實體對。

3. 知識推理

知識推理方面,多種新穎觀點在頂級會議上被提出,例如: 圖譜推理在影像影片描述生成領域的應用,以及垂直領域的推理任務等。

在常識問答方面,可以基於圖的上下文表示學習和基於圖的推理方法 ,利用不同結構的知識源進行常識問答。不針對於具體領域和具體任務,本年度還提出了一個 RNNLogic 的機率方法  ,該方法包括一個使用遞迴神經網路生成邏輯規則的規則生成器,和一個帶有邏輯規則的推理預測器,並使用基於 EM 演算法的最佳化,從學習邏輯規則的角度給出了一個知識圖譜推理的有效方案。

另外也有 基於知識圖譜的向量嵌入技術,完全基於向量操作進行推理演算;基於 Neural Logic Programming 框架,在數值推理問題方面也向前邁進了一步。

圖機器學習

圖機器學習領域目前剛剛到達圖論和機器學習的交叉點。包括圖上深度學習的啟發式應用到圖模型範圍等問題都在進行廣泛和深入的研究。

同時, 知識圖譜與機器學習相結合的研究也逐漸增多 ,相關研究成果在頂級會議上的提交率有所增長:

1. 在圖嵌入方向, 學者提出了一種新的 KGE 框架自動實體型別表示(AutoETER) [21],透過將每個關係看作是兩個實體型別之間的轉換(translation)操作來學習每個實體的潛在型別嵌入,並利用關係感知對映機制來學習每個實體的潛在型別嵌入;

2.知識推理方向,學者提出了一種新的框架,用於嵌入學習和跨多個特定語言的 KG 進行整合知識遷移。 該框架將所有 KG 嵌入到一個共享的嵌入空間中,在那裡基於自學習捕獲實體之間的關聯。然後,進行整合推理,合併來自多個特定語言 KG 嵌入的預測結果;

3. 知識圖譜與推薦系統結合方向 ,學者首先算出圖中各型別節點的嵌入,結合注意力機制,利用鄰居節點為中心節點提供更豐富的資訊,然後利用傳統的“頭結點+關係=目標節點”的方法訓練最終的圖嵌入表示,最後接入下游的推薦系統模型。此外,圖神經網路 GNN 被廣泛應用於圖機器學習。前沿的關於圖機器學習的研究對 GNN 有更紮實的理論理解。

圖資料庫

2020 年以來,為了滿足強關聯和網路型資料的儲存、查詢和大規模圖分析的效能需求,圖資料庫在其底層資料結構的設計上也儘量貼合關係資料的搜尋模式,減少磁碟的 I/O 操作時間。傳統關係型資料庫的 B+樹資料結構在資料檢索和隨機資料讀取上有優秀的效能,而對於關係資料的遍歷則顯得相形見絀了。

分散式圖資料庫在對圖分割上有以點分割和以邊分割 2 種方案。在 2020 年越來越多的新型分散式圖資料庫會選擇以邊分割的方案,甚至是把圖節點的屬性和邊同樣對待,統稱為謂詞 。相同的謂詞會存在同一臺或幾臺機器上。這樣很多查詢,特別是多跳查詢可以集中在少量的機器上完成,大大減少資料傳輸帶來的網路開銷。新型的分散式圖資料庫在百億資料量的規模下, 單點的多跳查詢能做到毫秒級返回。

二、主要應用

知識圖譜是把人類的知識和經驗程式碼化的有效工具,賦予機器認知智慧以構建智慧體在不同應用場景中代替或幫助人類解決實際問題。

接下來,我們將從通用和垂直兩個層面探討其應用。

首先,知識圖譜在通用領域的應用:

1. 資料治理

2020 年,知識圖譜被逐漸應用在資料治理中。政務、金融、審計等行業均有嘗試。

部分企業提出資料、管理、業務的三層圖譜概念。也有企業從場景落地出發,提出“資料”與“知識”雙驅動:即,從生產、經營、管理等實際業務場景出發,將業務、流程、指標中的知識構建成知識圖譜。

一方面,應用知識圖譜將業務場景與資料關聯起來,讓機器知道什麼業務場景需要什麼資料,這些資料必須達到怎樣的標準和質量,進而幫助資料治理;另一方面,透過資料治理所形成的業務發現沉澱到知識圖譜裡,在數字化轉型中釋放價值。

這樣一來,一些傳統資料治理中的難題得到進一步解決:透過知識、模型以及圖結構的應用,一些錯誤的、不一致的資訊可以被發現、統一;基於業務規則定義,可識別潛在的資料關聯關係,進一步補充資訊。

知識圖譜將業務資料、產業知識、通用常識、機理模型、決策網路、機器學習模型進行混合儲存,實現知識和資料沉澱賦能智慧應用。在業務場景的驅動下,應用知識圖譜可以有效實現資料治理與業務治理的迭代閉環。

2. 搜尋與推薦

隨著知識圖譜的深層應用,2020 年,搜尋與推薦更加智慧,並在消費領域之外的生產、管理等方向不斷下沉。

在面向生產、管理等垂直業務領域,領域知識、事件圖譜的應用提升了檢索效率與質量。一些非結構化或半結構化資料應用較多的專業,如審計、醫療、金融、司法、各型別研究結構等,文書、文獻、案例/判例、研究成果、專家經驗被引入到領域知識圖譜的構建中。透過對不同層次知識分析、加工、結構化處理,在常規檢索之外,實現知識的鑽取和深度挖掘。

在這個過程中,一些企業透過知識標註工具,將業務實體、屬性和關聯關係標記出來,把標記的實體和關係存入知識庫,並把它們沉澱成自動知識抽取模型的訓練語料;也有一些企業透過對映、連線及各類 D2R 操作,將結構化資料庫的資料字典、表結構、關係及資料庫內容轉換為知識圖譜的本體、業務實體、實體間關係組成的三元組,以便於人們從研究物件、研究主題、業務分類等多個維度檢索出相關結果。

其次,知識圖譜在垂直領域的應用:

1. 智慧生產

工業知識圖譜是知識圖譜的重點發展方向。 今年人們對知識圖譜在生產領域的探索貫穿了產品生產的各個環節:

(1) 模擬模擬:

以石油化工業領域的應用為例。考慮到石化產業具有易燃易爆、工藝複雜等特點,現實中有大量無法透過機理模型或模擬軟體解釋的現象。為方便生產線工人的日常作業,人們透過構建產業鏈知識圖譜,在短時間內從眾多影響因子的因果變化關係中進行生產操作前的模擬:如工人準備改變某可操作變數時,可透過圖譜預測操作帶來的變化;如工人試圖達到某結果時,可透過圖譜提前預判操作步驟 。

(2) 產品研發:

在知識圖譜的支撐下可以圍繞產品發展趨勢為新產品市場定位提供決策知識;可以識別新產品在不同使用場景下的使用方法和使用要求,推送其他產品的應用案例;還可以提供已有的相似產品、相關技術、領域專家和資訊化工具軟體等資訊 。

(3) 產品質量提升:

透過監控生產過程中的實時引數曲線構建核心部件的健康指數模型,在識別關鍵因素的基礎上進行引數推薦,提升良品率。

(4) 生產預測:

在機理模型與經驗模型融合的基礎上,結合生產知識圖譜實現圖迭代計算,計算出某因子發生變化時整個關係網路達到穩定後各個產物節點的狀態值,實現更準確的生產預測 [26]。

(5) 供應鏈風險管理及零部件選型:

可以彙集產品知識、物流知識、採購知識、製造知識、交通訊息等等構建供應鏈及零部件圖譜,將採購、物流、製造聯絡起來,透過語義網(關係網)實現供應鏈風險管理與零部件選型。

(6) 節能減排:

整合、分析物聯網感測器和系統的資訊,打通建築物管理、居住舒適度調節、電源監控等資料孤島,構建智慧建築領域的物聯網知識圖譜。降低開發者和工程師的工作量,實現最最佳化的智慧建築運營 。

(7) 裝置故障預警與安全生產:

以石油領域為例,油田聯合站承擔原油處理、儲存與外輸任務,是一級防火、甲級防爆單位。透過裝置知識圖譜和決策知識圖譜,一方面可以將裝置的生產引數變化轉換為狀態變化和各種生產現象,模擬專家分析裝置執行過程,對裝置執行狀態進行預測;此外,還能基於不同生產現象的變化在決策圖譜中自動選擇最優措施方案,生成決策建議,通知現場管理人員進行現場作業和處理。

2.智慧營銷

消費者、商品的圖譜構建更加深入、完善。

(1) 消費者:

資料進一步打通。除使用者基本資訊、行為特徵之外,興趣、場景、需求等內容也逐漸豐富到消費者圖譜內。使用者價值模型、購買驅動因素模型等模型應用也擴充套件了圖譜內容。

(2) 商品:

一些企業透過構建事件圖譜、影片理解圖譜強化對事件、場景的感知,嘗試從文字到多媒體的跨越,豐富產品構建內容;在消費品領域,消費者對產品的別稱、暱稱、縮寫等非常豐富,制約了圖譜構建效率,還有一些企業在圖融合領域不斷探索,提升實體的自動化對齊效果。

部分應用:

(1) 自動撰文:

挖掘主競品文章中對業務有價值的高頻詞語和短語,形成實體庫;透過本體及實體的挖掘找到人群與需求、人群與場景的關係;挖掘屬性和評價詞語,與相關實體關聯,形成實體的評價印象;解析句子的語法結構以及與本體、實體的關聯,使機器撰寫更接近人的行文習慣。

(2) 購買意向預測與內容推薦:

結合機器感知、特徵標籤和業務經驗對使用者特徵進行價值挖掘,把使用者特徵輸出成引數,用模型篩選出適合參加某些活動的人群;透過聚類,利用 K-means 對具有較高購買可能性的人群進行類別劃分;針對不同群體的需求,如價格、興趣、場景等傳遞不同的內容資訊,提升內容推薦效果。

3.AIOps(智慧運維)

主要是將知識圖譜與根因分析相結合,進一步提升運維效率和質量。

今年比較流行的做法是:透過應用業務日誌、CMDB 配置系統等資料構建異常事件圖譜;再運用推導模型進行根因定位,對存在異常的子系統及其相關的 IP、DCN、服務資訊進行提取,對異常事件知識圖譜進行裁剪;最後,再應用規則引擎推匯出根因結論。

一些企業會針對告警資料進行分類,利用軟硬體知識圖譜將有關聯的物理機、虛擬機器和軟體資料匯聚為一組,便於後續建模和應用;一些企業對不同時間粒度的樣本構建因果圖,透過對演算法構建的因果圖構建告警知識圖譜,讓運維人員在快速查詢故障裝置資訊的基礎上進一步瞭解故障發生原因以及後續處理步驟;

還有一些企業嘗試將基於專家規則的推理與基於描述邏輯的推理、基於分散式表示的表示學習推理、本體推理、複合推理相結合,利用知識圖譜讓系統自動採取相應的恢復手段、維護策略,實現網路的 “自維護”。

4.智慧管理

這裡,我們主要介紹在政府管理中的應用。

我們知道,在政府日常管理中,政務資料與政府、企業、非盈利組織和公民等多角色密切相關,需要依據各類規章制度,涉及大量單據、文件材料等非結構化、半結構化與結構化資料。 由於政務業務的變動和對資料的認知變化導致的資料類別上的增加或變化的發生頻率很高,知識圖譜的本體自動構建技術和基於動態知識圖譜的資料整合方案技術非常必要。

今年,一些企業正在基於聚類演算法和強化學習結合的模式開發 schema 自動構建和根據反饋調整知識圖譜的能力來滿足業務動態變化的需求,以減少工作成本,提升效率。還有一些企業利用動態知識譜圖技術,將模型與資料進行解耦,降低大規模資料整合場景下知識圖譜變化帶來的計算壓力 。

透過知識圖譜的應用,一方面打破了資料孤島,將大規模、碎片化的多源政務資料關聯起來,以實體為基本單位對政務資料進行挖掘,揭示各實體間的複雜關係,實現知識層面的資料融合與整合。同時,也更大程度的釋放了政務資料價值,為政府部門、企業、非營利組織、公民提供更高水準的服務,提高政府監管效率和效能 。

三、知識圖譜行業和技術發展的展望

1、技術發展趨勢展望

知識圖譜主要技術包括知識獲取、知識表示、知識儲存、知識建模、知識融合、知識計算、知識運維等七個方面,儘管目前已取得了很多成就,但仍在快速演進當中。

例如,在 知識獲取 方面,資源缺乏、面向開放域、跨語言及跨媒體等方向的知識抽取正在成為未來的研究方向;

知識表示 方面,符號與表示學習的融合統一、面向事理邏輯的知識表示、融合時空間維度的知識表示、融合跨媒體元素的知識表示正在成為未來的研究方向;

知識儲存 方面,基於 RDF 和 LPG 知識表示的分散式儲存、涉及高適應性的知識儲存、基於 LOD(Linked Open Data)的知識儲存、Hyper Graph 的進一步研究和應用正在成為未來的研究方向。

2、應用趨勢展望

目前,大規模知識圖譜的應用場景還比較有限,其在智慧語義搜尋、深度問答(包括基於資訊檢索的問答系統、基於語義分析的問答系統)、演化分析、對話理解等方面的應用也處於初級階段,仍具有廣闊的應用與推廣前景。

從知識圖譜應用發展趨勢來看,當前正在從通用知識圖譜應用向領域或行業知識圖譜應用擴充,如金融、醫療、公安、醫療、司法、電商等,依託知識圖譜強大知識庫的深度知識推理能力和逐步擴充套件的認知能力,幫助相關行業從業者對特定的問題進行分析、推理、輔助決策。

3、標準化趨勢展望

隨著 ISO/IEC JTC1/SC42、W3C、IEEE、全國資訊科技標準化技術委員會、國家人工智慧標準化總體組等國內外標準化組織或機構對知識圖譜標準化的關注與推動,《知識圖譜技術架構》等多項知識圖譜相關國際、國家標準獲得立項或提出討論。

未來,知識圖譜領域基礎共性及關鍵技術標準將不斷湧現,依託正在研製的知識圖譜技術架構等標準,透過聚焦核心標準化需求逐步建立基本的知識圖譜標準體系並孵化典型行業中的知識圖譜應用標準,形成國際標準、國家標準、行業標準和團體標準良性互動的局面。

4、技術開發與應用相關建議

(1)加強知識圖譜核心關鍵技術支援與突破:

突破知識圖譜基礎理論及關鍵核心技術瓶頸,以演算法為核心,以資料和硬體為基礎,以大規模知識庫的構建與應用為導向,實施重大關鍵技術攻關工程。

(2)加強知識圖譜優秀解決方案/產品展示與推廣:

透過梳理知識圖譜在典型行業的優秀案例並形成案例集,建設開放性實驗室,推出優質培訓課程等方式加強知識圖譜優秀平臺或產品的展示與推廣,打破知識圖譜開發企業、研究院所、高校與各領域企業間的溝通屏障。

(3)加強通用和領域知識圖譜開放平臺建設:

開放的通用知識圖譜和領域知識圖譜平臺是推動知識圖譜技術在各行業融合應用的重要基礎設施,能夠避免企業在建設知識圖譜過程中從零開始或重複建設,也可降低知識圖譜專案實施方的設計開發成本。

2022年11月11日 — 2022年11月15日

一、知識圖譜概論

1.1知識圖譜的起源和歷史

1.2知識圖譜的發展史——從框架、本體論、語義網、連結資料到知識圖譜

1.3知識圖譜的本質和價值

1.4知識圖譜VS傳統知識庫VS關聯式資料庫

1.5經典的知識圖譜

二、知識圖譜應用

2.1知識圖譜應用場景

2.2知識圖譜應用簡介

三、知識表示與知識建模

3.1知識表示概念

3.2 知識表示方法

3.3典型知識庫專案的知識表示

3.4知識建模方法學

3.5知識表示和知識建模實踐

四、知識抽取與挖掘

4.1知識抽取基本問題

4.2資料採集和獲取

4.3面向結構化資料的知識抽取

4.4面向半結構化資料的知識抽取

4.5.面向非結構化資料的知識抽取

4.6.知識挖掘

4.7知識抽取上機實踐

五、知識融合

5.1知識融合背景

5.2知識異構原因分析

5.3知識融合解決方案分析

5.4.本體對齊基本流程和常用方法

5.5實體匹配基本流程和常用方法

5.6 知識融合上機實踐

六、儲存與檢索

6.1.知識圖譜的儲存與檢索概述

6.2.知識圖譜的儲存

6.3.知識圖譜的檢索

6.4.上機實踐案例:利用GraphDB完成知識圖譜的儲存與檢索

七、知識推理

7.1.知識圖譜中的推理技術概述

7.2.歸納推理:學習推理規則

 上機實踐案例:利用AMIE+演算法完成Freebase資料上的關聯規則挖掘

7.3.演繹推理:推理具體事實

7.4.基於分散式表示的推理

7.5.上機實踐案例:利用分散式知識表示技術完成Freebase上的連結預測

八、語義搜尋

8.1.語義搜尋概述

8.2.搜尋關鍵技術

8.3.知識圖譜搜尋

8.4.知識視覺化

8.5.上機實踐案例:SPARQL搜尋

九、知識問答

9.1.知識問答概述                       

9.2.知識問答基本流程

9.3.相關測試集:QALD、WebQuestions等

9.4.知識問答關鍵技術

9.5.上機實踐案例:DeepQA、TemplateQA



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70021344/viewspace-2922199/,如需轉載,請註明出處,否則將追究法律責任。

相關文章