知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間

AMiner学术头条發表於2020-11-04

知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間

知識圖譜是近年來人工智慧技術蓬勃發展的核心驅動力之一,已廣泛應用在金融、電商、醫療、政務等眾多領域,經過短短几年的發展,熱度依舊不減,未來,知識圖譜又將解決哪些其他技術無法解決的問題呢?它又面臨著哪些新的挑戰?

知識圖譜的發展脈絡

作為人工智慧的一個重要研究領域,其研究和發展可以追溯到第一個人工智慧浪潮。1968 年圖靈獎獲得者 Edward Feigenbaum 研發出世界首個專家系統 DENDRAL,並隨後在第五屆國際人工智慧會議上正式提出知識工程的概念,目標是將知識融入計算機系統用以解決只有領域專家才能解決的複雜問題。1999 年網際網路發明人、圖靈獎獲得者 Tim Berners-Lee 爵士提出語義網的概念,核心理念是用知識表示網際網路,建立常識知識,但一直苦於規模小、應用場景不清楚而發展緩慢,因此,2012 年以前,學術界和工業界普遍認為知識圖譜技術處於初級發展階段。

直到 2012 年,這一狀況才有了改變。這一年,谷歌釋出了 570 億實體的大規模知識圖譜,其宣傳語是“Things, not Strings”給出了知識圖譜的精髓,即,不要無意義的字串,而是獲取字串背後隱含的物件或事物,多組研究者也曾獨立地提出過相似的理論。“Things, not Strings”理論脫胎於眾多著名認知心理學家提出的 Semantic Networks 理論,最為著名的有 Sowa 等人在 1984 年提出的 ConceptNet。在符號主義的思潮中,許多早期知識圖譜將關係侷限為幾種特殊的基本關係,如“擁有屬性”、“導致”、“屬於”等,並定義一系列在圖譜上推理的規則,期望透過邏輯推理實現智慧。

然而,早期知識圖譜的思路遇到了許多實際的困難,比如結構化知識資訊的大量缺失,推理規則的無法窮舉問題等。當然,這些問題也並非來自知識圖譜,而是符號主義本身的特性。知識圖譜的缺點本質上都是“二元一階謂詞邏輯”作為知識表示的本身缺陷帶來的。知識表示是長久以來研究者孜孜不倦追尋探索的話題,完全依靠(頭實體、關係、尾實體)這樣的命題,儘管能表示大部分簡單事件或實體屬性,對於複雜知識卻束手無策。

2012 年釋出的谷歌知識圖譜將常識知識圖譜構建應用於實際系統(Freebase 是谷歌知識圖譜的前身,它整合了包括許多私人維基在內的大量網路資源,後來被谷歌收購)。自谷歌第一版知識圖譜推出以來,它在學術界和工業界掀起了一股熱潮,隨之而來的是各類知識圖譜如雨後春筍般湧現。

  • DBpedia,它從維基百科中抽取結構化知識在進行本體的構建,透過結構化,使用者可以使用 SPARQL 語言進行查詢
  • YAGO 也是開源知識圖譜,被應用於 IBM Waston 問答系統
  • NELL 則是卡耐基梅隆大學 Tom Mitchell 教授帶領開展的知識自動學習—NELL 專案開啟了一個機器學習實現知識圖譜構建的浪潮,目標是持續不斷地從網路上獲取資源並進行事實發現、規則總結等,裡面涉及到命名實體識別、同名消岐、規則歸納等關鍵技術;
  • ArnetMiner 是面向清華大學知識工程實驗室構建的面向科技領域的知識圖譜,專案實現了高精度學者畫像、同名消歧、智慧推薦、趨勢分析等關鍵技術。該工作獲得了 ACM SIGKDD 的 Test-of-Time Award(時間檢驗論文獎),這也是華人團隊首次在該領域獲得此國際獎項。

知識圖譜的下一步是認知圖譜

深度學習時代的知識圖譜擁有大量的實體和關係,然而大量不同的關係上很難定義邏輯規則,在知識圖譜上“推理”也轉入黑盒模型預測的正規化。Bordes 等人的知識庫結構嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先將神經網路引入 知識圖譜 的研究,特別是後者將知識圖譜中實體和關係的單詞嵌入的平均作為該節點的表示,訓練神經網路判斷(頭實體、關係、尾實體)的三元組是否為真,在知識圖譜補全(推理)任務中取得了很好的效果。

知識圖譜的一個重要特點就是可解釋性和發現新知識的能力,這是目前深度學習方法很難做到的。知識圖譜把領域知識或常識整理成結構化的形式,然後在此基礎上進行推理,類似於人腦的功能。比如評審專家的推薦,使用深度學習的方法進行訓練,專家的查詢過程是個黑盒操作,無法追溯推薦的理由。使用知識圖譜建立的高精度的專家畫像,及專家關係網路能夠為專家推薦提供可解釋性,比如評審專家的學科相似度、評審人和專家的關係等等。

知識圖譜同樣存在不足。知識圖譜的缺點本質上都是“二元一階謂詞邏輯”作為知識表示的本身缺陷帶來的。知識表示長久以來研究者孜孜不倦追尋探索的話題,完全依靠(頭實體、關係、尾實體)這樣的命題,儘管能表示大部分簡單事件或實體屬性,對於複雜知識卻束手無策。

近年得益於自然語言處理的極大進步,BERT 等預訓練模型帶來的文字理解和檢索能力使得我們可以在原始文字上進行理解和推理,例如 Chen 等人的 DrQA 就是使用神經網路直接從文字中抽取問題答案,掀起開放領域問題的新熱潮。另一方面,我們必須保持知識圖譜的圖結構帶來的可解釋性和精準穩定的推理能力。例如,知識圖譜很難構建百分百正確的、超大規模的知識圖譜,因此,針對這些不足,認知圖譜應運而生。

本質上,認知圖譜的改進思路是減少圖譜構建時的資訊損失,將資訊處理壓力轉移給檢索和自然語言理解演算法,同時保留圖結構進行可解釋關係推理。認知圖譜主要有三方面創新,分別對應人類認知智慧的三個方面:

1.(長期記憶)直接儲存帶索引的文字資料,使用資訊檢索演算法代替知識圖譜的顯式邊來訪問相關知識;

2.(系統一推理)圖譜依據查詢動態、多步構建,實體節點透過相關實體識別模型產生;

3.(系統二推理)圖中節點產生的同時擁有上下文資訊的隱表示,可透過圖神經網路等模型進行可解釋的關係推理。

事實上,認知圖譜正是由人類認知過程所啟發,“快速將注意力定位到相關實體”和“分析句子語意進行推斷”是兩種不同的思維過程。在認知學裡,著名的“雙過程理論(dual process theory)”認為,人的認知分為兩個系統,系統一(System 1)是基於直覺的、無知覺的思考系統,其運作依賴於經驗和關聯;而系統二(System 2)則是人類特有的邏輯推理能力,此係統利用工作記憶(working memory)中的知識進行慢速但是可靠的邏輯推理,系統二是顯式的,需要意識控制的,是人類高階智慧的體現。

認知圖譜首先由清華大學阿里巴巴在 2018 年的中國計算機大會上提出,後來 Ding 等人將其應用於多跳開領域閱讀理解問答中。傳統方法中,開領域問答往往依靠大規模的知識圖譜,而閱讀理解問答一般面向單段,此時閱讀理解的 NLP 模型,例如 BERT,可以直接處理。然而,這樣的方法在多跳(推理)問答中存在“短視檢索”的問題,即在幾跳(幾步推理)的文字和問題回答中,真正的答案可能和問題相關性較低,很難被直接檢索到,這導致了效果不佳。認知圖譜問答提出一種新穎的迭代 框架:演算法使用兩個系統來維護一張認知圖譜,系統一在文字中抽取與問題相關的實體名稱並擴充套件節點和彙總語義向量,系統二利用圖神經網路在認知圖譜上進行推理計算。

基於認知圖譜技術,北京智譜華章科技有限公司(以下簡稱:智譜·AI)還研發了支援知識推理的科技情報挖掘系統。團隊將認知圖譜技術作為知識圖譜的補齊任務,針對由現實世界中的實體和關係組成的知識圖譜,提出了 CogKR 框架,基於認知科學中的雙過程理論,透過構建認知圖來完成在已知頭實體和關係型別情況下推理尾實體的任務。比起基於嵌入的方法,該方法多跳推理的能力更強,並且具有更好的可解釋性。比起過去的基於路徑的多跳推理方法,該方法能夠利用更加複雜的子圖結構進行推理,而不會侷限在單條路徑,因此有更好的準確性。

資料和演算法在知識圖譜中扮演的角色?

知識圖譜中,資料扮演著底部基石的作用。據智譜·AI 的創始人唐傑教授介紹,知識圖譜是源於資料的,是從資料中抽取結構化資訊,資料的好壞直接關係到知識圖譜構建的效率和質量。比如從結構化的資料中構建知識圖譜會比從非結構化的資料中構建效率和準確率要高,資料越複雜,噪音越大,構建成本也就越高。智譜·AI 的“智慧人才”專案包含了大量科研人才、政府工作資料集,這些資料透過多個渠道來獲取,包括透過和相關機構合作或購買版權的形式獲取的內部資料,如 Digital Science、中國工程院等等;其次是透過爬蟲的形式獲取網路中的開放資料,比如國家和地方政府的網站,學者個人主頁等等;此外智譜·AI 還使用了資訊抽取的方法從論文、專利等科研文獻中抽取相關的內容。這些不同資料來源的異構資料在獲取以後會透過資料融合演算法進行融合與關聯,為知識圖譜構建提供基礎。

知識圖譜擁有大量的實體和關係,然而大量不同的關係上很難定義邏輯規則,因此演算法,尤其是深度學習演算法在知識圖譜中佔據著舉足輕重的地位。例如,Bordes 等人的知識庫結構嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先將神經網路引入知識圖譜的研究,特別是後者將知識圖譜中實體和關係的單詞嵌入的平均作為該節點的表示,訓練神經網路判斷(頭實體,關係,尾實體)的三元組是否為真,在知識圖譜補全(推理)任務中取得了很好的效果。然而,簡單用詞向量表示實體本身,忽略了他們的獨特的符號特徵:例如美國網紅“James Charles”和 20 世紀著名時尚設計師“Charles James”的詞向量平均結果相同,可是其知識圖譜上的相關屬性必然有很大差別。後來更多的目光轉向大型知識圖譜自身的嵌入訓練,其中最為優雅有效的開創性工作是 Bordes 等人的 TransE。演算法的目的是為知識圖譜中每個關係或實體學習一個 d 維向量表示,對於知識圖譜中任意的三元組事實 (h,r,t),演算法要求它們的向量表示滿足 h+r≈t。

針對知識建模,智譜·AI 也提出了一整套知識圖譜構建的流程和演算法:首先,是提出多維關係依賴的機率圖示註模型,可以描述例項間的序列依賴關係,以及例項間層次依賴和二維依賴關係,將語義標註錯誤率降低 40-56%;針對開放網際網路資料噪音大、冗餘的特點,提出一階邏輯機率因子圖模型,提高了標註準確率,這個模型也獲得了 ICDM 的競賽冠軍。其次,是提出多策略動態選擇的語義整合方法 RiMOM,根據不同整合任務動態選擇整合策略,實現全域性整合風險最小化;提出基於隨機場的機率實體排歧模型,根據物件表示的語義聚集性及其之間的拓撲關係提升了排歧效能。6 年獲得國際語義整合 OAEI 評測的第一名。

值得一提的是,唐傑教授的團隊還從理論上證明已有的多種網路表示學習方法(DeepWalk、LINE 等)都可以歸一化到矩陣分解理論框架下,提出了網路表示學習的新思路。基於該理論,提出一種全新的基於矩陣分解的知識網路表示學習演算法 NetMF,在多個公開資料集上,演算法明顯優於已有方法。此外,智譜·AI 也將該方法應用異構知識融合,利用連結相似度對跨語言知識圖譜進行統一建模。

工業級知識圖譜的技術難點

和未來應用場景

目前,知識圖譜在工業界的應用已經非常廣泛,半自動化的知識圖譜構建方法目前也已經基本達到了實際應用的水平。工業級的知識圖譜要能夠滿足具體的業務需求,那麼,在具體的落地應用中,又面臨著哪些技術難點?

對此問題,唐傑教授表示,工業級知識圖譜的應用,難點首先是知識的精準抽取與融合,多源異構資料的融合在實際應用場景中要複雜得多,而且資料質量也很難保證。可以根據各應用領域的特徵有針對性的建立抽取及融合模型,也可以結合一些預訓練模型進行分析。

其次是需要一個更加高效和友好的互動系統,輔助知識圖譜的構建和校驗,比如結合主動學習、對抗學習及小樣本學習等方法,儘量減少人工的干預;利用日常工作中使用的系統,隱式的收集標註知識等等。在應用方面,目前知識推理的研究還是一個重要的難點,為此,智譜·AI 也探索了使用雙系統理論進行認知推理,此外結合圖神經網路及認知符號的推理方法也是一個很好的研究思路。

唐傑教授認為,目前知識圖譜的應用主要還是集中在文字分析方面,將文字資料擴充套件到影像、語音等不同模態,多模態知識圖譜的表示、獲取和推理是目前值得關注的方向,學術界和工業界也都有了一些探索性的研究。儘管存在諸多技術難點,但隨著深度學習的發展和演算法的不斷迭代,知識圖譜已普遍應用在了知識融合、語義搜尋和推薦、問答和對話系統中,未來將會在決策推理、深度關聯挖掘等場景中發揮重要作用。

智譜·AI 首席顧問兼戰略規劃院名譽院長張鈸院士,曾經指出知識圖譜與公司的未來發展的關係:公司要辦好的前提首先是發展方向正確,要將知識驅動與模型驅動相結合,走第三代人工智慧之路。其次,要找到知識真正的應用場景。知識就是力量,我們要做知識的生產者,知識圖譜知識庫就是財富的轉換源泉。因為智譜·AI 是依託清華大學計算機系在知識圖譜和智慧計算方面的長期積累,是透過學校技術成果轉化、在知識智慧方向創立的第一家公司。張鈸院士曾表示,在科技成果轉化出來的公司中,最看重智譜·AI,也寄語智譜·AI:技術成果轉化具有重要意義。但作為公司,還有很長的路要走,希望智譜·AI 能夠像在學校裡面做研究一樣專注把每件事做好,創造真正的價值。

知識圖譜的構建已走到下半場

知識圖譜的構建技術看,它經歷了由人工構建到群體智慧構建到自動獲取、構建的過程。人工構建是早期知識圖譜構建的主要方法,手工構建的優點首先是準確率較高,其次是人類便於理解,缺點是效率低、成本高,構建出的圖譜規模有限。

自動或半自動的構建方法,可以不同程度的提高構建效率,降低成本,目前很多方法已經能夠實現億級知識圖譜的構建,這也得益於結構化和半結構化資料的積累。半自動化的知識圖譜構建方法在將來一段時間內仍然會是主流,尤其對醫療、安全和金融等領域,資料質量要求較高,需要透過人工稽核保證準確性。

唐傑教授看來,認為知識圖譜的構建研究已經走到下半場,知識圖譜的應用還沒有走到下半場,比如知識推理。目前已經有相當規模的工業級知識圖譜已經落地,尤其是在金融、電商、醫療、社交、文娛、教育等領域。比如企查查、天眼查等企業知識圖譜、Facebook、騰訊等社交知識圖譜美團的美食知識圖譜等。

智譜·AI 也在科技情報領域構建了億級科技知識圖譜,包括技術、學者、論文、機構等實體、關係及屬性資訊,透過網路挖掘演算法實現專家人才發現、技術洞察與趨勢分析等應用。此外,公司還和阿里合作構建了千億級的電商知識圖譜,目前也已經應用於手機淘寶的推薦,將知識圖譜自動構建準確率從 55% 提升到 88%,全面支撐手機淘寶搜尋和推薦。

嘉賓介紹

唐傑清華大學計算機系教授、副系主任。研究興趣領域包括:人工智慧資料探勘知識圖譜和社交網路。

AMiner學術頭條
AMiner學術頭條

AMiner平臺由清華大學計算機系研發,擁有我國完全自主智慧財產權。系統2006年上線,吸引了全球220個國家/地區800多萬獨立IP訪問,資料下載量230萬次,年度訪問量1000萬,成為學術搜尋和社會網路挖掘研究的重要資料和實驗平臺。

https://www.aminer.cn/
專欄二維碼

相關文章