如何構建多快好省的“知識圖譜即服務”?這裡有獨家的經驗分享

微軟研究院AI頭條發表於2019-01-18

近年來,隨著人工智慧技術在科研和實踐中的廣泛發展和應用,知識圖譜作為人工智慧的重要課題也得到迅速發展。包含上億條事實的公開知識圖譜已經非常常見,並且不同的資料來源又互相聯結相通,形成了數以百億計的超大規模知識圖譜。與此同時,隨著自然語言處理深度學習等技術的發展,知識圖譜的抽取技術也在不斷進步,增量的知識圖譜資料不斷匯入。

一方面,知識的普遍性和關聯性等特點決定了知識圖譜只有在到達一定的數量級和覆蓋率時才能真正發揮其能量;另一方面,常用知識表示方法(比如三元組)的靈活性和碎片化等特點,也讓知識圖譜資料的管理變得困難。在知識圖譜資料已經成為一個不斷快速生長的龐然大物的背景下,如何讓海量知識變得可用且好用已經成為當前知識型應用的緊迫需求。

同一套知識圖譜資料可以在不同應用中通用,同時對於使用者而言,構建一套全新的資料系統是一項冗餘和繁雜的工作。因此,為知識型應用提供線上可用或下載即可用的資料服務成為一種知識圖譜的高效應用方式。本文中,我們將這種線上或離線提供知識圖譜資料服務的方式稱為知識圖譜即服務”

本文將從資料、應用及挑戰等角度詳細闡述如何高效地管理和服務超大規模知識圖譜資料,並分享作者所在團隊在設計和實現百億量級知識圖譜實時服務中的一些案例經驗。

知識圖譜:圖視角下的知識

英國哲學家弗朗西斯·培根有句名言:“知識就是力量”。Stuart J.Russell 和 Peter Norvig 在《人工智慧:一種現代方法》一書中指出,人工智慧包括自然語言處理、知識表示、自動推理、機器學習計算機視覺以及機器人技術。知識表示對於人工智慧的重要性不言而喻。實際上,機器學習得到的模型也是一種用計算結構和數值表示的知識。

在眾多知識表示方式中,知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性:首先,知識圖譜是一種語義表示,可以對現實世界中的實體、概念、屬性以及它們之間的關係進行建模;其次,知識圖譜是其衍生技術的資料交換標準,其本身是一種資料建模的“協議”,相關技術涵蓋知識抽取、知識整合、知識管理和知識應用等各個環節。

知識圖譜是一種特殊的圖資料,它是語義的和可複用的:知識圖譜資料一經獲取即可被多領域應用重複使用,這也是知識圖譜服務的構建動機。那麼,知識圖譜具體來說是什麼呢?

相關文章