領域綜述 | 知識圖譜概論(一)

魔圖互聯發表於2019-03-22

本篇文章從知識圖譜歷史發展的角度向大家介紹知識圖譜。

目錄:

  • 什麼是知識圖譜

  • 知識圖譜的發展史


一. 什麼是知識圖譜

知識圖譜屬於人工智慧的重要分支——知識工程的研究範疇,是利用知識工程理論建立大規模知識資源的一個殺手級應用。知識圖譜給網際網路語義搜尋帶來新的活力,在智慧問答中也大顯神威,已經成為知識驅動的智慧應用的基礎設施。知識圖譜與大資料和深度學習一起,已經成為推動網際網路和人工智慧發展的核心驅動力之一。


1. 定義

知識圖譜在學術界還沒有統一的定義,根據維基百科,知識圖譜2012年首先由谷歌公司提出,是一個提供智慧搜尋服務的大型知識庫。因此,這裡我們可以將知識圖譜理解為,對語義知識的一種形式化描述框架

640?wx_fmt=png圖一 谷歌知識圖譜


2. 意義

知識圖譜從語義角度出發,通過描述客觀世界中概念、實體及其關係,從而讓計算機具備更好地組織、管理和理解網際網路上海量資訊的能力。更具體的說,在人類與網際網路世界互動的過程中,產生了繁雜龐大的資訊,這些資訊一般被圖片聲音文字視訊這些資料載體儲存。我們希望計算機可以分析閱讀理解這些資料,精準挖掘找到資料背後隱藏的有價值的知識,在使用者需要的時候提供知識服務。


3. 研究問題

知識圖譜研究的主要問題有 如何在計算機中表示知識,將知識儲存到合適的資料載體中(知識資料化),以及如何將大規模的網際網路資料轉化為我們定義好的知識資料的形式(資料知識化)等等。

知識圖譜技術具體指知識圖譜構建和應用的技術,涵蓋內容包羅永珍,是融合了知識表示與推理、資訊檢索與抽取、自然語言處理、語義網、認知計算、資料探勘與機器學習等方向的交叉研究。

 

二. 知識圖譜的發展歷史

今天我們先從知識圖譜歷史發展的角度來初步瞭解知識圖譜,揭開知識圖譜的神祕面紗。知識圖譜是人工智慧重要分支知識工程在大資料環境中的成功應用。

 

1. 前知識工程時期(1956-1970)

知識圖譜的發展伴隨著人工智慧技術的發展而發展。

1956年,馬文・明斯基、約翰·麥卡錫、克勞德·夏農、艾倫·紐厄爾等科學家在美國的一個小鎮漢諾斯舉辦了一個會議,探討著一個不食人間煙火的話題:如何用機器模擬智慧,併為會議討論的內容起了一個名字:人工智慧。這是“人工智慧”這一術語的首次提出,標誌“人工智慧”這門學科正式誕生,1956年也就成為了人工智慧元年

之後幾年,人工智慧得到蓬勃發展。簡單介紹一下人工智慧的兩大學派:連線主義和符號主義

640?wx_fmt=png 

圖二 "智慧"包含意識、思維、認知、本能等許多方面

連線主義學派受到神經科學的啟發,認為"智慧"是無數"非智慧"的神經細胞互相作用的結果,人與機器之間其實沒有本質的差別。如果我們能模擬神經細胞的行為,進而構造組織一張人工的"神經網路",那麼理論上就能模擬出人的大腦,創造所謂的"智慧"。

符號主義認為認為人的智慧可以用數理邏輯表達。數理邏輯在20世紀30年代開始被用於描述智慧行為,模擬人類智慧活動。計算機出現後,該理論又被應用到計算機上,實現了邏輯演繹系統,從而又發展出後來的專家系統和知識工程理論等。

這一階段具有代表性的工作是通用問題求解程式GPSThe General Problem Solver)。GPS旨在實現一個巨集大的目標:給定問題的描述,可以解決任何問題的計算機程式。他是第一個將問題的解決策略從特定問題的知識中分離出來的程式,並且激勵了很多在問題解決領域的研究。

這一時期的知識表示方法主要有邏輯知識表示、產生式規則、語義網路等。這個時期學者研究的重點在於,如何設計出一個推理模型來求解通用問題,但是卻忽視了知識在問題解決中扮演的重要角色。

 

2. 專家系統時期、(1970-1990)

早期學者注重通用問題的求解,試圖模仿人的求解問題的邏輯思維能力構造智慧系統,而忽略了知識(人的認知)對智慧的支援

什麼是認知?什麼是知識?維基百科有云,認知或認識(cognition)在心理學中是指通過形成概念、知覺、判斷或想象等心理活動來獲取知識的過程,或者說資訊加工的心理過程。知識即是經過加工的資訊

1970年開始,科學家們提出各種知識表示技術,將領域專門知識表示成計算機可以識別的資料形式。人工智慧開始轉向建立基於知識的系統,通過 知識庫+推理機 實現智慧的專家系統。當時比較知名的專家系統有MYCIN 醫療診斷專家系統、識別分子結構的DENRAL 專家系統以及計算機故障診斷 XCON 專家系統等。

 1977年,在第五屆國際人工智慧會議上,美國史丹佛大學電腦科學家費根鮑姆教授(E.A.Feigenbaum) 系統地闡述了“專家系統”的思想,並提出了“知識工程”的概念,正式確立知識在人工智慧中的重要地位。

這一時期的知識表示方法主要有框架表示法、指令碼表示語言等。同時期出現了許多用這些知識表示方法構建的知識庫,如Cyc 常識知識庫,它們都是通過人工新增知識構建而成

640?wx_fmt=png

圖三 知識工程發展歷史

 

3. 全球資訊網時期 (1990-現在)

如何高效的讓計算機獲得知識?全球資訊網之父,Tim Berners-Lee 最初設計網際網路的初衷就是希望通過網路把全世界的知識互聯在一起,使得知識從封閉知識走向開放知識,從集中知識成為分佈知識。他認為首先應該構造一個文件互聯的網路,然後在這個基礎上再構建一個具備可以被計算機識別的知識結構的知識互聯的網路。第1個目標已經實現了,就是現在我們每天都接觸的有網際網路,那知識互聯的網路是什麼意思?

web2.0中,網際網路上的資料絕大部分以html的形式存在,這樣的形式確實適合人機介面之間的資訊傳遞,方便人類的閱讀和理解,但是網頁內容沒有采用形式化的表示方式,缺乏明確的語義資訊,Web內容對於計算機而言只是普通的二進位制資料,對其符號背後隱藏的知識無法被計算機識別。所以,面對當今資訊時代的海量資訊,當人們希望藉助計算機來獲取自己需要的資訊時,這種html網頁表示形式的瓶頸就凸顯出來了,這也正是基於關鍵字匹配的傳統搜尋引擎的壁壘所在。

於是,針對第二個目標,1998 年Tim Berners-Lee 首次提出語義網概念,也就是後來人們常常說到的web3.0。這是一個極具野心的巨集大概念,目標是對現有web內容增加語義支援,使得計算機可以自動識別和理解網際網路上的資訊,完成智慧化應用任務。針對語義網概念,一整套標準化的相關技術不斷被提出以及完善,形成了語義網技術堆疊,主要包含了RDF(資源描述框架) 和 OWL(全球資訊網本體描述語言)等內容,這裡麵包含了過去幾十年邏輯推理和知識表示等知識工程理論方面的研究成果。

要實現這個目標是一個相當艱鉅的任務————必須把網際網路上海量龐大的內容資訊轉化為機器可以理解和計算的知識形式。早期專家系統中手工編輯知識庫的方式面對這個任務顯然捉襟見肘,沒有用武之地。幸好,大規模維基百科類富結構知識資源的出現,加上許多從全球資訊網上自動提取大規模知識的方法的提出,使得知識獲取工作取得重大成果,相關代表性工作有比如 DBpedia, Freebase YAGO, DeepDive, NELL, Probase 等等。

640?wx_fmt=png

圖四 開放連結資料專案


正是在這樣的大背景下,谷歌在收購Freebase後,於2012 年推出了基於語義網技術的一款威力強大的應用————知識圖譜。


注:部分圖片源自網路

640?wx_fmt=png


相關文章