事理圖譜,下一代知識圖譜

大資料文摘發表於2018-12-29

當前人工智慧時代下,機器與人類之間的博弈一直在進行著。如圖1所示,從1926年達特茅斯會議的召開標誌人工智慧誕生到深度學習模型在若干人工智慧領域大規模應用的如今,人工智慧已經走過近60年的時間。人工智慧的發展先後經歷了兩次黃金期以及兩次低谷。1957年第一款神經網路的發明點燃了第一次人工智慧的高潮。

而隨後在20世紀70年代,受限於當時的運算資源,並不能完成大規模的資料訓練,人工智慧一度陷入低谷,直到1982年德普摩爾神經網路的提出以及BP演算法的出現使得大規模神經網路訓練成為可能後,人工智慧才逐漸緩過神來,並提出了全面實現人工智慧計算機的目標,掀起了第二個黃金時期。但直到21世紀初,人工智慧計算機並未實現以及政府的撤資,又一次將人工智慧拉入低谷。隨後,在2006年深度學習神經網路取得突破性進展,一直到2015年深度學習演算法在語音和視覺識別上取得的成功,再次引領了以深度學習為主流的人工智慧時代第三個黃金期。

事理圖譜,下一代知識圖譜

人工智慧起起落落,但人工智慧進步的步伐從未停歇。從人工智慧的發展階段來看,人工智慧先後經歷了從計算智慧到感知智慧再到認知智慧的三個發展階段。在計算智慧時代,以神經網路遺傳演算法為代表的學習演算法,讓機器能夠幫助人類儲存和快速處理海量資料,使得機器開始像人類一樣“能說會算”。

感知智慧時代,機器能夠開始看懂和聽懂,並採取一些行動和聽懂語音的音響,幫助人類高效地完成看和聽的相關工作。認知智慧時代,是人工智慧的終極目標,即機器能夠像人一樣思考,並採取行動,如完全獨立駕駛的無人駕駛汽車、自主行動的機器人等,完成全面輔助或替代人類的工作。隨著資料、模型、計算能力的全面提升,計算智慧和感知智慧已經初步實現,而真正實現機器的認知智慧依然面臨著諸多挑戰。

認知智慧與知識圖譜

認知智慧的核心在於機器的辨識、思考以及主動學習。其中,辨識指能夠基於掌握的知識進行識別、判斷、感知,思考強調機器能夠運用知識進行推理和決策,主動學習突出機器進行知識運用和學習的自動化和自主化。這三個方面概括起來,就是強大的知識庫、強大的知識計算能力以及計算資源。

知識存在於我們的大腦當中,我們在從事社會活動的過程中,實際上是對知識的獲取和使用過程。就知識庫言,大致兩類知識,一類是常識知識庫(commonsense knowledgebase),另一類是百科類知識庫(cyclopedia knowledgebase)。常識知識庫包括人類認知系統中的概念、語言規則知識庫,如現在的wordnet ,mindnet ,Framenet, Probase等,另一類百科知識庫,則描述了現實生活中的事實知識(fact)。如Freebase , YAGO , DBpedia等。

以描述實體與實體、實體與屬性值為形式化表示的知識圖譜目前已是大家耳熟能詳的一個概念,而何謂知識圖譜?我們可以從幾個方面來看,從AI的視角來看,知識圖譜是一種理解人類語言的知識庫,從資料庫視角來看,知識圖譜是一種新型的知識儲存結構;從知識表示視角來看,知識圖譜是計算機理解知識的一種方法;從web視角來看,知識圖譜是知識資料之間的一種語義互聯。從最初的邏輯語義網(semantic-net)、到語義網絡(semantic-web)再到Linked-data,在到現在的大規模應用的知識圖譜,已經前前後後經歷了將近50年的時間。而知識圖譜真正作為一個突出熱點走進大家眼球的,還是在2012年以收購freebase作為後臺知識圖譜的google,以簡潔答案、知識卡片的方式顛覆傳統文件搜尋形式的橫空出世,從這個時間算起,也就7年的時間,所以知識圖譜既是年老又是年輕的。

知識圖譜,是實現認知智慧的知識庫,是武裝認知智慧機器人的大腦,這是知識圖譜與認知智慧的最本質聯絡,知識圖譜,與以深度神經網路為代表的連線主義不同,作為符號主義,從一開始提出就註定了要從知識表示、知識描述、知識計算與推理上不斷前行。目前知識圖譜在諸如問答、金融、教育、銀行、旅遊、司法等領域中取得了大規模的運用。基於知識圖譜的智慧問答、在抓捕本拉登時斬獲戰功的Palantir、戰勝人類的IBM深藍機器人、顛覆傳統網頁搜尋模式的谷歌知識圖譜等等,都顯示出了知識圖譜的強大生命力。目前,我們以金融領域和全行業領域為試點,開展了相關對研發工作,構建起了全行業11個主流產業鏈知識圖譜,主要包括246個行業、上萬個商品品種的行業知識圖譜和涵蓋A股的上市公司金融知識圖譜

1、全行業產業鏈知識圖譜

產業鏈知識圖譜,目標是構建起全行的上下行業圖譜,行業之間的上下游關係,行業中個大元素之間的關係,例如行業下產品、公司之間的關聯等等。為了保證產業鏈中資料的準確性,我們通過行業研究員人工定義本體,耗時半年時間,構建起了全行業11個主流產業鏈知識圖譜,主要包括246個行業、上萬個商品品種,幾千家上市公司,共計幾百萬條關係邊的產業鏈知識圖譜,如下圖2所示:

事理圖譜,下一代知識圖譜圖2

2、上市公司金融知識圖譜

公司金融領域研究的核心物件,公司作為金融中的重要角色,構建起公司知識全景圖譜對於進一步知識整合、公司監測、公司運營等具有顯著作用。我們以A股上市公司為基本資料來源和研究物件,構建起涵蓋公司、行業、板塊、人物、原料、產品等共17類實體,併購、競爭、供應、投資等共16類實體關係,規模達百萬級的A股上市公司知識圖譜,如下圖3所示:

事理圖譜,下一代知識圖譜圖3

知識圖譜到事理圖譜

知識圖譜的本質上來說,是以傳統本體概念為基礎進行知識組織的,而在知識處理領域,這種傳統本體概念依然存在著一些侷限性,傳統本體對於概念的描述著重對其靜態特徵的描述,缺乏對動態特徵的描述,經典的“網球”問題就是典型的例子。實際上,許多哲學家認為世界是物質和運動的,物質和運動的世界是由事物和事件組成,物質是相對靜態的知識形式,反映了客觀世界中事物存在的規律。然而,人類的命題記憶是以“事件”為儲存單位的,儲存的是組成事件的概念及其之間的關係以及事件及其之間的關係。以事件作為知識的基本單元更能反映客觀世界的知識,特別是知識的動態性,從認知心理學的角度來看,事件更符合人類的理解與思維習慣。人類主要是以“事件”為單位進行記憶和理解現實世界的,事件關係到多方面的概念,是比概念粒度更大的知識單元。傳統本體所使用的概念模型難以反映事件這一更高層次和更復雜的語義資訊,模型缺少了更高層次的結構。

從知識刻畫上來說,知識圖譜的侷限主要體現在兩個方面:一是對人類知識的刻畫上上不具備動態屬性。知識圖譜中所刻畫和描述的知識是靜態的非黑即白的一種確定性事實,而現實人類社會當中,知識是動態變化的,知識本身會因為外部條件的變化而失真。另一個是知識圖譜在應用上的一種侷限性,知識圖譜只能回答什麼是什麼的問題,對包括基於已知知識推斷未知知識,對已知知識進行正確性校驗的知識推理,從根本上來說也沒有跳出“靜態”這一屬性。在諸如“怎麼了”,“接下來會怎麼樣?”,“為什麼”,“怎麼做”等問題上,知識圖譜顯得有些乏力。

事實上,目前關於這方面的知識需求應用場景有很多,如金融投資領域有捕捉外部事件、根據事件的邏輯關係進行推理、推演和預測的需求,例如“智利發生地震會對哪些商品標的造成何種影響?”,情報輿情領域有預測事件後續影響的需求、尋找事件發生原因的需求,如“目標市場區域內棉花采購量突然增多、可能的原因有哪些?”。客服及諮詢領域有正確定義、刻畫客戶服務過程中的狀態變化,以提高服務精準化的需求,如“客戶購買了此產品,如果中途贖回,哪些產品適合再次推薦給客戶?”等等。

傳統知識圖譜中的知識是靜態的,描述的是實體以及實體之間的關係,這些關係是相對確定和靜態的知識,這個可以作為強大的知識庫讓機器人“才高八斗,學富五車”。但如何使這“八斗才”和“五車學”給“弄活”,讓機器學會知識的運用,真正學會思考。那麼就需要給這個知識再加上知識的“把玩規則”,形象的來說,就是一套邏輯規則。

事理圖譜,下一代知識圖譜圖4

舉例來說,如圖4所示,我們在思考的過程當中,腦海裡經常會比如“為什麼”,“按以往的經驗”、“八成會”、“據我分析”、“這個應該是”、“怎麼可能”等詞,這些詞很形象的表現表示出了我們思考的過程,我們將思考的過程,定義為運用“事理”的過程,所謂“事理”,就是“事情”的道理,是思考的那條路徑,這個“事情”就是我們所需要的事件。對於事理,我們可以有多種理解,事理是一套經驗總結,是一套對知識的規則,是一套邏輯推理的方法論,是對特定環境下知識在時空域上的展開。圖5展示了知識、事件、實體、事理之間的關係,事件高於實體,實體是事件的組成部分,事件是事理的重要組成部分,事理和實體共同組成了知識。

事理圖譜,下一代知識圖譜圖5

目前,“事理圖譜”還是較新的概念,國內多家公司和科研機構都在“事理圖譜”的相關研究上進行了探索,如哈爾濱工業大學資訊檢索實驗室劉挺老師團隊首先提出了“事理圖譜”這一概念,並做了一些實驗和基礎性的工作[1][2][3];中科院自動化所趙軍老師團隊,上海大學劉宗田老師團隊分別在事件抽取[4]和事件本體表示[5]上取得了豐碩的成果。

知識圖譜的組織形式相仿,實體通過頭尾相連,可以組織形成圖譜狀的知識圖譜,事理採用類似的組織方式,可以形成事理圖譜。知識圖譜與事理圖譜兩者之間存在著諸多異同之處,我們在參考前人的工作上,結合自己的研究工作,從描述知識、研究物件、構建目標、知識形式等共10個方面進行了總結,如圖6所示:

事理圖譜,下一代知識圖譜圖6

知識圖譜描述知識是萬物實體,所研究的物件是名詞性實體及其屬性、關係。事理圖譜所要描繪的是一個邏輯社會,研究物件是謂詞性事件及其內外聯絡。兩者都是有向圖的組織性質,在知識的確定性上,知識圖譜中的知識是以事實三元組為儲存型的、確定的,知識狀態相對靜態,變化緩慢,但精度要求極高,實時性要求極高。事理圖譜中的知識時一個包含事件、論元集合、邏輯關係等的多元組,知識邏輯是不確定的,存在一種轉移概率。

在應用上,知識圖譜可以完成when / who/ what/ where等常識問題。事理圖譜可以回答Why/How等動態問題。傳統概念之間的分類關係即上下文關係不同,事件與事件之間除了上下位等分類關係外,還存在非分類關係,包括組成關係、因果關係、併發關係、條件關係、排斥關係等,這些關係一起對現實動態知識種的邏輯知識進行了描述。圖7主要列舉了事理邏輯的幾種型別主要包括因果事理、條件事理、反轉事理、順承事理、順承事理、上下位事理、組成事理、併發事理共七類事理:

事理圖譜,下一代知識圖譜圖7

因果事理描述的是認知體系中的一種前因後果聯絡,前面一個事件會導致後面一事件的發生;條件事理描述的是認知體系中的一種條件結果關係,是一種預設與結果邏輯;反轉事理往往描述的是認知體系中的一種互斥邏輯,是一種真假值邏輯;順承事理描述的認知體系中的一種時間上的偏序關係,是一種先後動作邏輯;組成事理,刻畫的是事件之間整體與部分的邏輯;上下位事理,描述的是事件在分類體系中一種邏輯;併發事理,描述的是事件在時間上的一種共生關係,指一個事件發生下另一個事件一定發生。

事理圖譜的構建

目前關於事理圖譜的構建方式上,主要包括領域專家手動構建以及基於海量文字自動化獲取兩種方法。前者準確率高但構建成本較大,且規模難以快速增長;後者所見即所得,構建成本較低,規模可快速擴充,能夠迅速挖掘出海量邏輯,但缺點是精確度受多方面因素影響,準確率較前者要低。事實上,目前事理邏輯廣泛存在於海量文字當中,當我們開啟百度或者谷歌搜尋引擎,輸入“導致”或者“lead to”這一詞時,會返回多個包含因果事理的結果,如圖8所示。此外,問答社群等資源也為基於海量文字自動化獲取事理邏輯提供了可能。

事理圖譜,下一代知識圖譜圖8

事理邏輯的挖掘,可以分成基於顯式因果邏輯的挖掘和隱式因果邏輯邏輯兩種。前者通過人工設定因果模式可以獲取大量的因果事件對,例如對於句子“受范冰冰陰陽合同事件牽連,唐德影視、華誼兄弟開盤大跌”,可以結構化出<范冰冰陰陽合同事件,導致,唐德影視、華誼兄弟開盤大跌>這樣的因果事件對。通過對原因事件和結果事件進行進一步解析,我們可以得到原因事件的關聯主體是人物,即影視明星“范冰冰”,事件的動作是“陰陽合同”,結果事件中關聯的主體是兩家傳媒上市公司,華德影視和華誼兄弟,事件的動作是股價大跌。

結合上下文,可進一步明確事件發生的時間資訊,為2018年6月4日。對這樣的事件對,可進一步抽象泛化成一種邏輯規則,即影視明星“陰陽合同->傳媒公司股價下跌”這樣一條因果模式鏈。更進一步,通過對動作本身的情感極性進行泛化,我們可以發現,“陰陽合同”屬於負面訊息,股價下跌這一事件屬於負面影響,因此,可以進一步泛化成“明星負面訊息->公司利空”這條更為抽象的因果模式鏈。這樣,通過大量的顯示模式對事理邏輯進行結構化,對不同來源的事理知識進行融合並層層抽象,可以得到大規模不同層級的事理邏輯,藉助知識圖譜首尾相接的方式,我們對構建好的一條條事理邏輯進行連結,就形成了一個圖譜形式的事理邏輯脈絡,即事理圖譜。

說到事理圖譜,就不得不說事件表示。事件表示是事理圖譜中的重要問題之一,目前學界和業界正在尋求一種儘可能靈活、簡單的方式去表示事件。在事件表示上,有上海大學劉宗田老師團隊提出的“事件六要素本體模型”[5],即將事件建模成e = { A,O,T,V,P,L}的表示形式, 其中:A 為動作要素; O 為物件要素; T 為時間要素; V 為環境要素; P 為斷言要素;L 為語言表現。 而這種表示方式無法直接用於圖譜節點表示,更可能成為一種事件描述資訊隱藏於圖譜事件節點背後。我們在實際的工作當中,嘗試了幾種事件表示方式,如含義、舉例、優缺點如圖9所示:

事理圖譜,下一代知識圖譜圖9

當前人工智慧時代下,機器與人類之間的博弈一直在進行著。如圖1所示,從1926年達特茅斯會議的召開標誌人工智慧誕生到深度學習模型在若干人工智慧領域大規模應用的如今,人工智慧已經走過近60年的時間。人工智慧的發展先後經歷了兩次黃金期以及兩次低谷。1957年第一款神經網路的發明點燃了第一次人工智慧的高潮,而隨後在20世紀70年代,受限於當時的運算資源,並不能完成大規模的資料訓練,人工智慧一度陷入低谷,直到1982年德普摩爾神經網路的提出以及BP演算法的出現使得大規模神經網路訓練成為可能後,人工智慧才逐漸緩過神來,並提出了全面實現人工智慧計算機的目標,掀起了第二個黃金時期。

但直到21世紀初,人工智慧計算機並未實現以及政府的撤資,又一次將人工智慧拉入低谷。隨後,在2006年深度學習神經網路取得突破性進展,一直到2015年深度學習演算法在語音和視覺識別上取得的成功,再次引領了以深度學習為主流的人工智慧時代第三個黃金期。

我們從漢語句法學和語義學的角度出發,全面梳理了上千條事件邏輯關係顯示錶達模式,構建起了兩千萬領域新聞資訊庫,運用事件抽取、事件對齊、事件融合以及泛化技術,形成了規模約400萬的事理圖譜,並實現了事理圖譜的動態更新。接下來,我們分別介紹在順承事理圖譜和因果事理圖譜上的一些成果:

圖10分別是部分“出行”和“烹飪”兩個順承子圖譜。從中我們看到,圍繞著“去麗江”這一事件所產生的順承邏輯,如“拿#身份證”->“去#售票口”-> “去#買票”->“遇上#旺季”->“去#麗江”這一順承邏輯,“去#麗江”-> “預訂#客棧”->“看過#攻略”->“結合#眼光”->“沒有#價值”->“擦亮#眼睛”這一順承邏輯結構。“去#莊園”->“去#竹林”->“挖#冬筍”->“切成#塊”->“配上#鯿魚”-> “勻以#薯粉”->“成#棒狀”->“入#油鍋”->“炸成#小塊”這一順承事件鍊形象地描述了“烹飪”這一事件的時序關係。這種順承事理邏輯在揭示敘述性與步驟型事務的刻畫上是一種很好的形式。

事理圖譜,下一代知識圖譜圖10以下分別是以“銀行降準”和“智利地震”事件為核心所關聯的因果事理邏輯鏈,今年10月07日,央行宣佈銀行降準,這勢必會造成多骨諾米牌效應,如圖11中所示:

事理圖譜,下一代知識圖譜圖11

銀行降準會導致保險股高開、銀行股持續走強,銀行股持續走強先後帶來銀行板塊集體拉昇、板塊個股出現普漲狀態等結果。在“智利地震”這一事件因果事理圖譜中,我們可以看到受波及的一些列後續事件,如高檔魚粉價格上浮、早盤稀土板塊高開、國際紙漿價格大幅上漲等事件,這些事件又進一步傳導,最終導致之家集體反彈、北京生活用紙普遍提價、滬鋁價格波動區間上移等結果。這些因果邏輯在普通人看來,並不能立刻想到,相反的,只有具有專業背景的人員才能有這種邏輯推導思維。如此看來,事理圖譜對於這類專業的邏輯鏈條可以進行良好的組織和刻畫。

事理圖譜和知識圖譜的融合

如上面所介紹到的事理圖譜中是以事件為單位一種邏輯鏈路,而實體識事件的一個重組成部分,通過實體識別和實體連結技術可以將事件中的實體連結到相應的實體知識庫當中。如圖12所示:“范冰冰陰陽合同違法”這一事件當中,人物“范冰冰”可以連結到包含“范冰冰”這個人物的人物關係圖譜,如搜狗人物關係圖譜,導致光線傳媒、華誼嘉信、華誼兄弟等傳媒公司的股價下跌這一事件中,光線傳媒、華誼嘉信以及華誼兄弟這些公司類實體,實體可以進一步連線到以公司為實體的公司金融知識圖譜,該圖譜中包含了公司的主營產品、所屬板塊、競爭對手等各方面的資訊,圖13顯示了融合後的狀態。

事理圖譜,下一代知識圖譜圖12

圖12顯示了事理圖譜和知識圖譜融合後的狀態(部分),通過因果關係事件,將事件中的實體進行關聯,結合實體之間的關聯,可以進一步進行擴充,查詢,從而實現整體圖譜的聯動。

事理圖譜,下一代知識圖譜圖13

除公司知識圖譜與事理圖譜的融合之外,我們在產業鏈知識圖譜和事理圖譜融合的工作上進行了嘗試,如圖14所示展示了“澳大利亞鋅礦執行復產計劃事件”的融合效果子圖(部分),從“澳大利亞鋅礦執行復產計劃事件”緩解相關鉛產量恢復等事件出發,可以將事件與“鉛”商品這一商品、有色產業鏈等行業板塊類實體與行業相連結,進一步找到相應的商品、個股等資訊,通過這種連結和融合,可以進一步對事件進行知識資訊的擴充套件,形成從事理到知識概念的通路。

事理圖譜,下一代知識圖譜圖14

事理圖譜的應用探討

事理圖譜有多種應用場景,我們在實踐過程中,主要總結出了以下5種應用形式:

1、基於事理圖譜的知識問答。由於後臺有以事件和靜態知識為核心的事理邏輯,可以在完成“when”,“who”,“what”,“where”等常識問題的同時,進一步回答“how”以及“why”的問題,這種問答的形式既可以是視覺化搜尋式,也可以是問答形式,如圖15所示:

事理圖譜,下一代知識圖譜圖15

當使用者輸入“川普和金正恩又罵戰了會怎麼樣?”這一問句後,系統能夠給出直接的回答“這很有可能會是的美國朝鮮局勢更為緊張,朝鮮局勢緊張可能會帶來全球股市走低、避險情緒升溫、金價上漲等一系列影響”。通過對該回答,再配以視覺化因果邏輯鏈的展示方式,可以進一步為這一回答提供佐證。

2、基於事理圖譜的消費意圖識別。本文在前面說到,順承事理圖譜對具有時序特徵的敘述性事件能夠很好的刻畫,它描繪了敘述性事件的整個階段。而我們正好可以利用這種階段性的特徵,完成消費推薦的任務。如圖16所示:

事理圖譜,下一代知識圖譜圖16

例如,當使用者發出“麗江是個好地方,我想去看看”的狀態時,通過分析該使用者的消費意圖,將消費意圖識別為一個出行事件時,通過遊走以“麗江出行”這一個順承圖譜可以推出多種消費行為。例如“出機場、看到接待點”這個子事件可以推出“機票預訂與推薦”與“接送機”服務;“預訂#客棧”這一子事件可以引出“酒店預訂”服務,“買臥鋪票”這一子事件可引出“火車票預訂”這項需求。全域性的來看,整個出行圖譜可以作為一個整體的出行指南提供給使用者,充當使用者規劃的“探路者”與“規劃師”。

3、基於事理圖譜的重要新聞判別與推薦。大資料時代下,海量新聞在網路上快速傳播,新聞個性化推薦以及重要新聞篩選成為了新聞檢索中的兩個重要任務。目前的推薦演算法主要基於協同過濾、基於內容推薦和混合推薦方法,這幾種方法從本質上來說都是對內容與使用者進行建模並進行相似性計算得到的一種結果。

事理圖譜的出現,提供了一種重要性判別方式和新聞推薦方式。“歷史總是相似的,重要的事情總是周而復始的出現”,在這一假設下,通過對新聞文字進行事件提取,並結合背後的事理圖譜,根據事件後續產生影響的重要性可以為整個新聞進行重要性評分,並給出該新聞事件所蘊含的已有事件和未來事件資訊。通過這種方式對新聞資訊進行建模和篩選,並結合使用者興趣模型,可以完成重要新聞的判別和推薦,如圖17所示:

事理圖譜,下一代知識圖譜圖17

4、基於事理圖譜的知識管理。知識圖譜的本質上是一種以實體、實體屬性、實體與實體/屬性之間關係形成的一個知識庫。而由於知識圖譜中的知識是動態變化的,尤其在多源知識融合、知識對齊當中,為了保證知識的準確性、實時性,通常需要進行知識管理和編輯,這種操作可以類似成資料庫的增、刪、改、查操作,圖18是我們開發的一個知識圖譜編輯和管理工具,該工具可以支援對知識圖譜中知識資料的CRUD操作。當然,這種知識更新的方式是人工自動發現並進行編輯,本質上來說,並沒有實現知識圖譜中資料的全自動更新。

事理圖譜,下一代知識圖譜圖18

知識圖譜不同,事理圖譜這一以事件為實體節點,並融入靜態實體的知識組織方式將靜態的知識和動態的邏輯規則(前面說到的多種事件關係)形緊密相連,形成一個強大的邏輯鏈路網路,使得事理圖譜天生具備了知識更新指導能力。將事理圖譜與實際的業務邏輯系統相結合,並不斷賦予事理更全面、更精細的邏輯體系,能夠在一方面對根據外界事件知識的變化而對已有靜態知識進行及時動態更新,如銀行客服系統中的會話流程控制、互斥業務控制,使用者郵儲狀態的更新等,這將提升銀行客戶系統的體驗和智慧水平。

舉一個實際的例子:銀行業務中知識圖譜中有一條知識資料,即使用者同時辦理了業務A和業務B,而實際上,辦理業務A和辦理業務B兩者之間存在一種互斥關係,那麼則可以通過兩個業務辦理的先後順序,更新使用者的業務知識資訊,將辦理業務B這條知識進行移除。類似的例子還有很多。

5、基於事理圖譜的推理與輔助決策。知識推理是知識圖譜的終極目標,基於過去已知知識進行知識推理,採用如事件驅動傳導路徑等進行知識發現,能夠在業務的推理和輔助決策上也能帶來一定幫助,如智慧投研中的未知風險預警、公司輿論控制等,如圖19展示了我們目前開發形成的事件驅動工具,通過人工自定義構造傳導鏈,進行既定模式檢索,可以完成對既定知識邏輯路線的發現與探索。

事理圖譜,下一代知識圖譜圖19

以上圖中描述的“尋跡”模式進行邏輯鏈條傳導的方式不同,基於事理圖譜的事件傳導中的邏輯聯絡更為接近於人腦中的真實邏輯鏈條。前者傳導的路徑存在著一個基本型的假設,即知識與知識之間的屬性或關係通過人工方式強制地進行對映和編制,其中有個十分明顯的缺陷就是傳導邊上的邏輯概率量化問題。

“事理圖譜”的出現,則從事件狀態的邏輯轉移上為這種推理機制提供了一個新的方向。如圖20所示的demo所示,使用者輸入一個事件點選提交之後,運用事件規範化和事件相似性計算等方法,我們會在後臺400萬個事理圖譜找到一個與使用者輸入事件最為相似的一個事件,以該事件為核心會返回多條相似事件所造成的影響事件。

針對影響事件,我們運用事件重要性判定技術和事件實體連結技術對影響事件進行過濾,使得造成的事件中一定是某種商品或者公司的類似事件,這種方式能夠就使用者給定的事件,給出一個最為直接了當的標的結果。圖20中展示了以“螺紋鋼價格上漲”為核心的因果邏輯傳導推理鏈條,在經過不斷進行鏈條的推理擴充套件之後,步步推理至各類實體事件後最終產生的結果圖。從一度推理的“螺紋鋼價格上漲”導致廢鋼庫存小幅減少,到小麥期貨小幅收低等多層推理結果等,能夠在一定程度上描繪出整個邏輯鏈條的傳導機制。

事理圖譜,下一代知識圖譜圖20

當然,基於因果事理圖譜的邏輯影響推理仍然存在著諸多不足,比如多層邏輯推理上的效應傳導量化與誤差傳播問題,事件對齊與泛化問題,這些對事理邏輯的準確性都有著較大的影響,這都是後續努力攻克的方向。

事理圖譜的未來和挑戰

知識圖譜從提出至今,經過技術的更新和體系的逐步完善,已經在各方面得到了一定規模的運用,但在描述動態現實社會知識和認知智慧思考上還存在一定不足,如何解決以上兩個問題,賦予知識圖譜更大的力量,將是未來知識圖譜努力的方向。就知識而言,靜態的知識需要一個上層的知識運用邏輯體系,一個知識邏輯體系需要底層強大的知識庫作為有效承載,事理圖譜,作為一個新的知識組織、表示和管理方式,是認知智慧的一個重要突破口。事理圖譜是知識圖譜“動起來”的神經,知識圖譜是事理圖譜執行的血肉載體,描述知識邏輯架構的事理圖譜與刻畫靜態概念知識內容的知識圖譜攜手並進將是未來的一個趨勢。

事理圖譜是一個龐大的課題,未來還有很長的路要走,如何找到一種靈活的事件表示方式,事理的執行、預測和推演機制,構造出一種知識的自我更新和生長方式,最終實現機器知識的自我更新和生長,將是未來漫漫長路中需要攻克的難題。得益於前人在事理圖譜上的一系列非常有啟發性的探索工作,我們在知識圖譜、事理圖譜上的應用場景、技術理論、技術實現上做了一些基礎性的推進工作,未來,我們將進一步細化事理關係,完善事理圖譜各方面的技術體系,深化事理圖譜的構建以及在場景中的應用,願同各位一道,在通往認知智慧的道路上,努力前行!

相關文章