【知識圖譜】 一個有效的知識圖譜是如何構建的?

產業智慧官發表於2018-04-06

知識圖譜以其強大的語義處理能力和開放組織能力,為網際網路時代的知識化組織和智慧應用奠定了基礎,其應用趨勢也從通用領域走向行業領域。許多行業為了應對大資料應用的不同挑戰,藉助知識圖譜,實現不同的業務需求,實現了通用和行業應用“百花齊放”的局面。


本期筆者採訪了易建科技智慧城市事業部知識工程團隊經理、知識圖譜技術研究人員鮑立飛,詳細闡述了易建如何深度開發基於本體的行業知識圖譜構建技術及應用。


如何構建一個有效的知識圖譜?


知識圖譜構建主要有自頂向下(Top-Down)和自底向上(Bottom-Up)兩種方法。所謂自頂向下的方法是指首先為知識圖譜定義資料模式,在定義本體的過程中,首先從最頂層的概念開始,然後逐步進行細化,形成結構良好的分類學層次結構;在定義好資料模式後,再把實體一個個往概念中新增。自底向上的方法則剛好相反,首先從實體開始,對實體進行歸納組織,形成底層的概念,然後逐步往上抽象,形成上層的概念。


兩種方法在具體的構建過程中通常都不是從零開始的,前者可以利用一些現有的結構化的知識庫,而後者則可以從開放連結資料或線上百科中得到很多實體。在領域本體實際構建過程中,易建則採用了自頂向下和自底向上相結合的方法。


知識圖譜的構建過程包括本體建模、知識抽取、知識融合、知識儲存、知識推理這幾個步驟。

640?wx_fmt=png

1本體建模


就鮑立飛而言,構建本體的目的是識別、描述和表示相關領域的知識,提供對該領域知識的共同理解,確定領域內共同認可的物件模型,並從不同層次的形式化模式上給出了這些物件和物件間相互關係的明確定義。本體描述了知識圖譜的概念模式,同時知識圖譜在本體的基礎上進行了豐富和擴充,而知識圖譜則是在本體的基礎上,增加了更加豐富的關於實體的資訊。


在行業知識圖譜構建的過程中,需要先構建本體模型,本體模型是為了對整個行業特定的知識圖譜所需的資料模型進行定義,因此需要保證可靠性。在本體模型中我們需要構建本體的概念,屬性以及概念之間的關係。

640?wx_fmt=png

在構建行業知識圖譜的本體模型時,通常需要藉助領域專家知識來引導構建本體模型,才能保證知識圖譜的質量,之後的知識計算,知識推理才能更好的發揮作用。


2 知識抽取


知識抽取是從不同來源、不同結構的資料中進行資訊提取,形成知識存入知識圖譜中。知識抽取處理的物件按照結構化程度可以分為結構化、半結構化和非結構化資訊。


結構化文件具有良好的佈局結構,可以很容易地對其執行知識抽取。結構化文件主要儲存在業務資料庫,可以通過ETL從結構化資訊中提取知識。


在處理半結構化資料方面,主要的工作是通過編寫包裝器,從半結構化資料中提取實體屬性,適用在百科類站點、垂直網站中進行包裝器歸納,從網頁表格中提取屬性資訊。


非結構化文件是指由符合某種語言表達規範的自然語言語句組成的文件,這類文件表達方式靈活,可以用不同的形式和詞彙表達相同的意思,因此對這類文件進行知識抽取是非常困難的,往往要藉助自然語言處理技術對其進行語法和語義分析。


3 知識抽取


知識圖譜最適合處理關聯密集型的資料,解決的是實體及實體之間的關係,即具有有向圖結構的一個知識庫,因此適合以圖的資料結構儲存,其儲存方式主要有RDF 和圖資料庫兩種方式。


在具體的知識圖譜工程中,為了滿足不同的業務需求,比如統計型、複雜關係型等,往往採用複合的儲存模式,如下:


實踐經驗如下:


  • 文字型資料:使用NoSQL資料庫儲存。

  • 關係型資料:使用圖形資料儲存,包括實體、關係、屬性。

  • 關聯型資料:作為記錄型資料存入合適的儲存中(儘量不入圖儲存),通過實體連結與圖譜中實體關聯。

  • 時序型資料:一般作為事件來補充知識圖譜,可存在圖資料庫或者文件資料庫中,如果是海量資料並作為實時分析,採用特定時序資料庫儲存。

  • 統計型資料:使用SQL資料庫儲存。


4 知識融合


知識融合指的是將多個資料來源抽取的知識進行融合後整合到知識圖譜中。在進行知識融合時,需要解決多種型別的資料衝突問題,包括一個短語對應多個實體、實體屬性名不一致、實體屬性缺失、實體屬性值不一致、實體屬性值一對多對映等情況。知識融合階段主要對資料進行本體對齊和實體匹配。


本體對齊更強調概念層的融合,主要工作有概念的合併,概念上下位關係合併,概念的屬性定義合併。而實體匹配更強調資料層的融合,主要工作又有實體連結,資料融合,衝突檢測與解決。


由於我們在構建過程中採用的自頂向下和自底向上結合的方式,因此基本都經過人工的校驗,保證了概念層的可靠性;因此,知識融合的關鍵任務在資料層的融合。


資料層融合即實體匹配也叫實體對齊,其目的在於發現具有不同標識卻代表真實世界中同一物件的那些實體,並將這些實體歸併為一個具有全域性唯一標識的實體物件,然後新增到知識圖譜中。


5知識抽取


知識推理是通過各種方式獲取新的知識或結論,這些知識和結論滿足語義。主要分為本體推理和規則推理。


基於本體的推理,本體推理主要是通過預定義的本體公理上進行推理,例如本體中定義的subclass,subproperty,domain,range,funtional等一些公理進行推理。但是無法自定義一些推理規則。


基於規則的推理,規則推理可以根據特定的場景定製規則,以實現自定義的推理過程,推理屬性規則比如知道某人出生年月,可以計算出其年齡。推理關係規則,定義父親的父親是爺爺,已知A是B的父親,B是C的父親,則可以推出A是C的爺爺。


將資料轉化成更有價值的資源


發展的需要和現實的痛點,往往會催生一項技術的發展。綜觀當前國內旅遊業發展,‘量體裁衣’式的旅遊定製受到了越來越多人的喜愛,旅遊消費移動化、便捷化正成為新動向。更加智慧的旅遊讓傳統旅遊企業趨之若鶩,但由於技術的挑戰,又使得這些企業在轉型過程中一度犯難。知識圖譜的關聯價值此時正好得到了用武之地。


洞察這一趨勢後,鮑立飛團隊著手開始知識圖譜在旅遊行業的應用探索。知識圖譜和旅遊行業“結親”的一個重要因素,還來源於易建所處的海南這個極具區位特色、資源稟賦的旅遊勝地。近兩年,海南通過全域旅遊統籌推進旅遊供給側結構性改革,基本形成了全域旅遊發展新格局。旅遊資訊化的智慧處理,使得海南旅遊業的內生動力得到了有效激發。知識圖譜能夠高度還原真實世界,做到“萬物互聯”,並對結構化和非結構化的資料進行智慧地治理和整合,能夠讓海量的旅遊資料為其所用,這對全域旅遊的發展來說是個利好訊息。


“利用知識圖譜最重要的是讓機器讀懂世界,理解人的語言。”鮑立飛說,相較於傳統的關係型資料庫,易建構建的智慧旅遊智慧問答系統更側重於大資料分析、挖掘技術與AI技術的強強聯手,能夠深度理解人類的語言和支援推理,通過實時呈現出更多有價值的資訊,讓旅遊體驗更加舒適化、便捷化。這一切都離開不開其強大的後臺運轉:智慧旅遊知識圖譜體系將遊、購、娛、吃、住、行等六個要素的海量資料建立起關係網,並將多資料來源進行打通關聯,從而整合成為機器可以理解的結構化資料,再通過智慧旅遊智慧問答系統的旅遊聊天機器人服務於遊客的全旅程。只要建立的旅遊知識圖譜足夠大,機器人就可以回答各種各類的旅遊問題;同時在與遊客聊天和交流過程中,機器人也可以不斷的學習新知識,及時補充新資訊。既能為管理部門提供了先進的管理手段,又為遊客提供了遊前、遊中、遊後一體化的智慧體驗服務,這個會思考的“旅遊達人”出現後,受到了旅遊業內人士的高度關注。

640?wx_fmt=png

易建智慧旅遊智慧問答系統

由於知識圖譜的應用,也解決了反欺詐中的資料整合並構建反欺詐引擎,從而有效地識別出欺詐案件(如身份造假,團體欺詐,代辦包裝等)等問題,這使得它在風險防控工作中也有很好的“口碑”。鮑立飛指出,通過知識圖譜複雜網路計算,可以找出網路中相關子圖,檢測出異常案件,幫助保險公司對可疑案件進行有效的問題排查及跟蹤,規避理賠資金風險,提升打假效率。

640?wx_fmt=png

易建研發的車險業務知識圖譜 

知識圖譜技術的發展,決定了它極強的網際網路資料屬性和搜尋的目的性。鮑立飛表示,這就要求行業領域在應用知識圖譜時,要從行業自身的資料特點和業務目標出發去研究和落地。而這正好是易建未來所關注的重點,利用所擁有的資料,轉化成更有價值的資源,為行業的發展提供更便利的管理手段。


本文來源:易建科技eKingTech

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET


本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com




相關文章