達觀知識圖譜, 輔助企業智慧運營和決策

達觀資料DataGrand發表於2021-11-10

一、知識圖譜的含義

每個領域都有自己的行業經驗、規則、分類、約定俗成的做法等,這些都可以視為行業的“知識”,這些知識彙總在一起,相互聯通,構成的一個知識網路,就是“知識圖譜”。知識圖譜是結構化的語義知識庫,是一個巨大的知識網路,網路中的節點表示實體、節點之間的邊表示實體和實體之間的關係。節點可以是實體,如人物、企業、地點等,實體關係如投資關係、歸屬關係、關聯關係等。


zuixin


知識圖譜為海量、異構、動態的大資料表達、組織、管理以及利用提供了更為有效的方式,使得網路的智慧化水平更高,更接近於人類的認識思維。構建領域內或者全網的知識圖譜對於很多企業或科研單位來說是一項很重要的工作,目前基於知識圖譜的研究如火如荼,很多知名的領域內資訊抽取系統都已經被使用,包括Never-Ending語言學習系統以及Google在知識圖譜的工作。


改1


二、知識圖譜的意義


隨著我國人紅利消失與人力成本增加,我國傳統企業面臨著智慧化升級與轉型,從而對知識圖譜技術的應用產生了強烈的需求。傳統企業需要引入高新技術解放勞動力,降低成本。實現簡單知識工作(只需簡單知識即可完成的工作)的自動化、智慧化處理,無疑是個有效的方案。


大量的行業領域有豐富的應用場景和大資料基礎,為知識圖譜在各行業領域的大規模應用奠定了基礎。我國的網際網路、電信、電商、社交、出行等各行業都有著龐大的業務資料量;面向消費者、企業、政府的應用模式豐富多樣,這些都是知識圖譜技術應用成長的富饒土壤。


1.沉澱行業知識,促進行業智慧升級


很多行業經過數十年的資訊化建設,已經完成了資料的採集與管理階段,這為智慧化升級與轉型奠定了良好基礎。對於企業而言,增加收入、降低成本、提質提效、保障安全都是核心業務訴求。知識圖譜技術的應用是進一步滿足這些核心訴求的手段之一。在實現智慧化的過程中,需要將行業知識賦予機器,讓機器具備一定的行業認知能力,從而機器人可代替行業人員從事簡單知識工作。採用知識圖譜技術,助力企業沉澱行業知識,可實現簡單知識工作自動化。



改1

2.與機器智腦的建設深度融合


隨著我國人工智慧戰略的持續推進,作為人工智慧重要分支的機器人產業迎來了發展的黃金期。其中,各種服務機器人如客服機器人、陪伴機器人、問診機器人、導購機器人、理財機器人等,已經走進人們的日常生活。與工業機器人相比,服務機器人對機器認知水平的要求較高,而對動作能力的要求較低。因此,具有一定認知能力的機器智腦是服務機器人產業發展中至關重要的環節,而機器智腦的重要組成部分是知識庫。機器是否具有知識並且能夠利用知識形成認知能力,進而解決問題,是服務型機器人具備更強服務能力的關鍵。以知識圖譜為代表的大資料知識工程為練就機器智腦帶來了全新機遇。未來機器智腦的演進過程也將是知識圖譜等知識庫技術不斷賦能機器人以及各類硬體終端的過程。


3 .資料治理以及大資料變現緊密結合


多行業和企業都有大資料,但是這些大資料非但沒有創造價值,反而帶來了資料管理與治理方面的負擔。大資料價值變現遭遇阻礙的原因在於缺少智慧化的手段,具體而言就是缺少一個能像人一樣理解行業資料的知識引擎。達觀資料智慧知識引擎,採用知識圖譜等前沿技術,可以自動化、智慧化提煉、萃取、關聯、整合資料,代替人工挖掘資料價值,強有力的支撐大資料價值變現。知識圖譜作為呈現領域知識之間的資料融合與關聯,已經成為知識圖譜領域研究的主要方向之一。


三、達觀知識圖譜


達觀知識圖譜,是達觀資料公司面向各行業知識圖譜應用而推出的新一代產品,其整合了知識圖譜的設計、構建、編輯、管理、應用等全生命週期實現,可以實現從業務場景出發到生成圖譜、再到實現基於圖譜的應用,顯著提高了各行業中知識圖譜的落地效率和效果。

知識圖譜3

1 .知識建模

知識建模,是業務專家參與圖譜schema進行設計的過程,相當於關聯式資料庫的表結構定義。圖譜模式設計包括實體型別和實體關係以及對應屬性的定義。實體型別實現對圖譜模式中實體型別及其屬性的設計,透過實體關係實現對圖譜模式中關係型別及其屬性的設計。


改2

2.知識抽取

知識抽取是從不同來源、不同資料中進行知識提取,形成知識並存入圖譜的過程。透過機器自動實現大批次非結構化文件的抽取工作,可以由演算法模型根據知識標註的訓練樣本得出適合特定文件型別的抽取模型來抽取,也可以根據定義一些規則模型來實現抽取。


改3 

3.知識融合

知識融合將來自不同的資料來源的知識在同一規範下進行異構資料整合,形成統一的知識標識。具有實體鏈指、屬性歸一、知識補全等能力。


知識圖譜6

4.知識儲存


知識儲存就是研究採用何種方式將已有知識圖譜進行儲存。達觀資料企業研究開發的知識圖譜採用ArangoDB圖資料庫作為知識圖譜三元組資訊的統一儲存與管理,在ES搜尋引擎的基礎上,對圖資料庫進行了一定層面的封裝,能夠利用知識圖譜快速探索10級以上的關係鏈路,知識探索和發現響應時間達秒級。


四、知識圖譜的應用


隨著人工智慧技術的發展,越來越多的知識工作將逐步被機器所代替,人類的腦力將被逐步解放。基於知識圖譜的認知智慧的應用廣泛而多樣。各類應用(包括資料分析、智慧搜尋、智慧推薦和決策支援)都對知識圖譜提出了需求。


1.資料分析


大資料的精準與精細分析需要知識圖譜。如今,越來越多的行業或者企業積累了規模可觀的大資料,但是這些資料並未發揮應有的價值,很多大資料還需要消耗大量的運維成本。大資料非但沒有創造價值,在很多情況下還成為一筆負資產。這一現象的根本原因在於,當前的機器缺乏諸如知識圖譜這樣的背景知識,無法準確理解資料,限制了大資料的精準與精細分析,制約了大資料的價值變現。事實上,輿情分析、網際網路同察,還有軍事情報分析和商業情報分析,都需要對大資料做精準分析,而這種精準分析必須有強大的背景知識來支撐。


除了大資料的精準分析,資料分析領域另一個重要趨勢——精細分析,對知識圖譜和認知智慧提出了訴求。比如,很多汽車製造商都希望實現個性化製造,即希望從網際網路上搜集使用者對汽車的評價與反饋,並以此為依據實現汽車的按需與個性化定製。為了實現個性化定製,廠商不僅需要知道消費者對汽車的褒貶態度,還需要進一步瞭解消費者對汽車產品不滿意的細節,以及希望如何改進,甚至需要知道消費者提及了哪些競爭品牌。顯然,面向網際網路資料的精細化資料分析要求機器具備關於汽車評價的背景知識(比如,汽車的車型、車飾、動力、能耗等)。


2.智慧搜尋

智慧搜尋體現在很多方面,比如,在淘寶上搜尋“iPad充電器”,使用者的意圖顯然是要搜尋一個充電器,而不是一個iPad,這個時候淘寶應i反饋給使用者若干個充電器產品以供選擇,而不是iPad。再比如,在Google上搜尋“toys kids”或者“kids toys”,不管搜尋這兩個詞中的哪一個,使用者意圖都是在搜尋給孩子玩的玩具,而不是玩玩具的小孩,因為一般不會有人用搜尋引擎搜孩子。

傳統搜尋的物件以文字為主,未來越多的應用希望能搜尋圖片和聲音,甚至還能搜程式碼、影片、設計樸素等。現在的搜尋不僅要做篇章級的搜尋,還希望能做到段落級、語句級、詞彙級的搜尋。

隨著市場的變化,跨媒體的協同搜尋需求日益增多。比如明星在微博上曬出一張自家小區的照片,就有好事者根據她的微博社交網路、百度地圖、微博文字與圖片資訊等多個渠道、多種媒體的資訊,透過聯合檢索準確推斷出其所在小區的位置。

為了把握當前機遇,企業應該建立基於知識圖譜的專業知識庫。比如,建立iPad與充電器之間配件關係就可以幫助平臺識別搜尋核心詞,從而準確識別搜尋意圖。複雜物件的搜尋需要建立標籤圖譜(由標籤以及標籤之間的關聯關係構成的知識圖譜)來增強物件的表示。

3.智慧推薦

智慧推薦需要知識圖譜。各智慧推薦任務均對知識圖譜提出了需求。

第一,場景化推薦。比如,使用者在淘寶上搜“沙灘褲”“沙灘鞋”,可以推測出這個使用者很可能要去海邊度假。那麼,平臺就可以推薦“泳衣”“防曬霜”之類的海邊度假常用物品。

第二,冷啟動階段下的推薦。冷啟動階段的推薦一直是傳統基於統計行為的推薦方法難以有效解決的問題。利用來自知識圖譜的外部知識,增強使用者與物品的描述,提升匹配精度。

第三,跨領域推薦。網際網路上存在大量的異質平臺,實現平臺之間的跨領域推薦有著越來越多的應用需求。比如一個微博使用者經常曬九寨溝、黃山、泰山的照片,那麼為這位使用者推薦一些淘寶上的登山裝備十分合。這是典型的跨領域推薦,其中微博是一個媒體平臺,淘寶是一個電商平臺。它們的語言體系、使用者行為完全不同,實現這種跨領域推薦有著巨大的商業價值,但是需要跨越巨大的表達鴻溝(異質平臺的表達方式完全不同)。如果能有效利用知識圖譜這類背景知識,不同平臺之間的這種表達鴻溝是有可能被跨越的。

第四,知識型的內容推薦。如果使用者在電商平臺上搜尋“三段奶粉”,那麼我們應該能為使用者推薦一些喝三段奶粉的嬰兒每天的需水量、常見疾病的預防等育兒知識。對這些知識的推薦將顯著增強使用者對於所推薦內容的信任與接受程度。消費行為背後的內容與知識需求將成為推薦的重要考慮因素。將各類知識片段與商品物件建立關聯,是實現這類知識型的內容推薦的關鍵。

4.決策支援

知識圖譜為決策支援提供深層關係發現與推理能力。人們越來越不滿足於“葉莉是姚明的妻子”這樣的簡單關聯的發現,而是希望發現和挖掘一些深層、潛藏的關係。比如,在王寶強離婚的時候,就有人透過人物關聯圖譜深挖過為什麼王寶強找張起淮當律師。人物關聯圖譜顯示王寶強與馮小剛關係很好,而馮小剛與徐靜蕾和趙薇兩位演員經常合作,張起淮正好是這兩位演員的法律顧問。這樣的關係鏈路在一定程度上揭示了王寶強與他的之間的深層次關聯,也解釋了王寶強為何選擇這位律師。更多類似例子發生在金融領域。在金融領域,我們可能十分關注投資關係,比如,為何某個投資人投資某家公司;我們十分關注金融安全,比如,信貸風險評估需要分析一個貸款人的關聯人物和關聯公司的信用評級。因此,建立包含各種語義關聯知識圖譜,挖掘實體之間的深層關係,已經成為決策分析的重要輔助手段。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2841460/,如需轉載,請註明出處,否則將追究法律責任。

相關文章