知識圖譜,能否成為企業下一代的資料倉儲?

AIBigbull2050發表於2019-12-19
2019-12-16 20:01
導語:不是替換,而是有效互補~

“我認為,知識圖譜是企業下一代管理資料的一種新的組織方式,能夠更高效的連線上游的大資料和下游的AI建模任務。

企業最初資料量少、結構單一的時候,用MySQL這樣的結構化資料庫就夠了;再後來資料量越來越多、業務系統越來越複雜,就需要分散式資料庫、資料倉儲、資料集市來管理資料資產。這類資料都需要事先定義好結構。但在大資料時代,你不可能事先將資料的結構定義好,於是很多企業開始利用像 Hadoop 等來搭建大資料平臺,以NOSQL的方式儲存那些事先無法定義的資料。但這些資料之間如何有效關聯?例如,當一些查詢稍微深度(例如四、五度或出現隱形關係),這就需要利用知識圖譜進行資料組織了。”

在近期雷鋒網 AI科技評論對張傑博士進行的採訪中,張傑如是回答了他對知識圖譜未來發展的看法。

張傑博士是明略科技資深科學家,明略科學院知識工程實驗室主任,加入明略科技後便一直在負責明略科技“行業知識圖譜”的研究和搭建工作,在此之前曾在華為中央研究院從事機器學習方面的研究工作。

張傑提到:“在我們內部,我們認為知識圖譜是企業下一代的資料倉儲。它的優點除了能夠高效地進行深度關係查詢外,還能圖譜基礎之上做一些推廣,通過引入常識知識和領域知識,由已有的知識產生新的知識。” 

雷鋒網AI科技評論認為這是一個有趣的觀點。

  知識圖譜,能否成為企業下一代的資料倉儲?


1、數倉


資料倉儲的概念最早是在1990年由 比爾·恩門(Bill Inmon)提出。這裡需要區別資料庫和資料倉儲之間的不同。

資料庫是一種邏輯概念,用來存放資料,由多表組成,目前市面上流行的資料庫例如有 Oracle、DB2、MySQL、Sybase、MS SQL Server等。

而資料倉儲則是資料庫概念的升級。從邏輯上理解,資料庫和資料倉儲沒有區別,都是通過資料庫軟體實現存放資料的地方;只不過從資料量來說,資料倉儲要比資料庫更龐大得多。資料倉儲主要用於資料探勘和資料分析,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。

在比爾的著作《Building the Data Warehouse》一書中,他將資料倉儲定義為:

資料倉儲是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支援管理決策。

這種組織資料方式(即面向業務過程的資料組織方式),通俗來說,就是將資料物理集中在一起。從儲存的角度來看,資料就是一張張獨立的表結構,如常用的會員表、訂單表等,表與表之間無法在資料層面整合到一起,需要通過外在的輔助工具才能進行邏輯與資料梳理,因此這種形式又被稱為物理集中,而不是邏輯集中。

這種傳統的資料倉儲,其優勢在於統計性報表,能夠高效地進行資料統計。

但其缺點正如前面張傑博士所提到的:

1)對於這種結構化的資料,需要提前定義好結構(清楚地知道資料的格式和關係),且在新增資料的過程中很難改變結構。這種結構化的資料價值密度比較高,但在大資料時代我們不可能把所有的資料事先定義好,因此也就無法利用目前網際網路中出現的大量非結構化的資料。

2)針對1)中的情況,目前也有很多企業使用像Hadoop這種分散式處理框架來開發大資料平臺,這可以儲存一些事先定義不好的、量特別大的、或結構化資料庫不好索引的資料。但這些資料之間如何有效關聯,如何進行深度查詢依然存在困難。例如通過結構化的或大資料平臺的數倉,可以勝任一度關係、二度關係的查詢,但涉及到四度、五度或者隱形關係查詢時,就會非常困難。

知識圖譜,能否成為企業下一代的資料倉儲?


2、知識圖譜


知識圖譜最早是在2012年由谷歌提出的一個概念,但事實上在很早就已經有了相關的研究(稱為知識工程)。

知識圖譜本質上是語義網路,是一種基於圖的資料結構,由節點(Point)和邊(Edge)組成。在知識圖譜裡,每個節點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關係”。知識圖譜也是“關係”的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的資訊(Heterogeneous Information)連線在一起而得到的一個關係網路。

張傑表示:“在知識組織層面上,圖譜化將是企業進行資料管理的未來趨勢。”

知識圖譜,能否成為企業下一代的資料倉儲? 一方面,它便於將客戶已有的結構化知識做更深的度數上的關聯,同時保證查詢效率,深度關聯是傳統數倉的技術框架下不善於實現的。另一方面可以幫助客戶從來自於物聯網、網際網路等海量的非結構化資料中抽取出知識片段,從而擴充客戶的資料維度,增大知識儲量,釋放出大資料紅利。 

而在知識表示層面上,知識圖譜則是上游大資料和下游AI任務的有效連線。圖譜化之後的知識便於進一步的語義化,知識碎片關聯起來形成圖譜之後,更多關聯資訊意味著更加豐富的語義資訊。

經過適當的引入常識知識和領域知識,可以對圖譜中的節點和關係做向量化處理,進而突破以往基於字串匹配的淺層語義,更加便利、有效的幫助客戶組織領域知識,為流程優化、輔助決策、預測分析等下游應用提供基礎服務。

明略科技在這方面有足夠多的構想和實踐。例如在知識表示方面,目前明略科技聚焦於如下幾個研究問題:帶有部分屬性和標籤的靜態圖譜如何向量化表示,如何從動態變化且不符合馬爾可夫性的圖譜中挖掘出事件間的因果關係,常識知識、領域知識、非結構化碎片知識如何對映到相同的語義空間中,如何用統一的知識表示框架為下游的分類、檢索、推薦、問答等任務提供知識服務。

知識圖譜,能否成為企業下一代的資料倉儲?

3、困難

然而目前為止知識圖譜在成為數倉的過程中,依然存在著研究上的和產業上的問題。

在研究方面,有人曾對近幾年國際頂會上的相關工作做了全方位分析,他們發現在知識圖譜落地過程中的每個環節都還存在各自的問題:構建層面,目前比較關注的包括弱監督、遠端監督、自監督、小樣本等抽取方案;推理層面,主要集中在圖神經網路、基於圖表示學習的研究等;知識建模層面,則有一些事理圖譜(這個是由哈工大首先提出的一種概念)、動態知識圖譜、時序點過程的探索。

其次在產業應用方面:

首先,對於構建知識圖譜的“數倉”,眼下最主要的問題是大規模、低時延下的效率問題。目前企業所能掌握的關係資料一般都在千萬到百億節點的規模,未來隨著5G和物聯網的普及,其規模會更大,而且很多場景下要求在秒級甚至毫秒級返回查詢結果。這不光是對底層圖資料庫的挑戰,很多上層AI任務的演算法要配合中層的圖挖掘演算法和更底層的圖資料庫操作運算元一起做跨層聯合的並行化優化。

另外一個挑戰是知識完備性問題,使用知識圖譜的目的,除了讓它做為一種中間態的資料服務之外,還期待能引入常識知識和領域知識,在大規模資料中做自動推理和補全,當圖譜中的知識未達到一定的量級和豐富度之前,推理的準確度很難保證甚至難以開展,兩者之間不是線性關係。

此外,也有人提到,現在越來越多的應用,其輸入不僅限於文字,還會有圖片、音訊、視訊等多模態的內容,如何為多模態的知識圖譜構建提供一個比較好的解決方案,在未來一段時間裡依然是一個具有挑戰性的問題。

因此,張傑博士作為補充也指出,“知識圖譜不是替換資料倉儲,而是作為資料倉儲的有效互補。”

雷鋒網 (公眾號:雷鋒網)報導。

參考文章:

[1] 百度百科,  https://baike.baidu.com/item/資料倉儲

[2] 資料庫 與 資料倉儲的本質區別是什麼?,知乎問答, https://www.zhihu.com/question/20623931

[3] 機器之心 Pro,  https://www.jiqizhixin.com/graph/technologies/6e896233-3f15-47a4-9b2e-479d7cc5478b

[4] 知識圖譜的下一步:知識指導的預訓練模型和圖神經網路, 蔡芳芳,   https://www.infoq.cn/article/OfDP3jgOaZlg7ogmfEwk

[5] 知識圖譜 + 資料中臺,會是未來中臺戰略的答案嗎?, 佘磊,  https://www.infoq.cn/article/DGJb0z4jKw8jzyf90dAE


https://www.leiphone.com/news/201912/ATW7sTscHxQEVbVm.html




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2668972/,如需轉載,請註明出處,否則將追究法律責任。

相關文章