大資料時代的資料治理!

成就數智企業發表於2023-12-14

一、大資料時代還需要資料治理嗎?

資料平臺發展過程中隨處可見的資料問題

大資料不是憑空而來,1981年第一個資料倉儲誕生,到現在已經有了近40年的歷史,相對資料倉儲來說我還是個年輕人。而國內企業資料平臺的建設大概從90年代末就開始了,從第一代架構出現到現在已經經歷了近20年的時間。

圖片

在這20年的時間裡,國內資料平臺實施者可以說是受盡折磨,資料專案一直不受待見,是出了名的髒活累活。

圖片

可以說, 忽視資料治理給資料平臺建設帶來了不少問題。隨處可見的資料不統一,難以提升的資料質量,難以完成的資料模型梳理等源源不斷的基礎性資料問題,限制了資料平臺發展,導致資料應用不能在商業上快速展示效果。

舉一個典型商業智慧應用的例子,管理駕駛艙可能很多朋友都聽說過,很多企業建設了管理駕駛艙,但是建設完之後往往成為擺設,只有當領導需要看的時候,大家才去拼命改資料。


為什麼資料平臺的建設遇到這麼多“坎”,而且難以真正發揮其商業價值?其實核心問題還是資料本身不統一,資料內容準確度不高。

資料治理逐漸受到各行業認識

我國最早意識到資料治理重要性的行業銀行是金融行業。由於對資料的強依賴,金融業一直非常重視資料平臺的建設,經過幾代資料平臺的驗證,發現資料治理是平臺建設的主要限制因素,而且隨著投資和建設的投入增加,對資料治理的重要性的認識也越來越深刻。


如今各行業都開始了大資料平臺的建設,希望利用大資料的能力,來實現數字化轉型。大資料平臺的建設本質上還是資料的建設,傳統資料平臺碰到的所有問題大資料平臺都有可能碰到,由於資料量級的變化,大資料平臺必然還會產生新的問題。

大資料時代下需要新一代的資料治理能力

目前大資料平臺的突出問題主要體現在以下四方面:

資料不可知

使用者不知道大資料平臺中有哪些資料,也不知道這些資料和業務的關係是什麼,雖然意識到了大資料的重要性,但平臺中有沒有能解決自己所面臨業務問題的關鍵資料?該到哪裡尋找這些資料?

資料不可控

資料不可控是從傳統資料平臺開始就一直存在的問題,在大資料時代表現得更為明顯。沒有統一的資料標準導致資料難以整合和統一,沒有質量控制導致海量資料因質量過低而難以被利用,沒有能有效管理整個大資料平臺的管理流程。

資料不可取

資料不可取:使用者即使知道自己業務所需要的是哪些資料,也不能便捷自助地拿到資料,相反,獲取資料需要很長的開發過程,導致業務分析的需求難以被快速滿足,而在大資料時代,業務追求的是針對某個業務問題的快速分析,這樣漫長的需求響應時間是難以滿足業務需求的。

資料不可聯

大資料時代,企業擁有著海量資料,但企業資料知識之間的關聯還比較弱,沒有把資料和知識體系關聯起來,企業員工難以做到資料與知識之間的快速轉換,不能對資料進行自主的的探索和挖掘,資料的深層價值難以體現。

圖片

透過分析以上四類問題,我們發現傳統資料平臺面臨的問題,在大資料時代不僅沒有消失,還不斷湧現出新的問題,傳統的資料治理需要提升能力,來解決大資料平臺建設過程中的這些問題。


在傳統資料平臺階段,資料治理的目標主要是做管控,為資料部門建立一個的治理工作環境,包括標準、質量等。在大資料平臺階段,使用者對資料的需求持續增長,使用者範圍從資料部門擴充套件到全企業,資料治理不能再只是面向資料部門了,需要成為面向全企業使用者的工作環境,需要以全企業使用者為中心,從給使用者提供服務的角度,管理好資料的同時為使用者提供自助獲得大資料的能力,幫助企業完成數字化轉型。

圖片


二、如何面向使用者開展大資料治理?

面向使用者的大資料治理的四個階段

面向使用者的大資料治理該如何做,我們總結了四個階段。

圖片

(1)第一階段:全面梳理企業資訊,自動化構建企業的資料資產庫


在第一階段,主要是對企業大資料的梳理,從而全面掌握企業大資料的情況,主要有以下三個方面。

 梳理全企業資料架構,對企業的資料模型、資料關係、資料處理有清晰化的認識。

 對資料資產形成統一的自動化管理,形成企業的後設資料庫。

 對企業資料資產形成多種檢視,使資料資產能夠讓不同使用者,有不同視角的展示。

圖片


(2)第二階段:建立管理流程,落地資料標準,提升資料質量


在第二階段,需要建立大資料管控能力,包括從業務的角度梳理企業資料質量問題,形成質量控制能力,形成核心資料標準,並抓標準落地。針對關鍵問題,建立資料的管理流程,少而精,控制核心問題。


在這個階段主要是為資料部門形成一套管理大資料的能力,同時為資料部門形成資料管理的工作環境。

圖片


(3)第三階段:直接為使用者提供價值,向使用者提供資料微服務


透過前兩個階段,企業能夠建立基本的資料治理的能力,在此基礎上,還需要以使用者為中心,為使用者提供直接獲取資料的能力。第三階段依賴於前兩個階段能力的建設,在這個階段的目標是向使用者提供自助化的資料服務,使使用者能夠自助地獲取和使用資料,並且在使用者的使用過程中再反過去進一步落地標準、控制質量。

圖片


(4)第四階段:智慧化企業知識圖譜,為全企業提供資料價值


最後一個階段是將資料沉澱成為知識,形成企業的知識圖譜,提供從“關係”的角度去分析問題的能力。


人進行資料搜尋是透過業務術語(知識)來搜尋的,而知識之間是有相互聯絡的,例如水果和蕃茄是上下位關係(後者是前者的具體體現),好的搜尋除了要列出直接結果,還需要顯示與之關聯的知識,這就要建立知識圖譜。


簡單說知識圖譜就是概念、屬性以及概念之間的關聯關係,這個關係可以手工建立,也能透過自然語言處理等方法,對政策、法規、需求、資料庫comments、介面等多種來源進行分析,自動化建立起企業知識圖譜。從而使資料治理成為整個企業的資料工作環境,強化企業資料與知識體系之間的關聯,加快企業員工資料與知識之間的轉換效率,讓資料的深層價值得以體現。

圖片

透過這四個階段的建設,使資料治理平臺由資料部門的工作環境,轉變成為全企業的資料工作環境,以使用者為中心,讓使用者能夠直接使用大資料,並透過使用者的使用來管理資料,持續最佳化資料質量,在達到治理資料目標的同時,也最大限度發揮了資料的價值。


三、面向使用者的自服務大資料治理架構

自服務大資料治理架構

以使用者為中心的自服務大資料治理技術架構包括五部分:資料資產管理、資料監控管理、資料準備平臺、資料服務匯流排,訊息與流資料管理。

圖片

整個平臺分為五塊核心能力:資料資產、資料準備、資料服務匯流排、訊息&流資料管理、資料監控管理。

資料資產管理是對企業資料資訊統一管理也是整個平臺的基礎,資料準備平臺是資產服務化的加工廠,它不但能將原始資料透過服務形式以使用者能看懂的方式提供,也可以透過線上資料模型設計實現最終資料產品的釋出,起到承上啟下的作用。

資料服務匯流排和訊息&流資料管理的價值層次是一致的,只是從資料時效性上面對資料進行了區分,去適應使用者不同的管理和應用訴求。起到資料通道和安全管理兩個核心內容。


資料監控管理有別於大資料中的資料節點管理,而是從資料管理的視角切入對資料的結構的變化、關係的變化進行管理和控制,它是資料持續發揮價值的監管者。

自服務大資料治理的關鍵技術

01

人工智慧的知識圖譜構建

主要有三個步驟:

1

基於企業後設資料資訊,透過自然語言處理、機器學習、模式識別等演算法,以及業務規則過濾,實現知識提取;

2

以本體形式表示和儲存知識,自動構建成資產知識圖譜;

3

透過知識圖譜關係,利用智慧搜尋、關聯查詢手段,為終端使用者提供更加精確的資料;

圖片

02

細粒度的敏感資訊控制

資料內容安全管理包括對IT系統和資料進行敏感度等級劃分的定義、瀏覽、檢核,輔助安全規則在業務、技術領域的應用。從功能上包括資料敏感性分級、系統敏感性分級,資料安全策略定義管理,安全策略輸出,安全管理報告,資料安全檢核,敏感資料角色管理,敏感資料權鑑管理及相關電子審批流程。

圖片

03

自助化的大資料服務生產線

這裡有4個關鍵點:

 自助的查詢到想要的資料;

 自動的生成資料服務;

 及時穩定的獲得資料通道;

 資料安全有保證;


透過自助化的資料生產線,資料使用方(業務人員)大大減少了對開發人員依賴,80%以上的資料需求,都能透過自己進行整合開發,最終獲取資料。讓所有用資料的人能方便得到想要的資料。

圖片

04

多維度實時的資料資產資訊的展示

資料治理平臺提供實時、全面的資料監控,不僅能從作業、模型、物理資源等各方面進行全面的資料資產盤點,還能對資料及時性、問題資料量等方面的資料健康環境進行全面的預警。

05

以業務元模型為核心的資料微服務

資料需要以服務的形式提供給終端使用者,在服務的提供上不能再採用傳統的方式,而需要用微服務的方式提供,每個單獨資料微服務自己對所提供資料做快取,在其中利用後設資料能力,把知識(業務模型)與技術(資料模型)相結合,從而向最終資料使用者提供多種資料能力,使使用者能夠以多種方式使用資料。

圖片

最後在整個大資料治理平臺的構建中還需要滿足一系列原則。

圖片


總結

大資料時代,企業急需建立以使用者為中心的自服務大資料治理,資訊梳理、資料管控、連線使用者、智慧化是實現自服務大資料治理的四個主要階段,掌握一系列關鍵技術和技術原則,是實現自服務大資料治理的重要基礎。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70035284/viewspace-3000133/,如需轉載,請註明出處,否則將追究法律責任。

相關文章