大資料時代的資料治理!
一、大資料時代還需要資料治理嗎?
資料平臺發展過程中隨處可見的資料問題
大資料不是憑空而來,1981年第一個資料倉儲誕生,到現在已經有了近40年的歷史,相對資料倉儲來說我還是個年輕人。而國內企業資料平臺的建設大概從90年代末就開始了,從第一代架構出現到現在已經經歷了近20年的時間。
在這20年的時間裡,國內資料平臺實施者可以說是受盡折磨,資料專案一直不受待見,是出了名的髒活累活。
可以說, 忽視資料治理給資料平臺建設帶來了不少問題。隨處可見的資料不統一,難以提升的資料質量,難以完成的資料模型梳理等源源不斷的基礎性資料問題,限制了資料平臺發展,導致資料應用不能在商業上快速展示效果。
舉一個典型商業智慧應用的例子,管理駕駛艙可能很多朋友都聽說過,很多企業建設了管理駕駛艙,但是建設完之後往往成為擺設,只有當領導需要看的時候,大家才去拼命改資料。
為什麼資料平臺的建設遇到這麼多“坎”,而且難以真正發揮其商業價值?其實核心問題還是資料本身不統一,資料內容準確度不高。
資料治理逐漸受到各行業認識
我國最早意識到資料治理重要性的行業銀行是金融行業。由於對資料的強依賴,金融業一直非常重視資料平臺的建設,經過幾代資料平臺的驗證,發現資料治理是平臺建設的主要限制因素,而且隨著投資和建設的投入增加,對資料治理的重要性的認識也越來越深刻。
如今各行業都開始了大資料平臺的建設,希望利用大資料的能力,來實現數字化轉型。大資料平臺的建設本質上還是資料的建設,傳統資料平臺碰到的所有問題大資料平臺都有可能碰到,由於資料量級的變化,大資料平臺必然還會產生新的問題。
大資料時代下需要新一代的資料治理能力
目前大資料平臺的突出問題主要體現在以下四方面:
資料不可知
使用者不知道大資料平臺中有哪些資料,也不知道這些資料和業務的關係是什麼,雖然意識到了大資料的重要性,但平臺中有沒有能解決自己所面臨業務問題的關鍵資料?該到哪裡尋找這些資料?
資料不可控
資料不可控是從傳統資料平臺開始就一直存在的問題,在大資料時代表現得更為明顯。沒有統一的資料標準導致資料難以整合和統一,沒有質量控制導致海量資料因質量過低而難以被利用,沒有能有效管理整個大資料平臺的管理流程。
資料不可取
資料不可取:使用者即使知道自己業務所需要的是哪些資料,也不能便捷自助地拿到資料,相反,獲取資料需要很長的開發過程,導致業務分析的需求難以被快速滿足,而在大資料時代,業務追求的是針對某個業務問題的快速分析,這樣漫長的需求響應時間是難以滿足業務需求的。
資料不可聯
大資料時代,企業擁有著海量資料,但企業資料知識之間的關聯還比較弱,沒有把資料和知識體系關聯起來,企業員工難以做到資料與知識之間的快速轉換,不能對資料進行自主的的探索和挖掘,資料的深層價值難以體現。
透過分析以上四類問題,我們發現傳統資料平臺面臨的問題,在大資料時代不僅沒有消失,還不斷湧現出新的問題,傳統的資料治理需要提升能力,來解決大資料平臺建設過程中的這些問題。
在傳統資料平臺階段,資料治理的目標主要是做管控,為資料部門建立一個的治理工作環境,包括標準、質量等。在大資料平臺階段,使用者對資料的需求持續增長,使用者範圍從資料部門擴充套件到全企業,資料治理不能再只是面向資料部門了,需要成為面向全企業使用者的工作環境,需要以全企業使用者為中心,從給使用者提供服務的角度,管理好資料的同時為使用者提供自助獲得大資料的能力,幫助企業完成數字化轉型。
二、如何面向使用者開展大資料治理?
面向使用者的大資料治理的四個階段
面向使用者的大資料治理該如何做,我們總結了四個階段。
(1)第一階段:全面梳理企業資訊,自動化構建企業的資料資產庫
在第一階段,主要是對企業大資料的梳理,從而全面掌握企業大資料的情況,主要有以下三個方面。
● 梳理全企業資料架構,對企業的資料模型、資料關係、資料處理有清晰化的認識。
● 對資料資產形成統一的自動化管理,形成企業的後設資料庫。
● 對企業資料資產形成多種檢視,使資料資產能夠讓不同使用者,有不同視角的展示。
(2)第二階段:建立管理流程,落地資料標準,提升資料質量
在第二階段,需要建立大資料管控能力,包括從業務的角度梳理企業資料質量問題,形成質量控制能力,形成核心資料標準,並抓標準落地。針對關鍵問題,建立資料的管理流程,少而精,控制核心問題。
在這個階段主要是為資料部門形成一套管理大資料的能力,同時為資料部門形成資料管理的工作環境。
(3)第三階段:直接為使用者提供價值,向使用者提供資料微服務
透過前兩個階段,企業能夠建立基本的資料治理的能力,在此基礎上,還需要以使用者為中心,為使用者提供直接獲取資料的能力。第三階段依賴於前兩個階段能力的建設,在這個階段的目標是向使用者提供自助化的資料服務,使使用者能夠自助地獲取和使用資料,並且在使用者的使用過程中再反過去進一步落地標準、控制質量。
(4)第四階段:智慧化企業知識圖譜,為全企業提供資料價值
最後一個階段是將資料沉澱成為知識,形成企業的知識圖譜,提供從“關係”的角度去分析問題的能力。
人進行資料搜尋是透過業務術語(知識)來搜尋的,而知識之間是有相互聯絡的,例如水果和蕃茄是上下位關係(後者是前者的具體體現),好的搜尋除了要列出直接結果,還需要顯示與之關聯的知識,這就要建立知識圖譜。
簡單說知識圖譜就是概念、屬性以及概念之間的關聯關係,這個關係可以手工建立,也能透過自然語言處理等方法,對政策、法規、需求、資料庫comments、介面等多種來源進行分析,自動化建立起企業知識圖譜。從而使資料治理成為整個企業的資料工作環境,強化企業資料與知識體系之間的關聯,加快企業員工資料與知識之間的轉換效率,讓資料的深層價值得以體現。
透過這四個階段的建設,使資料治理平臺由資料部門的工作環境,轉變成為全企業的資料工作環境,以使用者為中心,讓使用者能夠直接使用大資料,並透過使用者的使用來管理資料,持續最佳化資料質量,在達到治理資料目標的同時,也最大限度發揮了資料的價值。
三、面向使用者的自服務大資料治理架構
自服務大資料治理架構
以使用者為中心的自服務大資料治理技術架構包括五部分:資料資產管理、資料監控管理、資料準備平臺、資料服務匯流排,訊息與流資料管理。
整個平臺分為五塊核心能力:資料資產、資料準備、資料服務匯流排、訊息&流資料管理、資料監控管理。
資料資產管理是對企業資料資訊統一管理也是整個平臺的基礎,資料準備平臺是資產服務化的加工廠,它不但能將原始資料透過服務形式以使用者能看懂的方式提供,也可以透過線上資料模型設計實現最終資料產品的釋出,起到承上啟下的作用。
資料服務匯流排和訊息&流資料管理的價值層次是一致的,只是從資料時效性上面對資料進行了區分,去適應使用者不同的管理和應用訴求。起到資料通道和安全管理兩個核心內容。
資料監控管理有別於大資料中的資料節點管理,而是從資料管理的視角切入對資料的結構的變化、關係的變化進行管理和控制,它是資料持續發揮價值的監管者。
自服務大資料治理的關鍵技術
01
人工智慧的知識圖譜構建
主要有三個步驟:
1
基於企業後設資料資訊,透過自然語言處理、機器學習、模式識別等演算法,以及業務規則過濾,實現知識提取;
2
以本體形式表示和儲存知識,自動構建成資產知識圖譜;
3
透過知識圖譜關係,利用智慧搜尋、關聯查詢手段,為終端使用者提供更加精確的資料;
02
細粒度的敏感資訊控制
資料內容安全管理包括對IT系統和資料進行敏感度等級劃分的定義、瀏覽、檢核,輔助安全規則在業務、技術領域的應用。從功能上包括資料敏感性分級、系統敏感性分級,資料安全策略定義管理,安全策略輸出,安全管理報告,資料安全檢核,敏感資料角色管理,敏感資料權鑑管理及相關電子審批流程。
03
自助化的大資料服務生產線
這裡有4個關鍵點:
● 自助的查詢到想要的資料;
● 自動的生成資料服務;
● 及時穩定的獲得資料通道;
● 資料安全有保證;
透過自助化的資料生產線,資料使用方(業務人員)大大減少了對開發人員依賴,80%以上的資料需求,都能透過自己進行整合開發,最終獲取資料。讓所有用資料的人能方便得到想要的資料。
04
多維度實時的資料資產資訊的展示
資料治理平臺提供實時、全面的資料監控,不僅能從作業、模型、物理資源等各方面進行全面的資料資產盤點,還能對資料及時性、問題資料量等方面的資料健康環境進行全面的預警。
05
以業務元模型為核心的資料微服務
資料需要以服務的形式提供給終端使用者,在服務的提供上不能再採用傳統的方式,而需要用微服務的方式提供,每個單獨資料微服務自己對所提供資料做快取,在其中利用後設資料能力,把知識(業務模型)與技術(資料模型)相結合,從而向最終資料使用者提供多種資料能力,使使用者能夠以多種方式使用資料。
最後在整個大資料治理平臺的構建中還需要滿足一系列原則。
總結
大資料時代,企業急需建立以使用者為中心的自服務大資料治理,資訊梳理、資料管控、連線使用者、智慧化是實現自服務大資料治理的四個主要階段,掌握一系列關鍵技術和技術原則,是實現自服務大資料治理的重要基礎。
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70035284/viewspace-3000133/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 女人與大資料:大資料時代就是女性的時代大資料
- 後ERP時代的業務資料治理
- 大資料的時代大資料
- 大資料VS大擁堵:大資料治理交通大資料
- 大資料治理——搭建大資料探索平臺大資料
- 大資料治理包括哪些大資料
- 圖資料庫——大資料時代的高鐵資料庫大資料
- 大資料時代的裸奔大資料
- 大資料時代的常量大資料
- 大資料時代資料安全策略大資料
- 大資料時代的量化投資大資料
- 小米大資料儲存服務的資料治理實踐大資料
- 大資料時代來臨大資料
- 資料治理的興與衰,如何進行資料治理?
- 大資料治理包括哪些內容大資料
- 資料治理--資料質量
- 資料治理--後設資料
- 大資料時代的電光火石大資料
- 大資料時代的業務轉型大資料
- 四說大資料時代“神話”:從大資料到深資料大資料
- 資料治理三大模式詳解,治理新正規化釋放資料潛能模式
- 大資料時代:守好資料安全這道門大資料
- 大資料時代——未來世界的資料分析法大資料
- 大資料時代的資料應用難題——資訊圖大資料
- 大資料時代的資料應用難題–資訊圖大資料
- Bond——大資料時代的資料交換和儲存格式大資料
- 資料治理的關鍵:後設資料治理如何開展
- 大資料時代的資料儲存,非關係型資料庫MongoDB大資料資料庫MongoDB
- 資料大集中時代結束,資料治理新階段如何釋放資料價值?
- 大資料時代的技術hive:hive的資料型別和資料模型大資料Hive資料型別模型
- 大資料時代帶來的大變革大資料
- 資料治理的資料質量知多少
- 資料治理之資料的“管”與“用”
- 資料治理:走出資料孤島
- 資料安全治理
- 資料治理怪象
- 資料治理--模板
- 物件代理資料庫:大資料時代下的應需之作物件資料庫大資料