數字中國建設規劃之後,兩會又確定了國務院機構改革的方案,組建國家資料局,朋友圈紛紛被資料人刷屏,這可能算的上是資料人的一個高光時刻了。近期也有粉絲諮詢資料治理工作的崗位前景,有沒有必要考資料治理的DAMA證書,今天就花點時間聊聊資料治理那些事。
大禹治水,是因為洪水氾濫,禍及民生題,修堤建壩河流改道,並且也要防患於未然。百度百科把資料治理定義為組織中涉及資料使用的一整套的管理行為。所以瞭解資料使用過程涉及的工作,也就能夠更加準確地理解資料治理到底指的是什麼了。數字中國建設,首先要解決有資料的問題,也就是資料基建,連資料都沒有或者沒采集,上層建築也就沒有根基,都是空談。其次是,資料準不準,也就是質量的問題,資料髒亂差,錯誤資料帶來錯誤的決策指導,還不如沒有資料拍腦袋。第三階段就是效率了,想分析個資料要等個十天半個月,決策時效也過了。最後是成本,寒冬還沒過,企業數字化轉型本質是追求依賴資料進行降本增效,而如果資料團隊的人和資產本身成了成本大頭,肯定不是長久之計。所以,一切圍繞這四大目標而進行的相關開發工作或者資料產品工具的建設,都是資料治理的範疇,比如為了獲取資料,需要制定資料採集的流程和規範,對於線上業務主要是埋點採集,線下靠感測器或其他資料匯入。既然資料治理的目的是為了完成數字化應用的四大目標,那麼,資料治理日常的工作範疇和全貌主要包含哪些呢?在數字化轉型意識覺醒之前,很多企業資料是缺失不全的,甚至很多人都不知道想要分析使用者行為資料,必須要先埋點採集。在一些公司中,資料分析、資料產品承擔了制定埋點規範的職責,定義資料採集的規範和標註,一個功能上線,需要採集哪些欄位,欄位的結果和規範是怎樣的等。或者散落在不同的業務系統,資料是孤島般存在的,資料中臺的概念興起後,首要的任務就是要打破煙囪和孤島,把資料統一匯聚起來。不同系統怎麼整合和匯聚,不同部門資料打架時,該聽誰的也同樣需要制定資料匯聚的標註和規範。主要是指資料質量問題,資料從採集、加工處理到應用要經歷非常長的鏈路和流程,任何環節出了問題,都可能導致資料錯誤,所以需要建立資料質量檢查和監控的標準,防患於未然,提前發現資料問題並修復一致性:一致性是指資料是否遵循了統一的規範,資料集合是否保持了統一的格式。完整性:完整性指的是資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個欄位資訊的記錄缺失。不完整的資料所能借鑑的價值就會大大降低,也是資料質量更為基礎的一項評估標準。及時性:及時性是指資料從產生到可以檢視的時間間隔,也叫資料的延時時長。及時性對於資料分析本身要求並不高,但如果資料分析週期加上資料建立的時間過長,就可能導致分析得出的結論失去了借鑑意義。準確性:準確性是指資料記錄的資訊是否存在異常或錯誤。和一致性不一樣,存在準確性問題的資料不僅僅只是規則上的不一致。更為常見的資料準確性錯誤就如亂碼。其次,異常的大或者小的資料也是不符合條件的資料。有效性:對於資料的值、格式要求符合資料定義或業務定義的要求,如某些電話、郵箱的格式。唯一性:針對某個資料項或某組資料,沒有重複的資料值。值必須是唯一的如ID類資料。主要包括資料生產者和資料使用者兩個方面,即既要高效生產,又可以快速輸出業務價值。這就主要涉及資料倉儲的資產化管理和建設,比如後設資料管理、主資料管理等。資料生產者:模型開發效率高,可複用,透過資料倉儲分層建設,提升開發效率和運維效率。源端業務資料變動只需要修改一層底表邏輯,而不需要所有任務全部改一遍。資料消費者:資料找得到,敢使用。可以清楚的知道自己需要的資料指標存放在哪個指標中,統計邏輯是什麼,放心大膽的使用。這就要求資料資產管理的資料產品,既能滿足數倉建設的高效率,同時也要具備資產索引地圖的能力,方便業務查詢和使用資料。大資料資料量大、價值密度低導致需要大量的伺服器來儲存每天海量增長的資料,雖然說Hadoop分散式的能力支援廉價伺服器的部署,但每臺4w也架不住幾千幾萬臺。所以,資料不可能只增不減,還需要持續做加法,透過資料的冷熱分離、無效資料歸檔刪除,高耗時任務的治理來降低資料的儲存和計算成本。將埋點規範整合到資料管理後臺中,讓整個埋點流程線上化流轉,提升埋點工作的規範化程度,減少漏埋和錯埋。即使像一些使用者行為分析系統力推的無埋點或視覺化埋點,也都有埋點資料管理模組提供介面化的指標定義能力。早期的埋點規則主要靠excel世代相傳匯聚入湖的資料需要加工處理才能發揮其價值,尤其對於湖倉一體的架構中,涉及到結構化資料的資料倉儲模組的開發。按照業務需求的邏輯對資料進行ETL處理,輸出一個個的資料模型。可以將資料模型開發規範和流程融入到系統當中,是一種低程式碼的思想減少數倉建模的開發程式碼開發,提升模型的規範化和複用性,比如阿里的Datapin,系統化的好處在於方便前置化管理建模過程,而不是先汙染後治理,弊端是可能沒有開發自己寫程式碼那麼靈活。資料不準可以說是業務和資料團隊最頭疼的問題之一,業務拿到資料不敢用,先來問下開發準不準,開發不自信,看了任務看了程式碼說應該沒問題。資料質量監控圍繞一致性、及時性、完整性、準確性維度構建豐富靈活的資料質量規則配置和自動化預警能力,讓資料開發人員更自信,只要監控沒報警,就可以拍著胸脯說,是不是業務上有什麼變化。
酒香也怕巷子深,資料模型開發完了,找得到、敢使用才能提升複用性,資料地圖透過資產目錄共享和強大的資料檢索能力,提供逛資料、找資料的能力,同時需要具備豐富的模型後設資料資訊,讓資料消費者快速判斷是不是自己所需要的資料,如何使用。
雖然說大家預設資料部門是成本中心,但是在這個寒冬之下,也要勒緊褲腰帶,雖不能開源但總要節流,哪些資料長期無人使用可以歸檔或刪除,哪些任務SQL效能奇差一個任務執行10多個小時,消耗大量CPU、GPU?資料成本最佳化核心目標是建立資料健康分評價體系,自動化檢測治理目標,並提供歸檔、刪除等自動化治理動作,從而釋放伺服器資源,常態化做減法。
主要解決資料的追根溯源的問題,例如資料異常,需要通知下游業務,資料治理時需要下線或者刪除,下游有沒有人在使用,沒有血緣就不敢治理,資料&服務只增不減資料安全問題事關企業生死存亡和資料團隊的“錢途”,統一許可權主要是建立資料資產許可權申請、授權、審計對應的流程,從而保證資料既共享又安全。資料治理可以說是數字化建設最基礎的根基部分,在數字化建設初期需求量非常大,即使有些企業追求短期的資料應用價值快速可見,終究還是要回過頭來還資料治理的技術債,所以如果當前從事的是資料治理方向的開發或者產品工作,就先花1-2年把這個方向的基礎打紮實,然後再向雨後春筍一樣,遇到合適的機會快速向上。如果開始選擇職業方向,那就根據自己專業背景決定是否以這個方向切入,計算機、統計、演算法、數學等專業背景的上手資料治理相關工作相對會更快。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2938990/,如需轉載,請註明出處,否則將追究法律責任。