導讀 今天分享的主題為資料標準和資料質量。
主要包括三部分內容:
1. 相關概念和框架
2. 工具和技術
3. 典型案例
分享嘉賓|謝輝 滴普科技 MO總監
編輯整理|李科 浪潮集團
出品社群|DataFun
首先來看一下資料標準的概念我們可能經常聽到這個詞語,卻並不清楚其定義,不知道其中包含了什麼。在國際資料管理協會的關於職能域的車輪圖中,並沒有資料標準這一項。國內的 DCMM 框架中有資料標準一項。另外, IBM 的資料治理框架,以及 CMMI 的框架中也是沒有資料標準的。我們可以去分析一下國內的權威機構關於資料標準的定義,如下圖所示:透過總結國內對資料標準的定義,再去看 DAMA 框架就會發現,其資料治理中是包含了對資料標準的定義的。國外的企業一般不會使用 Data Standards 這個詞,它會具體對映到左邊的,比如 Glossary,就是業務術語,或者說 Data Dictionary、資料字典,還有 Data Elements 就是資料元或資料項。在他們的語境當中業務術語是面向公司所有受眾的,需要確保在一個組織中大家都使用正確的術語。資料字典更多的是給技術員工在管理資料的時候用的,它定義描述資料集,還有資料欄位相關的屬性。對於業務術語而言,它的業務屬性就是這個詞語代表了業務含義,在技術層面就是資料的表現形式、取值範圍等。管理屬性是這個術語對應在組織內的一個歸屬。下面是業務術語的資料標準的舉例,比如企業法人,我們對它有一個定義和分類,它裡面的這個資料元會有對應的描述,我們對這個描述會有很多的約定。當我們去梳理一個企業內部的所有資料的時候,從上往下去看會把它分成多個 level,第一個就是企業所有資料主題域的分組,它體現的是從資料的視角去看企業所有資料,它真正在業務層面對映的相關大領域對應的主題域是互不重疊的。再舉個例子,比如貨品管理,它可以分為訂貨、庫存,這兩個是可以去分析的主題域或者業務上關心的主題域,對應的業務物件是訂貨,相關的訂單就是它的業務物件。再下層去拆解的話,會有業務關係和邏輯實體,那邏輯實體是真正具有邏輯關係的一些屬性組合,比如訂單表本身是一個實體,然後表中的對應的欄位是這個實體所幹預的業務中定義的一些屬性。最後的屬性是我們經常提到的這個資料元或者資料項。從業務角度對這些屬性進行分辨。比如業務規則就是基礎後設資料,包括主資料、參考資料、計算方法、統計口徑等。從技術角度來看,欄位類別、欄位格式長度屬於來源,統計粒度還有統計週期,就是指標類樹立標準所必須的。相關的管理屬性,包括標準本身的版本、標準的建立日期,還有標準的管理部門等。下面是主資料和參考資料的資料標準舉例,比如北京、上海、廣州,它所屬的省份的簡稱可以對它進行定義為對應的中文名稱的拼音第一個字母,城市的類別把它定義為一線城市、二線城市。這個是對所有的主資料當中的欄位的一個描述,也就是後設資料。這是指標的梳理標準。下面有一個具體的例子,比如撥備覆蓋率就是指標的名稱,把它歸類為基本屬性,然後對指標的業務含義進行定義,指的就是貸款損失準備對不良貸款的一個比率。指標的型別屬於比率類。從技術角度來看,它在底層佔有的長度是 8,精度是 4。管理屬性就是它的第一部門是誰,這個指標的版本是多少號。對於指標的資料標準,要從下面的 5 個角度去考量它,需要能夠比較準確地去表達業務含義。指標必須要有非常可信的來源,所以來源也是重要的考量指標可信度的維度。下面看下資料標準的成熟度評估,第一個是資料標準有沒有被完全解讀,大家有沒有充分的理解?標準本身夠不夠完整,夠不夠清晰?標準在組織內部的釋出還有傳播有沒有到位,有沒有貫徹,標準的管理變更流程夠不夠全面,執行是不是夠徹底?我們可以從這幾個角度去看一個企業內部的標準當前建設的成熟度到了什麼樣的程度。資料質量指的是在特定的業務環境下,資料滿足業務執行、管理與決策的程度,是保障資料應用效果的一個基礎。資料質量管理指的是運用相關的技術來衡量、提高和確保資料質量的規劃、實施與控制的一系列活動。所以從這裡面可以看出資料質量也是一個非常龐大的系統工程。資料質量真正要去落地的時候,有以下幾點需要注意:(1)真正去落地是需要和具體的企業當中的經營管理痛點相結合,需要企業內部的 IT 資料團隊和業務團隊一起解決問題。(2)PDCA 的迴圈要做起來,走通一個閉環之後,後面要持續去迭代。(3)不能夠期望僅僅依靠一個工具或者多個工具就能夠解決資料質量的問題,它只能夠解決一部分的通用問題。資料質量的考量維度有很多分法,最重要的一個就是資料的真實性,它必須真實地去表達客觀實體或者真實的業務。其次還有準確性或者叫可靠性,它適用於分析和識別那些不準確無效資料的一些方法。唯一性就需要我們去識別,還有度量重複資料,去掉冗餘的資料,重複的資料會導致業務很難協同。還有資料的完整性,如果說模型設計不完整,那資料會有很多缺失或者很難使用。一致性其實是現在資料質量建設的重點,因為內部的多源系統,它的資料模型不統一,那它代表的各種約束也不一致,實體代表的含義也不一致。資料的關聯性指的是比如有主外間關係,那兩者的分析結果也會有對應的關聯,然後及時性也是現在大家比較關心的資料質量的問題,實時地能夠去反映我們的業務的狀況,然後對應的快速決策實現在企業的一個非常重要的競爭力。資料質量出現問題的原因非常多。從技術角度來看,有可能會出現資料的不完整。資料來源本身如果沒有做質量的控制,資料就會比較雜亂。還有采集的過程當中,如果對於採集資料的定義沒有理清楚,採集的資料可能和我們想要的不太一樣,傳輸過程當中可能會有網路閃斷,或者中間出現傳輸問題,資料有可能會丟失。在業務方面最大的問題是業務團隊和資料團隊交流的時候,對於需求沒有互相對齊,或者需求不太明確,理解不一致。另外需求變更很頻繁也會導致質量問題。在管理方面最大的難題是缺少管理的機構和目標機制。下面舉個例子,比較適合於大型集團。制度規範有資料質量管理的規範,管理的辦法有考核辦法,有事中的監控管理、事後的處理、事前的防範等相應的方法。技術的規範和模板包括資料質量的檢查規則。資料質量的考量維度可以根據不同的需求去評估,最重要的是我們能夠去解決具體的經營管理的問題,從這個導向來出發,把它轉變成對於資料的需求,從解決具體的某一個小問題出發去形成一個閉環。如果資料質量的管控想要真正落地的話,KPI 績效是一個非常重要的點。下面舉一個例子是如何去評估資料質量管理的牽頭團隊,可以把它分成兩個方向。質量問題本身可以有如下的這個角度,第一個是問題的個數、影響的範圍和嚴重的程度,考核物件可以是問題的個數,考核物件就是資料管理團隊的這個負責人。質量問題的處理可以根據問題的及時性來進行評估,可以從事後治理、事中監控還有事前防範三個方面進行管理。歷史資料是大多數企業進行資料質量專案的第一步,資料質量的事後治理可以從這個問題的發起,發現問題提交給相關方,然後制定解決問題的規則,去思考問題出現的基本原因和相關的影響範圍,最後制定出相關的方案進行實施。事中監控最好是透過工具來執行,它的輸入是根據過往經驗得到的梳理標準和業務的需求,把它轉變成 PDCA 自動化的流程,對應的標準轉變成資料質量的監控規則,在工具中進行配置落地,並進行實時的執行,最終輸出資料質量報告。事前防範是最難的一項,它是為了總結業務需求,編成經過思考的一些模板。對於資料質量解決效果的評估可以從四個方面進行評估,第一個是管理流程是不是夠完善,相應的組織夠不夠健全。第二個是質量規則的落地和識別。 當我們去管理資料標準和資料質量時,對應的組織保障把它分成了 3 個類別,分別適用於不同的機構。第一種是集中式的,它的特點是資料管理的負責人和資料管理團隊是專職的、永久的,他們對所有資料的產生、演變、維護進行集中式的管控。這一種管控方式的優勢是它有一個強有力的資料管理的專業組織,負責企業級的資料管理,職責明確,目標清晰。組織是固定的,組織內可以做專業化的分工,整個彙報條線清晰,自上而下的執行具有驅動力。他的問題是對於資料管理人員的能力要求非常高,整個組織比較龐大,成本也比較高,其他部門可能沒有資料管理的能力,所以需要跨部門的溝通,成本比較高,對協作的要求也比較高。因為比較集中,所以容易僵化,會影響工作效率,所以這個集中式的方式非常適合於集團企業,比如大型的央企、大型的集團。第二種是聯邦方式,它的特點是在總部設立一個資料管理的負責人,對資料管理整體的活動進行協調管控,在各個業務單元設立專門的組織或者角色,他負責業務領域的資料管理工作。整個組織的成員可以是專人專崗,也可以是兼職。它的優勢是資料管理和業務管理可以更好地融合,可以根據職責的需要設定崗位,執行效率比較高,同時它能夠比較好地實現橫向的協調和拉通。另外就是專業化的分工也具備,所以有助於團隊對應的能力的提升。它的挑戰是縱向需要加強組織影響力,還有協調能力,驅動企業資料管理的工作。還有一個挑戰是資料管控的力度相對於集中式會弱一些,所以需要透過其他手段,比如評價進行監督。第三種是分散式的,它的特點是不存在一個企業級的資料管理負責人,資料相關的活動分散在各個部門,它的成員也是以監管為主,它的優勢是每個業務單元能夠比較好地去理解自己的業務,每個業務單元容易在單個的業務領域上和系統上實現資料管理的工作。另外在應用需求的基礎上樹立的問題可以在單部門中快速被解決,所以一般服務滿意度會相對比較高。挑戰是缺乏一個企業級的管理視角,跨業務部門的協作會比較困難。所以對於聯邦式比較適合於大部分的中小企業。這個是對於集中式管理的組織保障的拆解,首先應該有個決策組織,這決策組織可以是資料治理的委員會,然後在下面去做管理的應該有一個資料治理的辦公室。對於每一個職能域都有對應的負責人,在每個業務單元有對應的資料的責任人,在 IT 層面也有對應的比較明細的分工,去解決我們梳理當中出現的問題。接下來分享第二部分是資料標準和資料質量相關的工具。首先去採集資料標準內部的資訊模型,還有標準相關的文件,把它轉變成標準管理系統中的一些內容。然後標準當中有些內容可以轉變成質量中的檢查規則,有些業務需求也可以變成資料質量監控規則。他們會不斷呼叫統一的後設資料管理內容去進行檢查。這是系統管理資料元的演示。對於資料元可以去約束它的名稱、狀態、型別、資料格式、來源、關係等,這個標準可以對映到具體的表中欄位進行稽核處理。對於結構化資料標準比較好理解,那非結化資料標準有哪些方法進行管理?第一種方法是在業務場景中進行治理,海量的非結構化資料治理的成本非常高,所以必須在業務流程當中識別出其中業務價值比較大的資料進行治理,獲取最大的投資回報。在業務場景當中提煉出關鍵資料和客戶現在系統中的資料進行融合,透過資料服務的方式供業務去呼叫。第二種它是把非結構化資料轉變成結構化資料,用結構化的資料進行管理。第三種是對映結構化的後設資料,簡化後設資料模型。第四種方法是構建一個非結構化資料資產體系,把資料融合到資料資產管理當中,透過對廢棄化資料資產進行智慧化的標籤識別管理。資料標準的對映在承接資料標準之後,很容易把它對映到具體的資料項當中。在過往的很多資料類的專案當中,很多企業都進行過資料質量的相關管控,其中的重點是能夠把 PDCA 的整個閉環做好,從需求開始到最終形成規則去檢查,然後自動化地去排程執行,形成對應的知識庫。另外管理標準和質量現在比較火的一個方向是主動的資料治理,首先在資料進入的時候,可以自動把資料標準和具體的資料做關聯,這個標準可以和建立資料模型的對應的資料項關聯起來,之後在資料開發過程當中可以去執行,執行完之後在生產排程過程當中產生的新的資料,對應的標準規則會自動執行對它進行評估。另外一個能夠提升標準和質量的比較新的一個方式是提供企業級的資料目錄,透過資料目錄形成資料資產的整個的詳細清單,清單的底層依賴後設資料去管理資料,它可以幫助分析師、科學家還有工程師快速找到他需要的資料。
第三部分是典型案例。客戶本身期望能夠做到資料資產化,資料能夠大集中,能夠統一的儲存和計算,能夠有一套先進的資料架構,能夠有統一的規範打通各個業務單元,使用的時候能夠進行資料化的運營,能夠快速地讓資料為業務所用。整個專案分成幾個階段。首先是滿足業務使用者的需要,對應的是需要資料模型自助地讓業務去使用,同時有資料標準能夠去規範資料本身。主資料對應的內容能夠讓業務人員快速使用,並且業務之間、業務系統之間主資料能夠打通,形成統一的標準。在這個專案當中我們為客戶做的事情是構建了資料治理體系。 第二個典型案例是資料質量的提升專案。客戶要求是希望能夠讓資料可知、可管、可視,希望能夠提升資料質量監控規則覆蓋的業務領域,實現覆蓋各類營銷等業務系統,讓集團知道資料質量的情況,有系統進行自動化的檢查,資料質量對應的指標能夠可以及時感知,資料指標本身能夠洞察業務驅動資料價值的變現。我們細分之後會發現可以分成這麼幾類,第一個是對於單表質量的檢測,這是針對 Hive code、 Oracle 等資料來源型別的資料質量的監控。第二個是對流式資料質量的檢測,針對 Kafka 型別的資料進行檢查。第三個希望能夠進行多表的資料比對分析,能夠設定各種規則。第四個能夠進行資料指標的分析。第五個是質量的規則能夠關聯內建的客戶已有模板,能夠自定義 SQL 的規則。最後是能夠進行質量規則的合規校驗,可以透過固定的閾值週期性統計波動的方式來判定目標是不是合規。我們提供的資料質量的監控工具,可以提供多表的對比,所以可以針對這個源表和目標表的記錄條數,還有具體的資料進行比對,可以及時告警發現問題。第二個具體的問題是資料質量問題的紅綠燈機制,它的場景是每天都會進行任務的加工過程,當中可能會出現資料異常,比如異常如果影響業務的話,希望能夠阻斷並告知相關的責任人。同時這個問題的處理希望能夠指派給不同等級的工單,給不同崗位的人去處理,面對這樣的需求,首先我們的工具裡面可以設定強弱規則,工單系統可以設定不同的規則,給不同的人進行處理。問答環節
A1:我覺得有好幾個層面,第一個是純粹技術層面的評估,技術層面的評估可以去看,比如在這個工具上有了資料質量的一些要求,這個要求在我們檢查實現的時候,實現的程度是不是滿足了業務的需要?第二個是現在圖中展示的,就是當一個企業從組織層面想看一下資料質量的整個執行怎麼樣?那它不僅僅是包括技術內容本身,它還包含資料質量的整個管理有沒有執行到位。A2:是屬於的,我們可以看一下前面的資料治理的理論框架,就是資料標準,它是一個典型的大詞,和建模相關、和架構相關、和質量相關。當我們去看廣義的資料標準的時候,它有一些和資料治理相似的地方,比如它會要求組織保障上有對應的人員,然後還有制度流程有沒有對應的規範。那資料模型其實當我們把它拆解開來的時候,會發現這個模型裡面,比如主資料的,還有因為模型這個概念比較大,主資料本身是資料標準管理的一個範疇,那主資料管理我們對它還會有標準的要求。A3:資料標準這邊有一個分類,如果是一個廣義的資料標準的話,會包含很多方面。但是我們看到我們去討論細而微的事情的時候,資料標準可以看裡面的分類包含我們要對業務資料進行資料標準的管理,對主資料、參考資料還有指標進行資料標準的管理。Q4:如何對歷史留存的建模或者指標進行統一的梳理標準?A4:剛才我們去講資料質量的時候,有一個事後管控,就是對存量資料進行資料標準的管理,最佳的實踐根據我們過往的經驗,其實是我們先選擇。首先我們應該有一個對應的經營管理當中的痛點,以這個痛點為抓手,然後我們去尋找這個資料所屬的那個主題域,我們可以拿一個小小的主題域作為其中的一個試點,那這樣一種方式是相對而言比較容易落地的方式。Q5:在啟動資料治理專案後如何解決甲方資訊部門無法協調各業務部門,導致各類組織架構流程無法落地,只能停留在紙面上的問題?對乙方來說,如果要陪甲方無限度的持續治理,那專案的週期和成本如何處理?A5:這個問題是作為乙方經常遇到的很常見的問題,我個人的建議最好的解決方式還是甲方自己需要有一個組織的保障。我前面有一部分就是講我們的對於資料標準和資料質量,如果要落地的話,組織保障相應的一些類別,我覺得可以參考這裡面的內容。首先組織保障是第一位的,是最重要的,那有了這個組織保障我們要選擇,如果說是那種特別大的企業的話,其實需要有個強有力的資料治理的部門,他們需要有非常高的權威去推動這件事情執行落地。然後如果是相對中小型的話,可以選擇聯邦的這種方式。對於乙方如果要陪甲方無限度地持續治理專案的週期和成本如何處理?這個問題比較難以回答,我覺得最關鍵的其實是把我們的資料治理的範圍確定好,甲方是做無限期的持續資料治理的時候,如果出現這樣的問題,那是不是我們在做這個專案的前期沒有把這個邊界梳理得足夠清楚?然後它應該是分階段的,然後資料治理應該伴隨著一個企業的整個生命週期,所以每個階段只能做每個階段的事情,我覺得最關鍵應該是把我們的整個的每個專案的這個邊界理清楚。Q6:後續如果因為業務的變更,資料的口徑需要更改,是否可以低程式碼完成維護操作?A6:像這類問題的話其實是可以解決,有一類工具它可以做到資料指標的視覺化的管理。然後在這個資料指標的定義過程當中去設定口徑的時候,如果說需要更改,那可以在這類工具上進行更改,更改之後他會把所有歷史資料進行一個重算,透過這種方式就可以實現低程式碼的方式完成工作。Q7:從整個資料治理的理論,所謂治理的工作無法界定工作邊界,比如一個系統有 1000 張表,對其中關鍵表做資料質量的治理,或者對所有表進行治理,其工作量是完全不同的。而一個專案的預算是有邊界的,如何去界定資料的專案在界定資料治理範圍後,如何在專案結束時給需求方展示資料治理的實際價值?A7:您問的這個問題非常好,治理一張表和千張表確實工作量是完全不一樣的,所以我們真正去落地資料治理專案的時候,需要在確定邊界的時候,最好的一個邊界的點就是如何給需求方展示資料治理的這個價值。所以我們去啟動一個資料治理的專案,第一個就是要找到這個經營管理當中的痛點,可以尋找其中的一個主題域,甚至說找到一個主題域當中的一部分的關心的業務問題,先解決這一部分資料的這個問題。所以這個是一個關鍵,就是我們從主題域的角度出發這個資料這個專案,還有要解決這個具體的經營管理當中的一些痛點問題。A8:管理的效果的話,這邊有一個給大家的一個示例可以看一下,比如我們去評估這個資料質量的管理效果的話,這四個維度偏向於管理維度,那我們可以增加一個維度,就是資料質量真正解決了問題業務問題的不是業務痛點的個數,所以這些結合起來的話就可以去評估管理的效果。A9:我覺得資料標準和資料質量最關鍵的點可能不是技術壁壘,最關鍵點應該是我們經營管理當中對於標準和質量的一個要求,找到這個突破點。然後另外的關鍵就是對應的執行過程當中要把它形成一個閉環,那這個閉環其中對標準和質量的這個工具會有大量的這個定製化的一個要求。那這個定製化的要求怎麼實現?我覺得可能是一個甲方企業需要去考慮的問題,因為它牽扯到供應商提供的一定是一個標準化的工具,所以我們這個甲方企業如何去把這一些我們的個性化的一些規則變成通用工具,在上面可以運轉的這個規則儘量覆蓋質量的問題。我覺得是我們這資料標準和資料量這兩個主題最關鍵需要解決的問題。Q10:後設資料能否自動抽取和管理?
A10:其實這個是可以的,就是所有的資料的整合工具要能夠從源端去抽取資料,首先要識別它的源資料,所以後設資料本身也是可以使用同類的工具去識別、抽取和管理的。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027824/viewspace-2950605/,如需轉載,請註明出處,否則將追究法律責任。