從資產角度看待資料治理

陶然陶然發表於2022-11-01

   引言

  眾所周知,我們已經進入大資料時代,隨著資料量的不斷膨脹和爆炸,讓我們看到“智慧社會”曙光的同時,也遇到了資料的大量無序擴張、資料無法有效管理和觸達等難題,並最終導致大量重複建設、資料“黑盒化”嚴重和無分級帶來的安全隱患。  

  基於上面越來越顯現的負面效應和公司資料增量的“一日千里”,如何對大資料進行有效治理,運用科學手段,藉助IT工具將治理流程產品化、體系化顯得非常迫切。本文將嘗試從商業和產品而非純技術角度回答這一命題。

   為什麼要進行資料治理

  首先,回到問題的本身,我們為什麼要進行資料治理工作?回答之前首先需理清楚一個問題,即:我們所進行的資料治理工作到底帶來了什麼樣的收益,且該收益可以從商業角度進行邏輯闡述,而並不僅僅停留在技術層面的“炫技”。搞清楚了最終的目標,我們才能透過技術手段真正實現可度量、可持續的正向收益。

  由此看來,我們需要藉助商業化思維來協助我們梳理下思路和方向。那麼問題來了,在紛繁複雜的商業表象和複雜的運營邏輯之下,有沒有一個更加本質且簡潔的法則在驅使一家公司永續前行?如果你看過《窮爸爸和富爸爸》,本書作者透過大量的故事試圖告訴你一個非常簡潔的致富途徑,一言以蔽之,投資資產,減少負債。換句話說增加“淨資產(Net Asset)”。

  那麼個人如此,公司亦如此。我相信所有偉大公司所做的所有戰略規劃,最終都是為了實現“投資資產,減少負債”或增加“淨資產(Net Asset)”的終極目標。但是截止到目前,所有上市公司的財報並沒有將企業資料作為資產負債表裡的一項單獨的量化科目對外進行釋出,可見業界並沒有達成統一的標準。

  接下來我將嘗試把此概念引入到資料治理中,從如下幾方面分別分享個人見解:

   後設資料

  什麼是後設資料?即關於資料的資料。雖然並不是資料本身,但作為盛放資料的“容器”,是對資料本身及背景的描述,讓資料本身可以被人高效、準確地理解。根據後設資料型別不同可以做如下分類:  

  • 業務性後設資料:從業務實際運營的角度對資料進行描述,包含資料裡的各個元素在實際業務場景中所代表的含義,是構建資料和商業之間關聯的最重要橋樑;

  • 技術性後設資料:資料本身是需要有載體的,古代用卷軸或紙張。進入資訊時代我們的載體主要以電子化的裝置為主,而這些載體本身作為服務於資料的物理或數字實體也需要進行記錄和描述,構建資料和技術的關係;

  以上兩種後設資料統稱為“直接類後設資料”,這類資料主要作用是對資料本身的一種直接描述和解釋,幫助將毫無意義的資料轉化為資訊;

  • 管理性後設資料:對資料的管理資訊、相關歸屬及不同領域劃分的描述;

  • 安全性後設資料:對資料的安全分級資訊以及對應的安全等級管控口徑規則的描述;

  • 使用性後設資料:提供對資料使用資訊的描述,使用性後設資料可以進一步細分為:

  • 程式使用性後設資料:包含其他程式對於此程式的自動化的使用;

  • 使用者實用性後設資料:包含使用者對於此資料物件的查詢/引用量,使用日期等;

  以上三種後設資料統稱為“間接類後設資料”,這類資料主要作用是介紹資料物件和其他物件之間的關係,或者涉及到資料物件的背景或者周邊的關聯資訊;

  以上是對後設資料本身建設時需要考慮的各方面問題。那麼如果站在“資產”的角度對後設資料進行資料治理呢?

  我們知道資料量一旦達到海量,維護和管理資料本身將變得尤為重要。如果把資料比喻成21世紀的數字能源的話,那麼如何勘探到石油,如何快速找到所需要的石油就顯得尤為重要。如果後設資料的資訊越豐富、分類越細,對於資料物件描述越完備就能節約大量的檢索成本,提升資料的整潔和規範性。如同家裡的衣櫃,比起亂七八糟的堆放,整潔有序且分門別類的收納能幫助人快速找到所需要的的資料,從而提升資料的利用效率,快速找到所需要的“石油”。

  小結: 後設資料的維護越細、資訊越全越有利於找到有價值的資料,降低利用成本,從資產角度來說就是能快速拿到有價值的資產,擴充和提升資料資產的使用率和週轉率。

   資料質量

  資料質量作為對資料物件的品質進行管控和規範,做到事前規範和流程建立,事中品質管控,事後問題覆盤和改進,形成一個對資料質量全流程PDCA的流程閉環。  

  業界六大標準:  

  資料質量是對資料這個能源進行提純的過程,需要從不同的技術維度以及不同的業務應用場景進行監控規則的配置,一個資料只有把資料裡面的“噪音”和“糟粕”去掉後,才能成為真正意義上合格的資產。

  資料質量檢查規則有如下型別:

  • 空值校驗:用於檢查欄位是否為空

  • 值域檢查:用於檢查關鍵指標取數範圍

  • 規範檢查:用於檢查一個關鍵欄位的欄位型別和長度是否規範

  • 邏輯檢查:多個指標的邏輯檢查

  • 重複資料檢查:檢查一張表內的重複資料

  • 及時性檢查:用於檢查資料上報的及時性

  • 記錄完整性檢查:用於檢查資料記錄的完整性

  • 引用完整性檢查:用於檢查資料記錄的完整性

  • 離群值檢查:用於檢查資料中一個或幾個數值與其他數值相比差異較大

  • 波動檢查:檢查資料的波動範圍

  • 平衡性檢查:使用者檢查資料是否在允許範圍內

  越是能儘量早的發現資料質量產生的問題,將使得後續資料恢復所投入的成本及時效極大地降低,並且能逐步提高上游資料“原料”的質量,杜絕事故產生的土壤。

  對於提升資料質量要從兩個方面著手:

  • 第 一、規範機制的建立,引入SOP,構建虛擬的資料質量委員會組織架構;

  • 第 二、構建資料質量系統化平臺,透過產品化、平臺化的方法解決問題;  

  小結:資料質量的治理和管控是一個體系化的過程,既可以藉助產品工具解決部分問題,也需要從整個組織上建立一系列機制,從上到下進行資料質量的治理工作。從資產角度來看是一個對資料資產進行加工和提純的過程,能夠避免一些“負資產”的混入,持續提升並維持資料資產的純度;

   資料生命週期

  在實物資產裡,隨著時間的推移會有折舊,這在會計學裡面專門有專業的方法去度量。作為資料資產來說雖然沒有折舊,但我們有一個假設,即:隨著時間的推移,資料的有效性價值會流失。具體會體現在資產的利用率上。時間越早的資料資產被訪問或呼叫最終生產成資料產品的機率就越低。由此我們引入資料生命週期的概念。  

  對於到期的的資料資產,我們會進行軟刪除,且關注的使用者也會被通知和觸達;經過一個確認視窗期後,如果使用者沒有進一步的召回操作,則該資料資產會被徹底進行物理刪除。

  小結: 資料生命週期作為衡量資料資產的有效價值的重要手段,對於資產的“保鮮度”的度量,當生命週期終結後則該資料資產會被清理,最終做到在資源成本和資料有效性上進行平衡;

   資料安全

  如果把大資料作為一項公司不可或缺的核心資產,那麼如何守護這項資產的安全底線將顯得尤為重要。針對資料安全主要分為兩類;

  • 資料丟失安全風險:資料或因為外界災害或是人為操作原因導致資料丟失;

  • 資料洩露安全風險:敏感或隱私資料洩露風險;

  解決資料丟失安全風險,主要思路就是“雞蛋不放一個籃子”,主要用到核心資料冗餘,跨雲災備,多中心災備等手段;安全作為資料資產的紅線需要我們格外重視,但由於本文主要介紹的是資料治理方面的內容,所以這裡不做詳述。

   結尾

  資料治理作為資料資產的一項複雜的治理工程,在各個公司最近十多年的大資料積累中已經達到了一個不得不進行管控和治理的閾值上限,可以預見資料治理作為資料資產乃至公司降本增效一個重要的手段會在不久將來顯得越來越重要。

來自 “ 貨拉拉技術 ”, 原文作者:大資料技術團隊;原文連結:http://server.it168.com/a2022/1028/6770/000006770838.shtml,如有侵權,請聯絡管理員刪除。

相關文章