如何精準識別主資料?
彭友們好,我是老彭啊。最近有彭友跟我欲言又止,吞吞吐吐不知道要幹啥。我明白,他是有問題了。
繞了半天,他才問:怎麼才能精準識別主資料呢?
我一看這個問法,肯定是遇到難題了,可不能用主資料的定義、什麼N大特性糊弄過去了。
01 主資料
DMBOK裡的定義是這樣嬸兒的:
主資料是有關業務實體(如僱員、客戶、產品、金融結構、資產和 位置等)的資料,這些實體為業務交易和分析提供了語境資訊。實體是客觀世界的物件(人、組織、地方或事物等)。實體被實體、例項以資料/記錄的方式表示。
發現沒有?主資料和實體有關係喲~~~所以主資料其實跟模型關係是很緊密的。
其實理解主資料很簡單,我之前就寫過一篇文章專門解釋這個東東:【戳這裡檢視:主資料又是啥東東?應該怎麼建?】
簡單來說,就是核心業務中,非數值的關鍵資料。這個理解不精準,但是容易理解。
不過這哥們的問題,顯然不是這篇文章能解決的,因為他肯定是在進行主資料識別的時候遇到模稜兩可的內容,無法進行區分了。
02 主資料識別
想要確認兩個內容是否是主資料,就得從主資料的定義入手,從主資料特徵入手。
當然,也有一些偏門的手法可以輔助識別。
石秀峰石老師在他的書《一本書講透資料治理》裡寫了兩個方法:
1、主資料特徵識別法
2、業務影響和共享程度分析矩陣法
主資料特徵識別法顧名思義,就是對著主資料的特徵比劃一下就行了:
我們看看這些資料是否有以上特徵,如果都有,那麼是。如果缺一兩個,可以考慮考慮。
一般可列為6個問題:
1、是否體現業務核心價值?這一點非常非常重要!(客戶資訊肯定是,但是配送地址所在省份就不是核心價值資料了)
2、是否是獨立的實體?(商品是獨立不可拆分的實體,但是臨期商品則不是)
3、是否相對穩定?(之所以加上相對,就是某些主資料是會變的,比如客戶資訊)
4、是否會在其他系統共享?(如果只是單個系統使用,即便是核心價值的,一般也不會列為主資料)
5、是否具有唯一性?(如果這個資料不強制唯一,全域性可能重複,那麼可以踢出去了)
6、是否長期有效?(如果是短期使用,一般不作為主資料。但是這個長期短期和業務有關,比如網際網路的訂單和造船廠的訂單時效性就不一樣,前者半個月後大概率就無了,後者一般都持續好幾年)
至於業務共享矩陣法,其實就是看這個資料的重要程度和共享程度:
按照重要程度和共享程度一分,優先順序別自然就出來了。至於那些又不重要又不共享的,自然就排除在外了。
03 區分難題
雖然已經有方法了,但是有些時候遇到不熟悉的業務,還是會蒙圈。一般容易搞混淆的是參考資料和主資料。
因為參考資料有很多特徵和主資料非常類似,比如也是長期有效、跨系統共享、也很重要(價值不一定高)、非常穩定、全域性唯一等。
一些大家熟知的還行,但是一旦跟業務掛鉤,如果你不懂業務,幾乎就沒辦法與主資料拆分開。
DMBOK裡提出了二者管理重點的區別:
對於參考資料和主資料,管理的重點是不同的:
1)參考資料管理(Reference Data Management,RDM)。需要對定義的域值及其定義進行控制。參考資料管理的目標是確保組織能夠訪問每個概念的一整套準確且最新的值。
2)主資料管理(Master Data Management,MDM)。需要對主資料的值和識別符號進行控制,以便能夠跨系統地、一致地使用核心業務實體中最準確、最及時的資料。主資料管理的目標包括確保當前值的準確性和可用性,同時降低由那些不明確的識別符號所引發的相關風險(那些 被識別為具有多個例項的實體和那些涉及多個實體的例項)。
至於如何區分二者,除了分清楚資料價值之外,還有一個比較取巧的方式:看錶欄位多寡和資料量。
一般來說,參考資料的資料集通常會比交易資料集或主資料集小,複雜程度低,擁有的列和行也更少。
所以如果你看到一個3列的資料表,無法區分這是主資料還是參考資料,那麼盲猜一波參考資料準沒錯~~~
當然,更重要的區分,還是看其價值,就是參與到核心業務的程度和價值。以及該資料是否完成“識別和管理來自不同系統和流程的資料之間的關聯關係”。
參考資料會在核心流程裡體現,比如配送地址所在省份,但是程度比較低,價值也不是特別大,丟失了甚至都沒太大關係(可以通過其他資料推出來)。
而且,該資料也無需識別和管理不停系統和流程的資料之間的關聯關係。所以,列為參考資料是沒問題的。
04 小結
主資料很容易與參考資料混淆。
區分方式有很多種,常規方法有兩個:
1、主資料特徵識別法
2、業務影響和共享程度分析矩陣法
非常規方法有很多:
1、管理重心區分法
2、欄位、資料量判斷法
3、不同系統資料關聯法
4、經驗判斷法
來自 “ 大資料架構師 ”, 原文作者:彭文華;原文連結:https://mp.weixin.qq.com/s/4hked3oEfIQ3Di_nSWaWEQ,如有侵權,請聯絡管理員刪除。
相關文章
- 如何精準實現OCR文字識別?
- OCR:精準、穩定、易用的文字識別
- 智慧影片分析ai影像精準智慧識別AI
- 精準識別!精確定位!AI助力幹細胞培養AI
- 如何精簡企業主資料“裹腳布”
- 資料識別有什麼價值?CRM如何識別?
- 如何進行精準人體關鍵點檢測,識別人體動作?
- 如何實現上億級資料的精準計數?
- 企業如何利用資料打造精準使用者畫像?
- 資料分析 | 基於智慧標籤,精準管理資料
- 金融行業如何利用資料來源實現精準營銷?行業
- go資料型別識別Go資料型別
- 跳過大資料精準實時推薦大資料
- 車牌識別資料
- SACC2018:教您如何實現大資料分析與精準推薦大資料
- 精準、智慧、高效:AI平臺如何提升醫療資料處理效率50%AI
- Tesseract-OCR如何得到更準確的中文識別
- 如何精準查詢日誌
- 如何構建自定義人臉識別資料集
- 靈玖軟體:KGB知識圖譜技術是大資料精準挖掘新引擎大資料
- Java資料型別、識別符號Java資料型別符號
- 如何識別危險的AI演算法及建立遵循我們道德準則的大資料模型AI演算法大資料模型
- 愛奇藝“多模態人物識別競賽”收官,多模態影片人物識別精準度提升至91.14%
- Python標準資料型別-數字Python資料型別
- 三、資料型別初識資料型別
- 聯通/電信/移動/大資料精準抓取到底精不精準,我來告訴你實際內幕大資料
- 資料重整:用Java實現精準Excel資料排序的實用策略JavaExcel排序
- 愛奇藝“多模態人物識別競賽”收官,多模態視訊人物識別精準度提升至91.14%
- 如何拿到高薪資料分析師offer?從精準解讀一篇招聘資訊開始!高薪
- 大資料下的運營利器:精準推送系統大資料
- IPIDEA助力Python爬蟲精準分析市場大資料IdeaPython爬蟲大資料
- 華為雲大資料BI解決方案,如何幫助企業精準營銷大資料
- 餐飲行業如何精準拓客?行業
- 關鍵字、資料型別、識別符號資料型別符號
- 基於bert架構的精準知識表徵模型架構模型
- 資料海洋的精準探測器,杉巖推出MOS Explorer
- BlueHost主機支援哪些資料庫型別?資料庫型別
- CDGA|主資料管理如何實施?