資料治理之資料梳理與建模

十一vs十一發表於2024-04-25

一、什麼是資料模型
二、資料模型的型別
概念模型
概念模型的3個基本要素
概念模型的用途
邏輯模型
邏輯模型的特徵
邏輯模型的用途
物理模型
物理模型特徵
物理模型用途
三、什麼是資料梳理
資料梳理兩種流程
自上而下梳理
資料域梳理
資料主題梳理
資料實體梳理
設計資料模型
優缺點
自下而上梳理
需求分析
展現
分析邏輯
資料建模
優缺點
四、資料建模技術和方法
ER模型
五、資料建模與資料治理
資料模型和資料治理的關係
資料模型VS後設資料
資料模型VS主資料
資料模型VS資料質量
資料模型VS資料標準
資料模型VS資料安全
資料模型VS資料倉儲
資料模型VS資料整合
資料模型VS資料操作
資料模型管理存在的問題及解決辦法
資料模型變更隨意
輔助性工具缺失
資料模型共享不及時
一、什麼是資料模型
概念:根據DAMA-DMBOK2的描述, 資料模型是一組反映資料需求和設計的資料規範與相關圖示 。

舉例:買房時看到樓盤模型,模型對應實際房子的戶型、綠化、周圍設定等。
就像房子模型是對房子特徵的描述一樣, 資料模型就是對資料特徵的描述。 換句話說, 資料模型就是用來描述資料的一組簡單易懂、 便於計算機實現的標準符號的集合。

二、資料模型的型別
概念模型
概念:概念模型也叫業務模型, 是對業務實體、 業務操作、 操作規則的整體描述, 從全域性上、 宏觀上介紹業務設計的思路、 範圍和內容。 概念模型的目的是組織、 審視和定義業務實體和規則, 它通常由業務人員和資料架構師建立。

概念模型是用來定義業務概念及其關係的,比如CRM系統中的客戶、產品、供應商、合同等模型,概念模型側重於業務邏輯,重點描述業務物件之間的關係,比如:客戶下訂單,訂單關聯產品等之間的關係。

概念模型的3個基本要素
實體:現實世界中的事物
屬性:實體的特徵或屬性
關係:兩個實體之間的關聯關係
舉例:客戶屬於實體,客戶的名稱、聯絡方式、工作地址、公司名稱等屬於客戶屬性;商品屬於實體,商品名稱、商品品類、商品價格屬於商品屬性,客戶購買商品就表示客戶實體和商品實體之間的關係。


概念模型的用途
概念模型是圈定建模範圍、 劃分建設主題、 理清主要業務關係、 構造邏輯資料模型的框架。
**在資料治理規劃中, 概念模型經常用來做資料治理主題的規劃, 梳理業務物件和業務物件之間的關聯關係。 **
舉例:下圖是企業中概念模型的用途


邏輯模型
:::info
概念:邏輯模型是對概念模型的具體化, 它根據概念模型, 設計資料實體和資料屬性, 著重於系統的邏輯實現, 不考慮物理屬性。 該模型的目的是開發規則和資料結構的技術地圖, 它通常由資料架構師和業務分析師建立 。
:::
邏輯模型是關於企業需求資訊的完整模型, 包含資料實體和資料實體間的關係、 屬性、 定義、 描述和範例等。 邏輯模型側重系統實現, 可能會將多個實體歸併為一個通用的物件來表現, 以確保系統的簡潔性。

邏輯模型的特徵
與概念模型相比, 邏輯模型增加了對資料元素和結構的定義, 並給出了每個資料元素的資料型別和欄位長度等。 除此之外, 邏輯模型的設計通常需要遵循資料庫的第三正規化, 滿足資料庫系統的設計標準。 但邏輯模型是獨立於資料庫系統設計的, 到這一步還無法直接用於資料庫的開發。
舉例:下圖是客戶和商品物理模型,物理模型相對於概念模型增加了屬性及其型別


邏輯模型的用途
邏輯模型能直接反映出業務部門的需求, 同時對系統的物理實施有著重要的指導作用, 它的作用在於透過實體和關係勾勒出企業的資料藍圖。 邏輯模型的設計目標是設計企業資料藍圖, 指導系統的建設; 邏輯模型採用業務語言設計, 是業務人員與技術人員之間溝通的手段和工具。

物理模型
概念:物理模型描述資料庫中資料模型的具體實現, 其中包括邏輯模型中各種實體表的具體化, 如表的資料結構型別、 索引、 資料存放位置和資料儲存資源分配等。 該模型描述如何使用特定的資料庫系統實現業務,目的是實現資料存取, 它通常由DBA和開發人員建立 。

物理模型提供了資料庫的抽象, 具有豐富的後設資料, 有助於生成視覺化的資料庫結構, 有助於對資料庫列鍵、 約束、 索引、 觸發器以及其他DBMS功能進行建模。
舉例:


物理模型特徵
與邏輯模型相比, 物理模型包含了表之間的關係(主外來鍵關係、 索引等) , 所涉及資料元素的列都分配的是具體的資料型別、長度、 預設值、 欄位約束、 訪問配置檔案和授權等。

物理模型用途
物理模型的作用是指定如何用資料庫模式來實現邏輯模型, 以真正儲存資料。 良好的物理模型設計能夠節省資料儲存空間, 保證資料的完整性, 並且方便進行資料庫應用系統的開發。
舉例:下圖是邏輯模型到物理模型的示例

三、什麼是資料梳理
:::info
所謂“資料梳理”即對企業資料資產的梳理。 透過對資料進行梳理, 可以知道企業到底有哪些資料, 這些資料存在哪裡, 資料的質量如何。 資料梳理能夠幫助我們對企業資料資產進行摸底, 為下一步的資料建模提供支撐。
:::

資料梳理兩種流程
常用的資料梳理方法主要有兩種: 自上而下的資料梳理和自下而上的資料梳理。

自上而下梳理
自上而下的資料梳理是指對企業資料的採集、 處理、 傳輸和使用進行全面規劃, 透過規劃, 由資料域、 資料主題、 資料實體、 資料模型, 一步步細化、抽象、 設計出具體的實體資料模型的過程。
舉例:從頂層出發逐級細化到某個實體


資料域梳理
一般情況下資料域對應企業的業務域,比如財務域、人力域、生產域、銷售域等。

資料主題梳理
資料主題對應資料域的二級分類,比如人力域中的人事管理、 績效管理、 薪酬管理、 培 訓管理等。

資料實體梳理
資料實體是根據資料主題進行梳理的,細化業務主題所包含的資料實體和設計的資料元素。比如:人事管理主題中包含的資料實體有組織機構、 人員等。

設計資料模型
邏輯模型設計是對實體進行抽象, 描述實體之間的繼承或關聯關係, 明確資料結構的屬性構成等。物理模型設計是描述資料的物理資料儲存結構和資料關係。

優缺點
優點: 全面、 系統的梳理, 透過資料域→資料主題→資料實體→資料模型的逐層分解, 使企業清晰地瞭解到企業資料的來龍去脈, 有助於企業把握各類資料的源頭, 確保資訊的有效性、 完整性和一致性, 有效消除資訊孤島。
缺點: 全面的資料梳理意味著較大的成本和較長的時間週期。

自下而上梳理
自下而上的資料梳理常用於資料倉儲專案的資料模型設計,其特點是比較有針對性, 直擊目標和需求。 該方法以目標和需求為驅動, 採用一種“順藤摸瓜”的方式, 一步步梳理出實現需求所需的資料, 並確定這些資料的來源、 資料結構以及資料實體之間的關係等。
舉例:從需求出發,自下而上順藤摸瓜的方式,一步步梳理出實現需求所需的資料


需求分析
資料治理專案是一個複雜的過程, 專案的開發涉及多方面的問題和風險,如技術風險、 資料質量問題、 專案管理問題等, 專案中最隱蔽、 最容易忽略、最難控制的一環就是需求的調研和分析。 需求分析應從IT現狀、 業務部門、 高層希望等方面展開, 明確專案的目標和範圍。

展現
雖然有了明確的需求, 但是客戶往往更關注的是資料的展現形式和效果,因此將不同的資料分析結果推送給不同的客戶是該階段的重點。 採用原型展現的方式可以幫助理解和引導客戶的需求。

分析邏輯
分析邏輯是指分析實現需求的業務邏輯, 其輸出結果是資料倉儲的邏輯模型。 邏輯模型用來表達實際業務中的具體業務關係和分析邏輯。

資料建模
資料建模是將邏輯模型轉化為給資料庫儲存的物理模型。 目前業界較為流行的資料倉儲建模方法非常多, 每種方法本質上就是從一個不同的角度看業務中的問題。

優缺點
優點: 目的性強, 從既定的需求出發到具體的資料結構設計, 越到底層變化的可能性越小。 與從整體出發的大規模調研規劃相比, 這種方法的週期更短、 見效更快。
缺點: 區域性梳理, 缺乏全面性和系統性, 無法支撐企業頂層的資料架構設計。 一般來說, 有了明確的專案目標和需求的情況下采用該方法較佳。

四、資料建模技術和方法
ER模型
不多介紹,百度自查

五、資料建模與資料治理
資料模型和資料治理的關係


資料模型VS後設資料
在資料模型中, 業務模型描述了業務主題、 業務規則定義, 這些為業務後設資料; 物理模型包含資料實體、 資料實體之間的關係、 資料結構、 主外來鍵關係等內容, 這些為技術後設資料; 資料關聯關係是後設資料血緣分析的基礎。 所以從一定程度來說, 資料模型是描述企業業務需求的後設資料集合。

資料模型VS主資料
從技術的角度來說, 主資料管理是由資料模型驅動的。 主資料管理涉及的主資料定義、 主資料管理、 主資料清洗、 主資料採集與分發、 主資料質量管理等核心功能都是以主資料的元模型為基礎而展開的。 資料模型為主資料管理提供了清晰、 一致的資料結構定義, 指導主資料管理解決方案的實施。

資料模型VS資料質量
在多系統的資訊化環境中, 資料模型不一致是導致資料質量問題的根本原因。 同時, 資料模型為資料質量管理提供業務後設資料的一致性定義、 資料質量規則定義等關鍵後設資料的輸入, 為後續資料質量規則定義、 資料質量檢核、 資料質量報告生成提供了基礎。 良好的資料模型能改善資料統計口徑的不一致性, 降低資料計算錯誤的可能性。

資料模型VS資料標準
資料模型是對現實世界的複雜資料結構的一種抽象表達, 是對業務規則的描述。 從資料庫角度看, 資料只有在其能正確反映所定義的業務規則時才有意義, 正確的業務規則才能定義實體、 屬性、 聯絡和約束。 因此, 資料模型標準化是資料標準化的重要組成。 資料模型的業務規則來自對企業操作的詳細描述, 可幫助企業建立和實施具體活動, 因此必須明確制定並及時更新, 以正確反映企業操作環境的變化, 幫助企業實現資料標準化。

資料模型VS資料安全
資料模型是資料安全管控要素之一。 在構建資料模型時, 需要定義實體、屬性、 聯絡和約束, 並根據企業具體的資料安全需求標註出敏感欄位/表。 企業需要參考資料模型來制定具體的資料安全技術實現需求與業務規則, 判斷哪些欄位可以被哪些人檢視, 哪些欄位需要脫敏等。

資料模型VS資料倉儲
資料模型是資料倉儲、 BI系統的核心, 良好的資料模型有利於資料的血統分析、 影響分析, 為高質量的決策提供保障。 在資料倉儲建設過程中, 資料模型是資料組織和儲存的方法, 它強調從業務、 資料存取和使用角度合理儲存資料。 只有資料模型將資料有序地組織和儲存起來, 大資料才能得到高效能、 低成本、 高效率、 高質量的使用。 資料模型的設計是資料倉儲建設的基礎, 資料模型提供全面的業務梳理和整體的資料視角, 促進業務與技術有效溝通, 形成對主要業務定義和術語的統一認識, 而且具有跨部門、 中性的特徵, 可以表達和涵蓋所有的業務。

資料模型VS資料整合
資料整合是把不同來源、 格式、 特點性質的資料在邏輯上或物理上有機地集中起來, 從而為企業提供全面的資料共享。 而要實現資料的集中共享, 充分分析現有資料模型就顯得尤為重要。 保證資料模型中關鍵元素的一致性是資料整合時首先需要考慮的問題。

資料模型VS資料操作
資料模型所描述的內容包括三個部分: 資料結構、 資料操作和資料約束。資料操作主要描述在相應的資料結構上的操作型別和操作方式。 它是操作算符的集合, 為資料提供一個規範的結構。 規範化的結構和約束為資料儲存和操作提供了保障, 降低了資料操作時發生資料異常的可能性。

資料模型管理存在的問題及解決辦法
資料模型變更隨意
大部分企業資料模型是開發人員自行決定,隨意變更,在資料變更時沒有從資料設計、 業務合理性、 資料質量規則、 資料庫效能等方面進行綜合評審。

應對方法:嚴控資料模型變更
控制資料模型變更是為了保證資料模型與資料庫的一致性。 透過建立資料模型管理流程, 明確建立、 變更、 登出的流程和角色職責, 在模型變更之前設定相應的人員去判斷變更的合理性, 並對變更的內容進行審計。 監控模型變更的過程, 確保按規劃要求完成變更。

輔助性工具缺失
資料建模依據的資料標準、 建模規範、 編碼規範、 模型管理工具等輔助性工具缺失, 導致無法對以下內容進行監督和管理: 修改操作是否符合規範, 修改的指令碼是否按要求編寫, 修改時是否先修改模型再編寫指令碼, 是否及時保證資料模型與資料庫的同步等。
應對方法:使用輔助工具
在資料模型管理中, 輔助管理工具是管理資料模型的一個重要部分。 很多建模工具內建了大量模型管理工具, 例如模型查詢和瀏覽、 模型版本管理等。另外, 資料建模管理還要有一套自動化的校驗工具, 校驗可以避免在使用中出現錯誤。 標準資料模型可以實現一定程度上的自動化校驗, 但是無法實現100%校驗。 不管是開發人員還是測試人員, 都需要制定一些規則去校驗, 只有透過校驗才能及時發現問題。 例如, 把“員工”的同義詞定為“職員”, 那麼即便在使用過程中, 大家沒有使用標準用語, 有人用“職員”, 有人用“員工”, 自動校驗工具也可以自動把它們都轉換成“員工” 。

資料模型共享不及時
在資料模型修改後未將修改內容及時公開, 導致修改的內容僅有內部的部分人員知道, 其他人員均不知道。 同時, 未將修改的內容納入資料模型統一管理體系, 致使系統出現問題無法追溯, 問題的排查難度較大, 而資料模型管理逐漸變成“黑盒子”。
1
應對方法:共享資料模型
在專案生命週期中, 在合適的時間、 合適的地點將合適的資料模型共享給合適的人非常重要。 只有將資料模型在管理人員、 業務人員、 技術人員中共享, 才能使他們更加理解定義、 生成和使用資料的業務和技術, 並將其作為日常工作的一部分。

相關文章