資料中臺以及資料倉儲的介紹

shmil發表於2024-08-03

資料中臺

1、資料中臺的概念

資料中臺是一種集中化的資料管理平臺,用於整合和管理企業內部各個業務系統的資料。

它將資料從各個業務系統中抽取、清洗和整合,然後提供給其他業務系統或者資料應用進行分析、決策和創新。

資料中臺的目標是實現資料的一致性、可信度和可用性,促進資料的共享和交流。

資料中臺通常採用實時或近實時的資料整合和處理,以支援實時分析和實時決策。

2、資料倉儲

2.1資料倉儲的概念

資料倉儲是一種面向分析和決策支援的資料儲存和管理架構。

它通常採用結構化資料模型,如星型或雪花型模型,用於儲存和管理經過清洗、整合和轉換的資料。

資料倉儲具有高度規範化的結構和預定義的模式,用於支援複雜的分析查詢和報表生成。

資料倉儲的資料通常是批次載入和週期性更新的,用於歷史資料分析和業務報告。

image.png

2.2資料倉儲的特點

  • 面向主題
    • 主題是一個抽象概念, 簡單的說就是與業務 相關的資料類別,每 個主題基本對應一個 宏觀的分析領域
  • 整合
    • 與面向主題密切相關, 將多個分散的資料來源統 一成一致的、無歧義的 資料個時候,在放到數 據倉庫中,比如產品名 衝突,單位不一致問題, 完成諸如此類整合後該 資料倉儲可稱為整合的
  • 隨時間變化
    • 資料倉儲中的資料反映 了某一歷史時間點的數 據快照,但一般資料倉 庫不是永久儲存而是存 在生命週期
  • 非易失
    • 資料一旦進入資料倉儲, 資料就不應該再有改變。 操作型環境中的資料一 般都會頻繁的更新,而 在資料倉儲環境中一般 不進行資料更新,當改 變的操作性資料進入數 據倉庫時會產生新的記 錄,這樣就保留了資料 變化的歷史軌跡

2.3業務的痛點

包括資料資產模糊、無法應對頻繁臨時的需要、問題難定位,週期長、資料質量低、重複建設、程式碼耦合性較高等。

2.4數倉常見的模型

2.4.1星型模型

image.png

  • 優缺點:
    • 非正規化,和雪花模型相比較不是很常用
    • 不存在漸變維度
    • 有冗餘資料
    • 查詢效率可能會比較高
    • 不用過多考慮正規化因素,設計維護較為簡單。
2.4.2雪花模型

image.png

  • 優缺點:
    • 相對於星型模型較正規化
    • 資料冗餘少
    • 有些資料需要連續才能獲取,可能效率較低
    • 規範化操作較複雜,導致設計及後期維護複雜
    • 實際應用中,可以採取星型和雪花兩種模型的混合體。

總結:

什麼情況下用哪種模型?

這個得分情況討論,如果資料不是很多,而且比較簡單單一,容易區分,資料也沒有冗餘,維度也沒有很多,那麼就採用星型模型,因為後期維護起來會很方便。

相反得是,如果資料比較多,而且不容易區分,維度較多較複雜,那麼就使用雪花模型,雖然在開發得過程中效率比較高,但是在後期得維護過程中會比較複雜。

2.5維度表得設計方法******

  • 1、選擇維度
    • 作為維度建模的核心, 需保證企業級資料倉 庫維度唯一性
    • 維度一般作為查詢的 約束條件、分組、排 序關鍵屬性,所以可 以從需求出發來選擇 維度
  • 2、確定主維表
    • 主維表一般是直接 從業務系統同步而 來,它是分析事實 中所需要環境描述 的最基礎、最頻繁 的維度屬性集合
    • 比如:使用者維度從 業務系統使用者資訊 表中直接抽取
  • 3、梳理維度關係
    • 確定哪些表與主維表 存在關聯關係,並選 擇其中某些表用於生 成維度屬性
    • 梳理主維表與其他維 表關係,如一對多、 多對一、一對一等關 系
    • 比如:sku、spu、 類目等有關係的維度
  • 4、定義維度屬性
    • 從主維表或者相 關聯維表中選擇維 度屬性或生成維度 屬性
    • 維護描述屬性與 其他維度關聯關係 欄位

2.6事實表

2.6.1事實表的分類
  • 事務事實表
    • 描述業務過程,跟蹤空間或時間上某點的度量事件儲存 的是最原子的資料,原子是指不可再分割項
    • 每行記錄代表實體的一個事務
    • 如:下單流水、支付流水等
  • 週期快照事實表
    • 具有規律性的、可預見的時間間隔產生快照每行代表某 個時間週期的一個實體
    • 記錄的事實是時間週期內的聚集事實值或狀態度量
    • 如:庫存快照表
  • 累計快照事實表
    • 描述業務過程,跟蹤空間或時間上某點的度量事件儲存 的是最原子的資料
    • 每行記錄代表實體的一個事務
    • 如:交易全流程事實表

總結:區分三個表

事務事實表適用於需要詳細跟蹤單個事件的情況;週期快照事實表適用於需要分析時間間隔內的事件總和的情況;累積快照事實表適用於需要分析整個生命週期或跟蹤狀態變化的情況

2.6.2事實表的設計原則
  • 事實完整性
  • 粒度一致性
  • 事實可加性
  • 維度退化
  • 事實易用性
  • 單位統一
  • 業務相關
  • 控制處理
2.6.3事實表設計流程
  • 選擇業務
    • 在明確了業務需求以後,接下來需要進行詳細的需求分析,對業務的整個生命週期進行分 析,明確關鍵的業務步驟,從而選擇與需求有關的業務過程。業務過程通常使用行為動詞 表示業務執行的活動
  • 宣告粒度
    • 粒度的宣告是事實表建模非常重要的一步,意味著確定事實表的每一行所表示的業務含義, 粒度傳遞的是與事實表度量有關的細節層次。明確的粒度能確保對事實表中行的意思的理 解不會產生混淆,保證所有的事實按照同樣的細節層次記錄
  • 確定粒度
    • 完成粒度宣告以後,也就意味著確定了主鍵,對應的維度組合以及相關的維度欄位就可以 確定了,應該選擇能夠描述清楚業務過程所處的環境的維度資訊
  • 確定事實
    • 事實可以透過回答“過程的度量是什麼”來確定。應該選擇與業務過程有關的所有事實, 且事實的粒度要與所宣告的事實表的粒度一致。事實有可加性、半可加性、非可加性三 種型別,需要將不可加性事實分解為可加的元件
  • 冗餘維度
    • 在大資料的事實表模型設計中,考慮更多的是提高下游使用者的使用效率,降低資料獲取 的複雜性,減少關聯的表數量。所以通常事實表中會冗餘方便下游使用者使用的常用維度, 以實現對事實表的過濾查詢、控制聚合層次、排序資料以及定義主從關係等操作

2.7資料模型分層的規範

  • 禁止逆向呼叫

  • 避免同層呼叫

  • 優先使用公共層

  • 避免跨層呼叫

    但是,並非絕對,有時會因業務的特殊 違反建模規範,比如:在特定情況下 ADS層可以直接引用ODS層資料

3、補充:資料湖

資料湖是一種儲存和管理各種型別和格式的資料的架構,包括結構化資料、半結構化資料和非結構化資料。

資料湖不要求提前定義資料模型或模式,允許資料以原始形式儲存,並透過按需處理和解析來應用於不同的資料分析和應用場景。

資料湖的目標是集中儲存和管理所有的資料,以提供更靈活、可擴充套件和多樣化的資料分析和應用。

資料湖通常採用分散式儲存和處理技術,如Hadoop和雲端儲存服務。

4、OneData資料模型

  • 相關名次解釋:
    • 業務過程:
      • 指在業務中發生的最小單元的行為或事務,不可再拆分事件,比如建立訂單,瀏覽網頁等等。業務過程產生的行為明細, 比如支付了一筆訂單,瀏覽了某個網頁,最終都會彙集到事實表中,而大部分情況下,事實表都會聚焦於某個特定的業務 過程。
    • 原子指標:
      • 原子指標是對指標統計口徑、具體演算法的一個抽象。
    • 業務限定:
      • 在進行資料分析時,有時需要根據業務規則來定義一些限定條件,以此來過濾出符合條件的記錄。比如要統計【PC端訪客 數】這個指標,則需要先建立【PC端】這個業務限定。後續,這個業務限定可以用於其他相同規則的指標定義,比如
        【PC端瀏覽次數】等。
    • 派生指標:
    • 派生指標即常見的統計指標,為保證統計指標標準、規範、無二義性地生成,基於四部分生成:原子指標(明確統計口徑, 即計算邏輯)、業務限定(統計的業務範圍,篩選出符合業務規則的記錄)、統計週期(統計的時間範圍,比如最近一天, 最近30天等)、統計粒度(統計分析的物件或視角,定義資料需要彙總的程度,可理解為聚合運算時的分組條件,粒度是 維度的一個組合,比如某個指標是某個賣家在某個省份的成交額,那麼粒度就是賣家、地區這兩個維度的組合)。

5、資料獲取與採集

5.1資料採集流程和同步場景

6、資料加工和清洗

6.1概述

  • 需要進行這一步的原因:
    • 後設資料不一致,如取值不統一,單位不一致等
    • 資料缺失
    • 資料錯誤,如格式、取值異常、邏輯錯誤等
    • 資料冗餘,如日誌資訊、重複資訊等
    • 資料合併,描述相同物件的記錄合併

6.2常用策略

  • 原則:能使用SQL的情形下,儘量使用SQL

image.png

6.3後設資料不一致

  • 常用方法:
    • 定位標準後設資料,建立map表或者定義轉換規則,清洗資料

image.png

6.4資料缺失

image.png

  • 注意:給定的值也是根據實際情況而定

6.5資料錯誤

常見方法:根據實際問題分析

  • 格式錯誤: 隱式轉換和顯式轉換;
    • 定義成String型,透過SQL進行預檢查
  • 取值異常: 根據業務規則進行約束檢查
    • 根據統計資訊判斷是否異常
  • 物件相同,記錄不同:
    • 確認不同資料來源的可信度
    • 橫向對比,根據其他物件資訊判斷
    • 縱向對比,結合該物件其他資訊判斷

7、資料中臺建設

7.1資料中臺建設步驟

企業資料化建設最佳實踐提煉總結出資料中臺落地五步法,在這個過程中,最大力度支撐企業資料化落地,提高 資料中臺專案實施過程標準化,提升資料中臺專案成功機率。是企業資料化建設的最佳實踐。

image.png

7.2資料資源盤點

資源盤點是資料中臺建設的基礎支撐,透過對客戶現有業務系統、資料庫模型、網路架構、業務流程、資料質量 等做資訊基礎現狀徹底盤清以後,才能規劃資料中臺的上層建設,而不至於盲目設計應用而最終無法落地。

image.png

7.3資料中臺設計

資料中臺設計,是基於資料資源盤點,為最終實現資料應用規劃,對於現有的網路、技術選型、採集、模型、開 發、輸出整套體系所做的概要設計和架構設計。

image.png

7.4資料中臺開發

資料中臺開發,是進行細節的產品設計和資料開發工作。產品設計是基於資料應用規劃的基礎,資料開發和產品 開發是基於資料中臺設計的基礎。

image.png

8、基於數棧的資料中臺建設

image.png

有關IaaS,PaaS和SaaS的介紹

IaaS,PaaS和SaaS是3種不同形式的雲端計算交付模型,透過廣域網(WAN)向消費者提供服務。

IaaS提供按需快速配置虛擬化硬體基礎架構資源,如伺服器,儲存和網路。

PaaS提供平臺軟體或中介軟體執行環境的按需快速配置,例如訊息佇列,關係型資料庫管理系統和容器編排系統。

SaaS透過Web向消費者提供應用程式或軟體服務。 SaaS不要求消費者管理底層平臺和基礎架構。電子郵件服務,資料備份服務和SMS服務是SaaS的示例。

相關文章