資料倉儲指標體系搭建實戰

qing_yun發表於2022-09-21

指標體系

1. 痛點分析

主要從業務、技術、產品三個視角來看:

  • 業務視角

業務分析場景指標、維度不明確;

頻繁的需求變更和反覆迭代,資料包表臃腫,資料參差不齊;

使用者分析具體業務問題找資料、核對確認資料成本較高。

  • 技術視角

指標定義,指標命名混亂,指標不唯一,指標維護口徑不一致;

指標生產,重複建設;資料彙算成本較高;

指標消費,資料出口不統一,重複輸出,輸出口徑不一致;

  • 產品視角

缺乏系統產品化支援從生產到消費資料流沒有系統產品層面打通;

2. 管理目標

  • 技術目標

統一指標和維度管理,指標命名、計算口徑、統計來源唯一, 維度定義規範、維度值一致

  • 業務目標

統一資料出口、場景化覆蓋

  • 產品目標

指標體系管理工具產品化落地;指標體系內容產品化落地支援決策、分析、運營例如決策北極星、智慧運營分析產品等

3. 模型架構

業務線

業務板塊定義原則:業務邏輯層面進行抽象、物理組織架構層面進行細分,可根據實際業務情況進行層級分拆細化,層級分級建議進行最多進行三級分拆,一級細分可公司層面統一規範確定,二級及後續拆分可根據業務線實際業務進行拆分。

例如滴滴出行領域業務邏輯層面兩輪車和四輪車都屬於出行領域可抽象出行業務板塊(level一級),根據物理組織架構層面在進行細分普惠、網約車、計程車、順風車(level二級),後續根據實際業務需求可在細分,網約車可細分獨乘、合乘,普惠可細分單車、企業級。

規範定義

  • 資料域

指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括為一個個不拆分的行為事件,在業務過程之下,可以定義指標;維度,是度量的環境,如乘客呼單事件,呼單型別是維度。為了保障整個體系的生命力,資料域是需要抽象提煉,並且長期維護更新的,變動需執行變更流程。

  • 業務過程

指公司的業務活動事件,如呼單、支付都是業務過程。其中,業務過程不可拆分。

  • 時間週期

用來明確統計的時間範圍或者時間點,如最近30天、自然周、截止當日等。

  • 修飾型別

是對修飾詞的一種抽象劃分。修飾型別從屬於某個業務域,如日誌域的訪問終端型別涵蓋APP端、PC端等修飾詞。

  • 修飾詞

指的是統計維度以外指標的業務場景限定抽象,修飾詞屬於一種修飾型別,如在日誌域的訪問終端型別下,有修飾詞APP、PC端等。

  • 度量/原子指標

原子指標和度量含義相同,基於某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如支付金額。

  • 維度

維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也可以稱為實體物件。維度屬於一個資料域,如地理維度(其中包括國家、地區、省市等)、時間維度(其中包括年、季、月、周、日等級別內容)。

  • 維度屬性

維度屬性隸屬於一個維度,如地理維度裡面的國家名稱、國家ID、省份名稱等都屬於維度屬性。

  • 指標分類主要分為原子指標、派生指標、衍生指標

a.原子指標

基於某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如呼單量、交易金額

b.派生指標

是1個原子指標+多個修飾詞(可選)+時間週期,是原子指標業務統計範圍的圈定。派生指標又分以下二種型別:

    i.事務型指標:

是指對業務過程進行衡量的指標。例如,呼單量、訂單支付金額,這類指標需要維護原子指標以及修飾詞,在此基礎上建立派生指標。

    ii.存量型指標:

是指對實體物件(如司機、乘客)某些狀態的統計,例如註冊司機總數、註冊乘客總數,這類指標需要維護原子指標以及修飾詞,在此基礎上建立派生指標,對應的時間週期一般為“歷史截止當前某個時間”。

C.衍生指標

是在事務性指標和存量型指標的基礎上覆合成的。主要有比率型、比例型、統計型均值

模型設計

主要採用維度建模方法進行構建,基礎業務明細事實表主要儲存維度屬性集合和度量/原子指標;分析業務彙總事實表按照指標類別(去重指標、非去重指標)分類儲存,非去重指標彙總事實表儲存統計維度集合、原子指標或派生指標,去重指標彙總事實表只儲存分析實體統計標籤集合。

指標體系在數倉物理實現層面主要是結合數倉模型分層架構進行指導建設,滴滴的指標資料主要儲存在DWM層,作為指標的核心管理層。

維度管理

包括基礎資訊和技術資訊,由不同角色進行維護管理。

  • 基礎資訊對應維度的業務資訊,由業務管理人員、資料產品或BI分析師維護,主要包括維度名稱、業務定義、業務分類。

  • 技術資訊對應維度的資料資訊,由資料研發維護,主要包括是否有維表(是列舉維度還是有獨立的物理維表)、是否是日期維、對應code英文名稱和中文名稱、對應name英文名稱和中文名稱。如果維度有維度物理表,則需要和對應的維度物理表繫結,設定code和name對應的欄位。如果維度是列舉維,則需要填寫對應的code和name。維度的統一管理,有利於以後資料表的標準化,也便於使用者的查詢使用。

指標管理

包括基礎資訊、技術資訊和衍生資訊,由不同角色進行維護管理。

  • 基礎資訊對應指標的業務資訊,由業務管理人員、資料產品或BI分析師維護,主要包括歸屬資訊(業務板塊、資料域、業務過程),基本資訊(指標名稱、指標英文名稱、指標定義、統計演算法說明、指標型別(去重、非去重)),業務場景資訊(分析維度,場景描述);

  • 技術資訊對應指標的物理模型資訊,由資料研發進行維護,主要包括對應物理表及欄位資訊;

  • 衍生資訊對應關聯派生或衍生指標資訊、關聯資料應用和業務場景資訊,便於使用者查詢指標被哪些其它指標和資料應用使用,提供指標血緣分析追查資料來源的能力。

原子指標定義歸屬資訊 + 基本資訊 + 業務場景資訊派生指標定義時間週期 + 修飾詞集合 + 原子指標修飾型別主要包含型別說明、統計演算法說明、資料來源(可選)

5. 指標體系建設流程

建模流程

建模流程主要是從業務視角指導工程師對需求場景涉及的指標進行主題抽象,歸類,統一業務術語,減少溝通成本,同時避免後續的指標重複建設。

分析資料體系是模型架構中彙總事實表的物理集合,業務邏輯層面根據業務分析物件或場景進行指標體系抽象沉澱。滴滴出行主要是根據分析物件進行主題抽象的,例如司機主題、安全主題、體驗主題、城市主題等。指標分類主要是根據實際業務過程進行抽象分類,例如司機交易類指標、司機註冊類指標、司機增長類指標等。 基礎資料體系是模型架構中明細事實表和基礎維度表的物理集合,業務邏輯層面根據實際業務場景進行抽象例如司機合規、乘客註冊等,還原業務核心業務過程。

開發流程

開發流程是從技術視角指導工程師進行指標體系生產、運維及質量管控,也是資料產品或資料分析師和數倉研發溝通協調的橋樑。

6. 指標體系圖譜建設

指標體系圖譜概述

指標體系圖譜也可稱為資料分析圖譜主要是依據實際業務場景抽象業務分析實體,整合梳理實體涉及的業務分類、分析指標和維度的集合。 建設方法:主要是透過業務思維、使用者視角去構建,把業務和資料緊密關聯起來,把指標結構化分類組織。

建設目的:

  • 對於使用者:

便於使用者能夠快速定位所需指標和維度,同時透過業務場景化沉澱指標體系,能夠快速觸達使用者資料訴求。

  • 對於研發:

利於後續指標生產模型設計、資料內容邊界化、資料體系建設迭代量化和資料資產的落地。

指標體系圖譜模型

指標體系圖譜例項

指標體系產品化

指標體系涉及的產品集主要是依據其生命週期進行相應建設,透過產品工具打通資料流,實現指標體系統一化、自動化、規範化、流程化管理。因為指標體系建設本質目標是服務業務,實現資料驅動業務價值,所以建設的核心原則是“輕標準、重場景,從管控式到服務式”。透過工具、產品、技術和組織的融合提高使用者使用資料效率,加速業務創新迭代。

其中和指標體系方法論強相關產品就是指標字典工具的落地,其產品的定位及價值:

  • 支撐指標管理規範從方法到落地的工具,自動生成規範指標,解決指標名稱混亂、指標不唯一的問題,消除資料的二義性

  • 統一對外提供標準的指標口徑和後設資料資訊

工具設計流程 (方法論->定義->生產->消費)

指標定義

指標生產

結束語

文章整體介紹了指標體系建設方法論&實踐和工具產品的建設情況,指標字典和開發工具已實現流程打通,與資料消費產品的打通後續會透過DataAPI方式提供資料服務。

來自 “ 資料社 ”, 原文作者:資料社;原文連結:https://mp.weixin.qq.com/s/usX4fAeXJNAmEJH-WUBtZA,如有侵權,請聯絡管理員刪除。

相關文章