讀資料質量管理:資料可靠性與資料質量問題解決之道15資料信任

躺柒發表於2024-11-26

1. 在資料平臺中建立信任

1.1. 確保產品目標與業務目標保持一致

  • 1.1.1. 幾十年來,資料平臺被視為實現目標的手段,而不是“終極目標”​

  • 1.1.1.1. 資料不被當作核心產品來構建

1.2. 尋求適合的利益相關方的反饋與認可

  • 1.2.1. 在整個產品開發過程中獲得前期認可並得到迭代反饋是構建資料平臺的過程中必不可少的組成部分

  • 1.2.2. 步驟

  • 1.2.2.1. 向領導層推銷你的願景

  • 1.2.2.2. 向實際使用者推銷基本操作和日常用例

  • 1.2.2.3. 無論和誰交談,都要以客戶為中心

  • 1.2.3. 一個優秀的資料平臺可以幫助技術型使用者輕鬆高效地完成他們的工作,同時允許非技術型使用者利用資料來獲得豐富的洞察或製作視覺化圖表,而無須太多工程師和分析師的幫助

  • 1.2.4. 能夠培養一個資料愛好者社群,他們一起構建、分享和學習

  • 1.2.5. 平臺有潛力服務於整個公司,因此每個人都應當願意為資料平臺的成功做出貢獻,即使這意味著人們在此過程中要做出一些妥協

1.3. 優先考慮長期增長和可持續性,而非短期收益

  • 1.3.1. 資料平臺幾乎完全是內部工具,我們發現最好的資料平臺是以可持續性為前提構建的,而不是以特定功能來取勝

  • 1.3.2. 你的客戶就是你的公司,而公司的成功就是你的成功

  • 1.3.3. 以短期可用性為前提的資料解決方案往往更容易啟動,但隨著時間的推移,這些平臺的成本比以可持續性為前提構建的平臺要高

  • 1.3.4. 作為更大的產品開發戰略的一部分,獲取一些快速成功可以幫助你獲得內部認可,但是這不意味著你的計劃可以是短視的

  • 1.3.5. 羅馬城不是一天建成的,你的資料平臺也不是

1.4. 為資料及其評估標準設定基準指標

  • 1.4.1. 如果你無法信任資料,那麼你的資料平臺再好也沒有用

  • 1.4.2. 組織有能力在整個資料生命週期中保障資料的高可用性和資料健康

1.5. 瞭解何時構建、何時購買

  • 1.5.1. 從頭開始構建平臺

  • 1.5.1.1. 基於開源解決方案來進行平臺建設的,但這樣的做法未必符合你的需求

  • 1.5.1.2. 產品需要使用敏感或機密的資訊(例如財務或醫療記錄)​,這些資訊由於監管不能與外部供應商共享

  • 1.5.1.3. 資料平臺需要特殊的定製化才能與其他內部工具或系統配合使用,並且這些定製化設定足夠特殊,以至於供應商不會優先提供這些設定功能

  • 1.5.1.4. 構建與購買相比具有其他的戰略價值(如業務上的競爭優勢或對招聘人才有益)​

  • 1.5.1.5. 當涉及解決那些對於業務來說非常特殊但很關鍵的問題時(例如,彙總高速公路上的GPS資料)​,你可能需要構建自己所需的工具

  • 1.5.2. 從供應商那裡購買技術(或多個支援技術)​

  • 1.5.2.1. 購買通常是更有價值的選擇

  • 1.5.2.2. 對於更大的、更普遍的技術挑戰(如資料倉儲、資料湖或資料視覺化工具)​,購買技術通常更有意義

  • 1.5.3. 為解決更復雜、更高精度的問題,人們更加致力於研發並投資相關的工具

  • 1.5.4. 反向ETL、資料科學工作簿、行為分析,甚至是機器學習特徵儲存庫都曾經是獨特而小眾的技術,現在卻被廣泛應用

1.6. 構建資料平臺看起來可能是個艱鉅的任務,但是隻要採取正確的方法保障資料質量並將其規模化,你的解決方案就可能讓整個組織事半功倍

2. 資料平臺產品化的好處

2.1. 指導銷售工作(根據潛在客戶的反饋為你提供需要關注的方向)

2.2. 推動應用程式產品路線圖

2.3. 改善客戶體驗(幫助團隊瞭解服務痛點,哪些方案有效,哪些無效)

2.4. 在公司範圍內對資料治理與合規措施進行標準化

3. 分配資料質量所有權

3.1. 在資料領域,資料事故造成的不斷擴大的影響範圍通常被稱為爆炸半徑

  • 3.1.1. 爆炸半徑指的是,當資料故障發生時,下游的利益相關方所經歷的當機程度

  • 3.1.2. 當資料發生故障時,從首席資料官到值班資料工程師在內的很多利益相關方都會被波及

  • 3.1.3. 資料當機會影響到公司內部依賴資料和資料分析的所有人,而隨著資料在管道中向下遊傳遞,低質量資料造成的影響只會不斷升級

3.2. 首席資料官

  • 3.2.1. 確保她的團隊提供的資料能夠保證一致性、準確性、相關性、可解釋性和可靠性

  • 3.2.2. 假如不良資料出現在CEO面前,甚至流向了公眾或其他資料消費者,她就要擔責了

3.3. 商業智慧分析師

  • 3.3.1. 需要一個簡潔明瞭的資料儀表板,來回答市場、銷售和運營等部門的各種問題,以幫助這些部門瞭解其業績表現

  • 3.3.2. 空值和重複行是商業智慧分析師的死對頭,而資料當機會讓她心煩意亂,所以她很願意採用任何可以避免資料當機的方法

  • 3.3.3. 追溯資料上游並驗證資料值的準確性是一個極其漫長的過程

3.4. 分析工程師

  • 3.4.1. 主要負責確保利益相關方能夠訪問和使用資料來滿足他們的需求

  • 3.4.2. 精通資料構建工具dbt,併為自己能夠透過建模解決幾乎所有問題而感到自豪

  • 3.4.3. 要負責解釋資料為何以及如何被損壞,她通常要與資料工程和資料平臺團隊合作來找到根本原因

  • 3.4.4. 資料可觀測性是她最好的朋友

3.5. 資料科學家

  • 3.5.1. 要花費大約80%的時間清洗、整理和理解資料的方方面面

  • 3.5.2. 需要相關的工具和解決方案來簡化他們的工作

3.6. 資料治理主管

  • 3.6.1. 在資料可靠性方面,主要關心整個公司的資料和指標的統一定義,並瞭解誰可以訪問並檢視哪些資料

3.7. 資料工程師

  • 3.7.1. 超出了構建資料產品,還要負責整合資料來源,幫助團隊做出業務決策

  • 3.7.2. 公司資料生態系統的黏合劑

  • 3.7.3. 設計可規模化的資料平臺解決方案

  • 3.7.4. 確保資料攝取是可靠的

  • 3.7.5. 保障其他團隊對資料平臺的訪問權

  • 3.7.6. 在發生資料當機時能夠快速進行修復

  • 3.7.7. 保證資料分析在整個資料組織的層面上是可持續的

3.8. 資料產品經理

  • 3.8.1. 從分析師到社交媒體經理,所有其他的資料利益相關方都要仰仗他來構建資料平臺,而該平臺要從多個來源攝取資料,對資料進行統一化管理,並向各類業務使用者提供可訪問的資料

4. 誰來負責資料可靠性

4.1. RACI(責任人、最終責任人、被諮詢人和知情人)矩陣指南

4.2. 對你的資料組織中全部的資料責任進行對映,從可訪問性到可靠性都能這樣操作

4.3. 責任往往落在了資料工程師和產品經理的頭上

  • 4.3.1. 必須在公司對資料的需求和資料可靠性之間找到平衡

4.4. 在早期的資料組織中,這類職責往往由某個資料多面手或產品經理承擔

5. 為資料質量建立責任制

5.1. 資料工程師不是資料目錄

5.2. 資料團隊不得不更快地做出行動,參與到資料網格的方方面面,併為更加自助式的資料平臺提供助力

5.3. 每個人都試圖做正確的事情​,但每個人的行動也都非常快

  • 5.3.1. 在下游產生真正的運營問題

  • 5.3.1.1. 冗餘的“交通管制”帶來的低效迴圈

  • 5.3.1.2. 更糟糕的資料質量

  • 5.3.1.3. 浪費時間去解決由於分析師使用了不合適或有問題的資料而產生的問題

  • 5.3.1.4. 降低了組織內部對資料的信任度

  • 5.3.1.5. 增加了資料當機時間

5.4. 當你不信任資料,或者資料可靠性較低時,資料組織往往會在預測中人為增加誤差範圍

6. 平衡資料可訪問性與資料信任

6.1. 資料發現是一種實時瞭解分散式資料資產健康狀況的重要新方法,它也是現代資料棧的基本組成部分

6.2. 資料發現根據一組特定消費者如何攝取、儲存、聚合和使用資料,提供了對資料在特定領域的動態解讀

6.3. 可以取代現代資料目錄,轉而提供分散式、實時的跨領域資料洞察,並同時滿足集中式的資料治理標準

6.4. 資料治理的標準和工具同樣是跨領域聯合的,以支援更高的資料可訪問性和互操作性

6.5. 資料發現可以實時瞭解資料的當前狀態,而不是其理想或“編目”狀態

6.6. 當資料團隊採取分散式資料治理的方法,要求不同的資料所有者將資料當作產品並對其負責時,資料發現會非常有用

相關文章