讀資料質量管理:資料可靠性與資料質量問題解決之道19資料未來

躺柒發表於2024-11-30

1. 開創可靠資料系統的未來

1.1. 資料作為一個行業很可能正在經歷一場巨大且不可逆轉的鉅變

1.2. 分析型資料正變成現代企業最關鍵和最具競爭力的核心資產

  • 1.2.1. 不再是公司是否依賴資料的問題

  • 1.2.2. 是使用多少資料以及將資料用於什麼場景的問題

1.3. 僅僅收集更多資料還是不夠的,你必須學會相信它

  • 1.3.1. 讓資料可靠性變得越發重要

  • 1.3.2. 資料信任對於任何成功的資料工程或分析計劃來說都至關重要,但實現起來往往充滿挑戰,而維護起來就更難了

1.4. dbt和Great Expectations等開源工具讓從業者能夠快速地對更關鍵的資料集進行單元測試

1.5. 資料質量最終還是要靠良好的文化、健壯的流程和利益相關方的認同來維繫

1.6. 資料質量計劃通常應優先於資料目錄和資料發現等專案

1.7. 除非你可以對資料質量進行評估,否則提出把資金投入到資料質量上的論點往往說起來容易而做起來難

1.8. 對資料當機的計算取決於資料事件的數量乘以平均檢測時間和解決它們所需的時間

  • 1.8.1. DDT=N(TTD+TTR)

  • 1.8.2. DDT是資料當機的時間

  • 1.8.3. N是事件的數量

  • 1.8.4. TTD是檢測所需時間

  • 1.8.5. TTR是解決所需時間

2. 積極主動

2.1. 只有當錢因不良資料而“溜走”時,我們才會清楚地瞭解到優質資料的價值

  • 2.1.1. 計算你公司每年處理資料質量問題的小時數

  • 2.1.2. 許多資料問題可能需要幾天甚至幾周的時間才能被檢測出來

  • 2.1.3. 資料團隊會啟動一個耗時的根因分析過程,其中涉及幾個步驟,包括檢查沿襲(如有)​、程式碼、資料、操作環境以及與同事交流

  • 2.1.4. 計算甚至沒有考慮機會成本(換句話說就是:你為使用不準確的資料而做出錯誤決策所付出的代價)​

  • 2.1.5. 隨著行業的成熟,我們預計會出現比我們這個方程聰明得多的演算法來得出這些問題為企業所帶來的成本預測

2.2. 證明資料質量價值的第一步是評估資料可靠性對你公司的財務影響

3. 對資料質量和資料可靠性未來的預測

3.1. 在公司中建立全面的資料實踐遠不只是在資料當機時才主動出擊

3.2. 瞭解該領域的發展方向並主動管理公司的目標和戰略也非常重要

3.3. 分析成為各個職能部門的關鍵部分,解決資料質量的要求和方法自然會發生變化也就不言而喻了

3.4. 資料倉儲和資料湖將融為一體

  • 3.4.1. 越來越多的企業同時採用資料倉儲和資料湖

  • 3.4.1.1. 無論是作為一個整體的解決方案或是多個解決方案中的一部分

  • 3.4.2. 資料質量在資料倉儲中更容易維護,因為在這裡更容易自然地跟蹤資料的模式、容量和新鮮度

  • 3.4.3. 資料湖由多個入口組成,這意味著會有更多的層來對資料進行排序和對齊以供操作使用

  • 3.4.4. 一種使用更少工具來更好處理資料的方法意味著理論上資料在生產過程中被破壞的機會要更少

  • 3.4.5. 湖倉一體要求資料平臺的工作方式更加標準化,而這也因此為採用更集中的資料質量和資料可觀測性方法開啟了大門

  • 3.4.6. 預測這種融合將在財務和資源管理這兩方面都有利於消費者,但這也有可能會給你的資料管道帶來額外的複雜度

  • 3.4.7. 更廣泛的應用場景意味著更多的資料使用者,而這通常會導致更多的資料重複、錯誤和下游警報

3.5. 資料團隊中的新角色

  • 3.5.1. 孤立的資料庫管理員或分析師的日子早已一去不復返了

  • 3.5.2. 資料正在以其自身的力量透過資料科學家、分析師和工程師等定製角色的出現席捲整個公司

  • 3.5.3. 專業化浪潮並非資料所獨有

  • 3.5.3.1. 專業化幾乎對每個行業都很普遍,它標誌著市場的成熟,表明了對規模化、提高速度和提升效能的需要

  • 3.5.4. 資料產品經理

  • 3.5.4.1. 負責管理給定資料產品的生命週期,並通常負責管理跨職能的相關人員、產品路線圖和其他戰略任務

  • 3.5.5. 分析工程師

  • 3.5.5.1. 一個被dbt實驗室帶火的術語,這個角色介於資料工程師和分析師之間,負責對資料進行轉換和建模,以便讓相關人員能夠信任並使用該資料

  • 3.5.5.2. 是專家和通才,通常擁有資料棧中的多個工具併兼顧許多技術性和非技術性任務

  • 3.5.6. 資料可靠性工程師

  • 3.5.6.1. 致力於主要透過資料可觀測性、測試和其他常用方法來構建更具彈性的資料棧

  • 3.5.6.2. 通常擁有可以直接應用於這一新角色的DevOps技能和經驗

  • 3.5.7. 資料設計師

  • 3.5.7.1. 與分析師密切合作,幫助他們透過商業智慧視覺化或其他框架來講述有關資料的故事

  • 3.5.7.2. 在大型組織中更為常見,並且通常來自產品設計背景

  • 3.5.7.3. 資料設計師不應與資料庫設計師相混淆,後者是一個更為精專的角色,為儲存和生產的資料進行建模和構建

  • 3.5.8. 隨著資料團隊角色的多樣化和用例的增加,涉及的利益相關方也會增加

  • 3.5.9. 聘請資料可靠性工程師,人們也無法“解決”資料質量的問題

3.6. 自動化的興起

  • 3.6.1. 更多應用自動化通常都會是一件積極的事

  • 3.6.1.1. 自動化減少了手工勞動,擴充套件了重複過程,並使大型系統更具容錯能力

  • 3.6.1.2. 在提高資料質量方面,自動化有很多機會來填補測試、編目和其他更多手動流程失敗的空白

  • 3.6.2. 硬編碼資料管道

  • 3.6.2.1. 自動攝取解決方案可以輕鬆快速地攝取資料並將其傳送到你的資料倉儲或資料湖中進行儲存和處理

  • 3.6.3. 單元測試和編排檢查

  • 3.6.3.1. 單元測試是一個典型的規模問題,因為大多數公司不可能端到端地覆蓋他們所有的管道,甚至無法為資料可能變壞的每種方式都準備測試

  • 3.6.3.2. 採用更加自動化的機制來測試他們的資料並在損壞的管道上編排斷路器

  • 3.6.4. 將資料從暫存環境轉移到生產環境

  • 3.6.4.1. 積極主動的方法將防止下游架構中斷並更可靠地推動生

  • 3.6.5. 根因分析

  • 3.6.5.1. 可以利用這些後設資料來拼湊出事故發生時的全景,並從中解決問題

  • 3.6.6. 資料記錄、編目和發現

  • 3.6.6.1. 無論是透過使用資料目錄、資料發現還是其他工具,都需要某種自動化流程來對資料集進行記錄

3.7. 資料工程技術的創新和進步意味著更高的自動化程度,並進一步提升了我們做好全面準備防止資料當機方面的能力

  • 3.7.1. 無論如何進行劃分,即使對最新的資料團隊來說,追求一定程度的資料可靠性也將成為一種標配

  • 3.7.2. 將資料質量作為資料成熟度的一個向量進行評估

4. 更多的分散式環境與資料領域的興起

4.1. 分散式資料正規化,如資料網格,讓整個企業的職能部門都能更容易地利用資料來處理特定用例

4.2. 面向領域的所有權應用於資料管理的潛力非常之大(更快的資料訪問、更強的資料民主化、更知情的相關方等)​,但潛在的複雜度也是如此

4.3. 資料團隊只需要看看微服務架構,就可以先睹為快在資料網格熱潮平息下來並且團隊開始認真實施後會發生什麼

4.4. 剝離技術元件會增加資料質量的問題

4.5. 如果不積極主動認識到問題並建立有關如何使用資料的來龍去脈,對資料網格方法進行擴充套件可能會非常具有挑戰性

  • 4.5.1. 雖然資料網格宣揚了跨領域的通用聯合層(換句話說,不受限制的治理)​,但團隊必須遵守特定合約並使用專用的API,而這可能會帶來複雜性並導致混亂

  • 4.5.2. 決定是否遷移到資料網格的公司應該長期認真地考慮其能否推動跨組織採用並避免不完善微服務實施的陷阱

相關文章