讀資料質量管理:資料可靠性與資料質量問題解決之道18資料發現

躺柒發表於2024-11-29

1. 讓後設資料為業務服務

1.1. 在過去十多年中,資料團隊越來越擅長收集大量的資料

1.2. 公司如今正在收集越來越多關於其資料的資料,也就是後設資料

  • 1.2.1. dbt等ETL解決方案讓跟蹤和使用後設資料變得容易,而云服務提供商則使棧中資料解決方案之間的後設資料的互操作性變得更加無縫

  • 1.2.2. 沒有與之對應的背景資訊的資料只不過是一堆數字一樣,後設資料本身並沒有用,它只是關於其他資訊的更多資訊

1.3. 後設資料的真正力量在於我們使用它的地點、時間和方式

  • 1.3.1. 如何將它應用於我們正在試圖解決的特定且亟須解決的問題

2. 透過資料發現釋放後設資料的價值

2.1. 資料倉儲和資料湖的考量

  • 2.1.1. 在過去幾年中,雲資料倉儲和資料湖已成為現代資料棧的必備要素

  • 2.1.2. 資料發現工具(或聯合目錄)能夠提供幫助來確保你的資料環境不會變成資料沼澤

  • 2.1.3. 資料湖具有無限的靈活性和可定製性,來支援廣泛的用例,但隨著這種更強的敏捷性而來的是與資料組織和治理相關的一系列其他問題

  • 2.1.4. 隨著資料運營的成熟和資料管道變得越來越複雜,傳統的資料目錄往往達不到你所期望的資料發現工具回答這些問題的方式

2.2. 資料目錄可能淹沒在資料湖甚至資料網格中

  • 2.2.1. 資料目錄經常被用作後設資料的清單,並提供有關資料健康狀況、可訪問性和位置的資訊

  • 2.2.2. 幫助資料團隊回答有關在哪裡查詢資料、資料代表了什麼以及要如何使用資料的問題

  • 2.2.3. 如果我們不知道這些資料是如何組織的,那麼我們所有最好的計劃(或管道)都是徒勞的

  • 2.2.4. 從歷史上看,許多公司都使用資料目錄來加強資料質量和資料治理標準,因為他們通常依賴於資料團隊手動輸入和更新目錄資訊以跟蹤資料資產的演變情況

  • 2.2.5. 在資料湖中,資料是分散式的,因此很難記錄資料在其生命週期過程中的演變情況

  • 2.2.6. 儲存在傳統資料目錄中的資料也難以擴充套件和演變,以滿足分散式資料架構(如資料網格)的需求

2.3. 從傳統的資料目錄過渡到現代的資料發現

  • 2.3.1. 隨著時間的推移,瞭解不同資料資產之間的關係至關重要,但這中間往往缺乏傳統資料目錄的維度

  • 2.3.2. 公司仍需要知道他們的資料存放在哪裡以及誰可以訪問它,並能夠評估其整體健康狀況

  • 2.3.3. 雖然許多資料目錄都有以使用者介面為中心的工作流,但資料工程師需要擁有以程式設計方式與資料目錄進行互動的靈活性

  • 2.3.4. 資料可以透過多個入口點進入資料湖,而工程師需要一個能夠適應該情況並說明每個入口點的資料目錄

  • 2.3.5. 與資料在輸入前進行清洗和處理的資料倉儲不同,資料湖在不對端到端健康狀況做任何假設的情況下就接收了原始資料

    • 2.3.5.1. 如果沒有資料發現工具和資料沿襲,那麼資料湖中的故障可能會變得混亂且難以診斷

    • 2.3.5.2. 在資料湖中,可以透過多種方式與資料進行互動,而資料目錄必須能夠提供對正在使用的內容和未使用內容的理解

  • 2.3.6. 資料發現,換句話說,聯合資料目錄,是一種植根於Dehghani資料網格模型中提出的分散式面向領域架構的新方法

  • 2.3.7. 填補了傳統資料目錄不足的空白

    • 2.3.7.1. 跨資料湖的自動化擴充套件

      2.3.7.1.1. 使用機器學習,資料發現工具來自動跟蹤表級和欄位級沿襲,對映上游和下游的依賴關係

    • 2.3.7.2. 提供對資料健康狀況的實時可見性

      2.3.7.2.1. 資料發現工具提供對資料當前狀態的實時可見性,而不是其“編目”或理想狀態

    • 2.3.7.3. 利用資料沿襲瞭解資料的業務影響

      2.3.7.3.1. 資料發現工具的靈活性和動態性讓其成為將資料沿襲帶入資料湖的理想載體,讓你能夠在正確的時間獲得正確的資訊,並在諸多可能的輸入和輸出之間建立聯絡

    • 2.3.7.4. 支援跨領域自助式服務的資料發現

      2.3.7.4.1. 資料發現工具還支援自助式服務,讓人們無須專門的支援團隊即可輕鬆利用和理解他們的資料

    • 2.3.7.5. 確保跨資料湖的治理和最佳化

      2.3.7.5.1. 現代資料發現工具讓公司不僅可以瞭解在資料生命週期中正在使用、消費、儲存和棄用哪些資料,還可以瞭解這些過程是如何進行的

  • 2.3.8. 資料發現工具還可以讓利益相關方輕鬆識別出最重要的資料資產(也就是經常被查詢的資料)​,以及那些未被使用的資料資產

    • 2.3.8.1. 一些最好的資料目錄越來越多地採用分散式特定領域的資料發現,為團隊提供了在資料生命週期的各個階段完全信任並利用資料所需的可見性
  • 2.3.9. 如果你不信任資料,那麼無論資料多具有“可發現性”也沒什麼用

    • 2.3.9.1. 儘早確定資料質量在公司資料之旅中的優先順序會很有幫助,以避免不必要且帶來麻煩的資料當機

3. 決定何時開始處理公司的資料質量問題

3.1. 更關心要怎樣才能推動採集資料,讓這個事啟動並執行起來

3.2. 構建資料平臺是一個多階段的過程,而資料團隊必須兼顧數十個相互競爭的優先事項

3.3. 如果公司不使用或不信任你的資料,那麼你為資料平臺統治而制定的最佳計劃就成為白日夢

3.4. 七個領先指標

  • 3.4.1. 在最近遷移到雲端

    • 3.4.1.1. 無論出於何種原因進行遷移,你都必須在保持速度的同時建立對資料平臺的信任

    • 3.4.1.2. 應該花更多的時間來構建資料管道,而不是把時間用在編寫測試以防止出現問題上

  • 3.4.2. 資料棧隨著更多的資料來源、更多的表和更高的複雜性而擴充套件

    • 3.4.2.1. 資料產品的規模不是投資資料質量的唯一標準,但的確是一個重要因素

    • 3.4.2.2. 投資資料可觀測性前應該擁有多少資料來源、資料管道和資料表方面並沒有硬性規定,但一個較好的指導原則是擁有50張以上的表

    • 3.4.2.3. 重要的考慮因素是資料棧增長的速度

  • 3.4.3. 資料團隊正在擴充

    • 3.4.3.1. 僱用更多的資料專家,並將現代工具應用到你的資料棧中

    • 3.4.3.2. 技術債將隨時間慢慢積累,而你的資料團隊將投入大量時間來清洗資料問題

  • 3.4.4. 團隊至少花費了30%的時間來解決資料質量問題

    • 3.4.4.1. 資料工程師花費了太多的寶貴時間來修復問題而不是進行創新
  • 3.4.5. 團隊擁有比一年前更多的資料消費者

    • 3.4.5.1. 資料為你的招聘決策、產品功能和預測分析提供了支援

    • 3.4.5.2. 快速增長會導致業務相關方對資料的依賴程度增加,資料需求變得更加多樣化,而最終導致需要更多的資料

    • 3.4.5.3. 更多的資料也會帶來更大的責任,因為不良資料進入你的資料生態系統的可能性也增加了

    • 3.4.5.4. 越是資料驅動型的組織反而越會有更多的資料消費者來發現資料中出現的任何錯誤

  • 3.4.6. 公司正在轉向自助式服務分析模型

    • 3.4.6.1. 公司正在轉向自助式服務分析模型,以便為資料工程師騰出時間,並允許每個業務使用者直接訪問資料並與之進行互動

    • 3.4.6.2. 到最後如果你的終端使用者不信任資料,那麼轉向自助式服務分析模型的目的就會落空

    • 3.4.6.3. 隨著資料越來越成為資料驅動型組織日常運營不可或缺的一部分,對可靠資料的需求只會增加

    • 3.4.6.4. 兩種型別的資料質量問題

      3.4.6.4.1. 你可以預測的(已知的未知)

      3.4.6.4.2. 你不能預測的(未知的未知)

  • 3.4.7. 資料是客戶價值主張的關鍵部分

    • 3.4.7.1. 每個應用程式都將很快成為一個資料應用程式

    • 3.4.7.2. 當沒有優先考慮資料質量時,資料團隊和你的客戶就會遭受損失

3.5. 資料質量源於信任

  • 3.5.1. 組織需要信任他們的資料來為利益相關方提供乾淨可靠的資料

  • 3.5.2. 寶貴的工程時間就會被浪費在救火資料當機上,你為成為資料驅動型公司所做出的努力也會隨著時間的推移而受阻,業務使用者也將失去對資料的信任

相關文章