對現代資料質量的重新思考

带你聊技术發表於2024-03-13


來源:資料驅動智慧


人工智慧和機器學習用例對準確資料的巨大需求推動資料質量領域正在經歷重新思考怎麼辦?畢竟,如果像 ChatGPT 這樣的複雜模型是用錯誤資料進行訓練的,那麼它們有什麼用處呢?這些錯誤的資料甚至可能肉眼都看不出來。資料本身可能是正確的,但到達系統的時間有點晚或者有偏差。

如果我們錯誤地處理了資料質量問題,從而無法克服資料質量差的問題怎麼辦?將資料質量視為技術問題而不是業務問題可能是取得進展的最大限制因素。查詢技術缺陷,例如重複資料、缺失值、無序序列以及與歷史資料預期模式的偏差無疑至關重要,但這只是第一步。要求更高、更關鍵的一步是衡量業務質量,檢查資料是否在上下文中正確。

現代資料質量是由業務 KPI 和戰略要求驅動的自上而下的工作。

隨著業務團隊擴大資料在新用例中的使用,當資料質量落後時,風險就會更高。企業正在競相更快地利用資料資產,並且不希望因資料質量障礙而放慢速度。

商業質量不是可有可無的。開始數字化轉型的組織需要重新調整資料質量的方式,以便變得更加資料驅動,並將資料用作競爭優勢。

這項研究探討了資料質量空間的現代化。

新規則手冊

到 2022 年,擁有 1000 名員工的組織將擁有超過 150 個 SaaS 應用程式。這些應用程式大多數都儲存與其需求相關的資料,但是,為了執行跨組織分析,需要聚合、豐富和整合這些資料。與過去相比,這個過程極大地擴大了資料質量計劃的範圍,當時所有資料都來自少數以結構化方式儲存資料的內部 ERP 或 CRM 應用程式。新的人工智慧和機器學習用例通常使用依賴於高質量現實資料的合成資料。

如果說過去十年我們積累了更多資料,那麼當前十年我們更關心確保我們擁有正確的資料。Gartner 估計,每個組織因資料質量差而造成的成本平均為 1500 萬美元。在這十年中,資料網格、資料產品、資料共享和市場等新的資料交付方式開始成為主流。

以零售應用程式中的訂單表為例。各省、市、縣的銷售稅差別很大,而且經常變化。您的資料質量子系統應該檢測是否推斷出某個訂單可能應用了不正確的稅款。組織越早發現並糾正問題,成本就越低。

本節的標題很諷刺,因為很多傳統資料質量都是基於規則的。是的,重新思考要求我們從靜態的、預定義的規則轉向發現隱藏在資料內部的規則。這些規則是根據資料中存在的模式推斷出來的,並且使用機器學習演算法可以預測新傳入資料的可靠性。當推斷的規則與現有規則相結合時,就會出現更豐富的資料質量系統。

我們已經意識到在動態和快速變化的資料世界中建立規則和政策的侷限性。新的前沿是使用複雜的機器學習模型來理解資料的“行為”,並動態檢測異常並推薦修復步驟。發現規則的一個例子是基於通常進入系統的資料量。隨著業務的增長,資料量會以穩定的速度增長,可以使用機器學習技術來預測。如果突然出現無法解釋的偏離預期範圍的情況,那麼資料質量產品應該向利益相關者發出警報。完成得越快,破壞性就可以得到有效控制。

下圖顯示了處理資料質量的新方法。

對現代資料質量的重新思考

現代資料質量方法是基於上下文的,旨在更快地交付資料結果,並具有更高的可靠性和信任度。

現代資料質量的四大支柱是:

自上而下的業務 KPI

如果資料質量這個術語從未被創造出來,而目標是“業務質量”,那麼 IT 團隊也許會受益。在這種情況下,確保資料正確的存在理由是確保實現業務成果。在這種情況下,焦點從資料基礎設施轉移到其上下文。

但是,“上下文”到底是什麼?

它是業務用途對資料的應用。例如,“客戶”的定義在不同的業務部門之間可能有所不同。對於銷售來說,它是買家;對於營銷來說,它是影響者;對於財務來說,它是支付賬單的人。因此,上下文的變化取決於誰在處理資料。資料質量需要與上下文保持同步。在另一個示例中,國家/地區程式碼 1 以及美國和加拿大地區可能看起來相似,但實際上並非如此。

不同的團隊可以出於截然不同的目的使用表中的相同列。因此,資料質量的定義各不相同。因此,資料質量需要應用於業務上下文級別。

產品思維

資料網格原理所引發的概念非常引人注目。它們發展了我們的思維,因此在實踐中可能行不通的舊方法實際上可以在今天發揮作用。最大的變化是我們如何看待資料:作為一種產品,必須在管理時考慮到使用者及其期望的結果。

組織正在應用產品管理實踐來使其資料資產變得可消費。“資料產品”的目標是透過讓不同的消費者更容易地消費和分析“可信資料”來鼓勵更高的利用率。這反過來又提高了組織以低摩擦方式從資料資產中快速提取情報和見解的能力。

同樣,資料質量也應該採用相同的產品管理原則。資料生產者應釋出“資料合同”,列出向消費者承諾的資料質量水平。透過將資料質量視為最重要的要素,生產者應該瞭解資料的使用方式及其質量的影響。

資料產品的資料質量SLA旨在確保消費者瞭解資料新鮮度等引數。

資料可觀察性

通常,資料消費者是第一個檢測到異常的人,例如 CFO 發現儀表板上的錯誤。此時,一切都亂了套,IT 團隊進入被動救火模式,試圖檢測複雜架構中錯誤出現的位置。

資料可觀測性透過持續監控資料管道並使用先進的機器學習技術來快速識別異常,甚至主動預測異常,以便在問題到達下游系統之前進行修復,從而填補了這一空白。

資料質量問題可能發生在管道中的任何地方。然而,如果問題被發現得越早,修復的成本就越低。因此,採用“左移”的理念。資料可觀測性產品透過以下方式增強資料質量:

  • 資料發現從資料來源和資料管道的所有元件(例如轉換引擎和報告或儀表板)中提取後設資料。

  • 監控和分析——動態和靜態資料。正在使用的資料怎麼樣?

  • 預測性異常檢測——使用內建

  • 警報和通知

資料質量是資料可觀測性的基礎部分。下圖展示了資料可觀測性的整體範圍。

對現代資料質量的重新思考

資料可觀測性是一個多維概念,涉及三個領域:資料質量、管道或基礎設施以及包括成本指標在內的業務運營。這三個領域分別提供信任、可靠性和價值。

整體資料治理

資料質量子系統與整體後設資料管理密不可分。

一方面,資料目錄儲存定義或推斷的規則,另一方面,DataOps 實踐生成進一步細化資料質量規則的後設資料。資料質量和 DataOps 確保以正確的規則和上下文以自動方式持續測試資料管道,並在推斷異常時發出警報。

事實上,資料質量和 DataOps 只是後設資料眾多用例中的兩個。現代資料質量與這些其他用例整合在一起,如下圖所示。

對現代資料質量的重新思考

長期以來,後設資料管理一直受到困擾,因為這些用例一直處於孤立狀態。現代資料質量是全面、統一的後設資料管理平臺的一部分。

將資料質量與資料治理其他方面結合起來的綜合後設資料平臺可以改善業務使用者(例如資料消費者以及資料產品的生產者和維護者)之間的協作。它們共享相同的背景和指標。

這種緊密的整合有助於採用左移方法來提高資料質量。持續測試、編排和自動化有助於降低錯誤率並加快資料產品的交付。需要這種方法來提高對資料團隊的信任和信心。

這種整合是企業採用資料產品、資料網格和資料共享選項(如交易所和市場)的現代資料交付方法的基石。

現代資料質量的好處

資料質量計劃的目標是建立對資料的信任。然而,信任是一個廣泛且通常定義不明確的術語,可能包括許多控制和管理資料的主題。當後設資料管理平臺的所有元件作為一個單元工作時,可信資料就成為可能。例如,如果沒有準確的資料,就很難確保所有資料安全和隱私計劃都能按設想發揮作用。

這應該是首席資料官 (CDO) 的首要目標。

但許多組織未能實現多次資料治理嘗試。然而,現實情況是,無論我們所謂的資料治理計劃如何,全球合規性只會不斷增加;必須解決業務質量問題。

現代資料質量方法的好處是:

  • 問責制

在資料網格和資料產品的去中心化資料交付世界中,現代方法要求業務團隊負責資料質量。畢竟,域所有者是主題專家,最瞭解他們的資料。

業務使用者透過處理上下文以滿足關鍵 KPI 來增強資料質量的技術方面。然後,資料質量就成為打包資料產品中承諾的 SLA。並且它隨著資料的變化而不斷髮展。因此,資料產品有了新的版本。資料消費者不再需要事後猜測是否信任資料。

  • 交貨速度

“資料質量延遲”是指新資料到達和對其執行資料質量檢查和修復之間的時間。現代工具應該能夠

現在,更多的資料是透過多個外部資料來源(例如多種格式的 SaaS 產品)生成的,並且通常以實時流的形式到達,而不是內部系統中。過去將資料放置在單個目標位置並以批處理操作執行資料質量的技術已不再足夠。舊的靜態方法將資料質量視為對僅以固定時間間隔執行的靜態資料的獨立工作。

現代“持續質量”方法是積極主動且動態的。它與包括編排、自動化和 CI/CD 在內的 DataOps 原則同步。這種方法使資料團隊能夠更快地交付資料產品。它允許習慣於每季度釋出一次的組織加速並每週交付多個版本。

  • 更高的生產力

傳統的資料質量方法不成功的原因之一是實現最終目標需要大量的精力和時間。寶貴的員工陷入手動修復下游系統中的資料質量問題的困境。通常,耗時的核對是在 Microsoft Excel 電子表格中進行的。這是治療症狀而不是問題。

識別和修復接近問題根源的現代方法可以節省時間和成本。透過 DataOps 提供的各種自動化功能以及與資料治理其他方面的整合,這種方法可以提高資料團隊的生產力。

一旦資料質量問題得到解決,資料團隊

  • 成本

隨著資料量不斷增加,為了保證持續的質量,系統需要自動擴充套件。這通常是基於雲的解決方案提供幫助的地方。然而,即使在雲中,也有兩種方法來執行資料質量檢查——一種是透過持續監控動態資料的代理,另一種選擇是將靜態資料下推到雲資料倉儲中並使用下推功能。每個選項都服務於獨特的用例,並提供架構和成本權衡。

在前一種方法中,在資料進入目標分析系統之前檢測資料質量問題。這對於流資料情況下的異常檢測非常有用。但是,它需要一個處理引擎,例如 Apache Spark 叢集。

在後一種情況下,資料首先進入分析系統,例如 Snowflake,然後資料質量產品生成 SQL 查詢並在儲存引擎內執行。此選項最大限度地減少資料移動,因此可能更安全。此外,它還可以利用分析系統的自動縮放功能。

架構師應分析每個選項的總成本,以評估合適的架構。

小結

在一個如此強調分析速度和敏捷性的世界中,資料質量受到了影響。然而,現代資料質量方法再次使其成為一階問題,沒有它,現代分析就會變得不完整。重點正在從僅檢查完整性、唯一性和完整性等技術維度轉向可靠性、信任和上下文準確性。



來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70024922/viewspace-3008807/,如需轉載,請註明出處,否則將追究法律責任。

相關文章