談談如何透過構建資料產品釋放資料價值

陶然陶然發表於2023-05-18

  你有沒有因為一條不良的資訊而讓你的整個工作日都不線上?您精心製作了一個充滿“工作塊”或“專注時間”的周曆,但緊迫的問題一出現,您的議程就被拋在腦後了。資料工程師特別是與這種模式產生共鳴。業務使用者不知道儀表板中某個欄位背後的轉換邏輯?找你。有人質疑為什麼這個特定表的保留是30天,而不是45天?找你。或者,存在發現哪些團隊正在使用特定表的治理需求。找你。您被迫在接下來的五個小時內調查丟失的資訊,這些資訊本應存在於某處的匯合頁面中。通常情況下,找到這些答案通常是一項極其困難的任務,這正是您首先被找的原因,它甚至可能導致所需的程式碼更改。歸根結底,資料生產者和資料消費者都會感到更多的不信任、更多的挫敗感和更不情願的合作。

  為什麼資料生產者和資料消費者之間存在這種脫節

  如果您曾經擔任過這兩個角色中的任何一個,那麼您很可能會親身體驗當前資料環境中資料生產者和資料消費者之間存在的明顯不一致。

  資料消費者無法準確地將他們的需求傳達給資料生產者,導致不斷變化的請求、後期製作更新,以及範圍蔓延之大,以至於變成了範圍雪崩。在功能完成結束時,最初的請求最初被正確傳達並且提供的資料滿足原始請求的可能性很小。

  資料生產者很難理解歸因於新請求和當前更新的商業價值。沒有優先考慮最關鍵的業務流程,導致所有資料管道都被半維護。因為沒有附加的投資回報率(ROI),所以不需要分配所有權。

  很難正式量化缺乏一致性,但這種缺失的協作會導致各種下游後果。資料轉手越多,資料就越不可信,尤其是在大型組織中,資料在到達最終目的地之前要經過幾個團隊。您實質上是在玩電話遊戲,其中每個實體都有某種印記,可以改變其原始形式的資料,但具有目標資料輸出。這種不一致的原因可以追溯到資料缺乏所有權和問責制。這種脫節並非源於資料從業者本身,而是我們所處的當前資料環境的結果。

  雖然這聽起來很淒涼,但當前的資料環境最近已將其重點轉移到增加資料旅程中極其重要的組成部分,例如資料所有權、資料問責制和資料治理。最近的討論主題之一圍繞著資料產品,以及如何利用資料產品來加強問責制並鼓勵資料生產者和資料消費者之間的協作。

  資料產品是經過打包的精選資料集,旨在為下游消費者創造價值

  精選——資料產品是需求驅動的,是為特定需求而構建的。

  創造價值——資料產品透過以一種使資料更有用和更易於訪問的方式呈現資料來創造價值。

  資料產品是一種建立精選資料集的創新、現代方式,可以跨團隊儲存、釋出、搜尋和使用這些資料集以提供商業價值。資料產品旨在解決有針對性的業務問題,資料生產者和資料消費者都應該能夠輕鬆訪問資料產品。

  關於這個定義有三個重要的特點:

  為特定目的而建立的資料產品必須出於某種原因被請求。當手工選擇資料產品來解決所需的需求時,資料產品就被策劃了。通常資料產品首先是與最高投資回報率產生的輸出相關聯的。

  為了促進資料自助化,資料產品透過可訪問和自助服務產生價值。那些需要訪問資料的人應該能夠輕鬆實現訪問。

  為任何下游消費者打造的資料產品不僅為企業消費者增加價值。整個組織的工程師都可以使用資料產品來快速定位有關選擇性資料輸出的關鍵資訊。

  定義資料產品的質量

  雖然資料可能是主角,但如果沒有圍繞它的所有其他元素,就無法講述任何型別的故事。當我們討論資料產品時,我們並不是專門討論目標輸出,而是指對最終資料輸出有貢獻的所有資訊。

  資料產品的三個組成部分是:

  資料:資料產品的核心,可以採用表、檢視或物化檢視的形式

  後設資料:與資料關聯的表定義,包括(但不限於)業務上下文、標籤、沿襲資訊、統計資訊和所有權

  訪問模式:使用者的預期訪問計劃,包括誰有權訪問特定資料、如何訪問該資料以及計算模式。

  資料產品具有內在的共享性,這就是為什麼可以利用它們來加強協作。雖然資料產品通常是根據一個團隊的初始請求建立的,但鼓勵在整個組織中廣泛共享資料產品。這不僅有助於加強協作,還有助於加強團隊之間和團隊內部的問責制。現在使用的資料有五個不同的團隊在檢視它,而不是每個團隊都被迫維護自己的資料副本。

  要建立有效的資料產品,每個資料產品都必須充當一個獨立的實體。在與特定資料產品互動時,應該擁有所有需要的資訊。雖然這並不意味著每個資料產品都必須在其中包含相同的元件,但這確實意味著資料產品提供了足夠的資訊以透過允許其他人自助服務來增加價值。

  資料產品需求

  以對您的團隊有意義的方式構建資料產品時,存在無限可能。然而,重要的是要牢記透過實施資料產品獲得什麼:增強整個組織的資料所有權意識、資料責任感和資料民主化。在開始您的資料產品之旅時,關注這四個必要條件將幫助您朝著這些目標邁進。

  需求驅動。資料產品的設計和構建必須服務於明確的需求。為了構建資料產品而構建資料產品將導致半維護的資料集,並破壞了管理這種高質量資訊的整個目的。以意圖為基礎的資料產品將自動推動資料生產者和資料消費者之間更好的協作。

  可重用和可擴充套件。每個資料產品都應設計為促進跨多個用例的輕鬆重用,以提高資料民主化和資料問責制。在資料產品的整個設計過程中合併多個資料消費者以實現這一點應該很常見。雖然您可能擁有專為“一個”特定用例設計的產品,但它們應該是絕大多數。

  可發現和可訪問。資料產品的組織方式應有助於團隊快速查詢和訪問所需資訊,同時還具有共享能力以實現價值最大化。透過提供一種自助服務方法,資料產品正在為資料民主化和資料可訪問性的組織級戰略做出貢獻。

  承諾的所有者。為了避免常見的陷阱,資料產品必須在整個生命週期內得到妥善管理。從成立到退休,您需要一位接受過適當職責培訓的正式所有者。首先,您必須有一套既定的公開承諾,所有所有者都應遵守這些承諾。接下來,應該對資料產品進行足夠的記錄,以便所有權之間的交接不會導致缺乏問責制。

  我們為什麼需要資料產品:縮小運營和分析之間的差距

  在Zhamak Dehghani 的原始資料網格帖子和她的書中,資料網格的一個關鍵方面是縮小運營資料和分析資料之間的差距。運營資料是支援運營資料平臺的技術和人員的結合。同時,分析資料是支援分析資料平臺的技術和人員的結合。

  在Zhamak 的書中,她指出,從資料倉儲方法過渡到資料網格方法的組織將涉及刪除資料倉儲層,並讓域負責來自運營和分析的資料。

  另一種思考這兩個平面的方式讓我告訴每個人都很懊惱,我長期以來一直認為操作和分析平面是一塊維多利亞海綿蛋糕:

  這塊蛋糕由兩層組成,頂部是分析平面,底部是操作平面。兩個平面之間有一層可愛的草莓醬,代表負責將資料從操作平面獲取到分析平面的資料管道。

  資料倉儲、資料湖或資料湖屋位於分析平面,因此如果我們打算構建僅基於這一層的資料產品,我們只會消耗蛋糕的上半部分。這不可避免地會導致我們的手指變得粘糊糊的。這在資料世界中意味著我們無法實現去中心化資料所有權所承諾的敏捷性。

  原因是:要真正敏捷,域需要負責從作業系統中獲取資料,轉換資料,然後提供服務。當我們引入資料倉儲時,我們依靠一個集中的資料團隊來執行攝取和至少一些轉換,這是一種資料網格反模式。這不可避免地導致資料產品開發和管理緩慢。

  我們從成功採用資料網格中學到的是,域需要構建和管理其資料跨越操作和分析資料平面的資料產品。他們需要從上到下吃掉整塊蛋糕。

  為了激勵域構建資料產品並實現敏捷性,我們在技能、責任和激勵方面看到了多種方法。在所有場景下,我們都需要確保每個域都具備構建資料產品所需的技術和資料技能。

  這會顯著增加企業層面的支出,並且可能會出現跨領域重複的昂貴資料工程技能。另一種方法是提供簡化的訪問,抽象出對技術知識和技能的大部分需求,以訪問操作和分析中的資料。

  這種方法大大降低了技術技能水平,從而降低了每個域內專業資源的費用,並確保資料仍然是關注點。

  資料網格中的資料管道

  在過去的一年裡,我聽到資料專業人士說資料網格消除了對資料管道的需求,但我觀察到的並非如此。管道還活著。然而,當我們考慮資料網格中的管道時,它們本質上是資料產品的“鏈”。

  例如,在上圖中,我們有一個資料產品,它從 CRM 系統獲取資料。它的輸出資料隨後被另一個以特定方式轉換它的資料產品使用。然後,我們有另一個資料產品,將該資料與另一個基於 ERP 系統的資料產品結合起來。

  這很有趣並且與以前所做的不同的原因是我們現在對整個管道中的每個資料產品都有明確的所有權。如果資料管道出現問題,我們會立即知道責任人。

  此外,資料產品所有者知道他們在消費誰的資料以及誰在消費他們的資料產品。這意味著資料產品所有者可以通知上游資料提供者和下游資料消費者並就他們需要進行的更改進行協作。這個協作和通知目前在 Data Mesh 社群中正在經歷激烈的爭論,尤其是圍繞資料契約的概念。

  根據我的觀察,這些更改現在正在整合到版本控制系統中,以便各個資料產品所有者可以根據需要進行版本化更改,而不受其資料產品消費者的限制。

  三類資料產品

  接下來,當我們考慮Zhamak 的書中確定的資料產品型別時,有三種明確定義。

  #1 源對齊資料產品

  第一個是源對齊資料產品。這表示資料在作業系統中的原樣,轉換最少。我看到組織將這些作為建立更有價值的資料產品的第一步。

  我在這裡要進行的觀察是,資料編織技術正開始用於半自主地建立這些第一級資料產品。我認為這平息了一次又一次出現的爭論,圍繞哪個是組織的資料網格或資料編織的正確前進路線;我建議答案可能是兩者。

  在下圖中,我們可以看到使用資料編織來自動建立源對齊資料產品,它可以充當消費者對齊資料產品的源。

  #2 與消費者一致的資料產品

  下一個資料產品型別是與消費者一致的資料產品。當“資料產品”被泛指時——這些是人們最常思考和討論的資料產品。

  這些資料產品由域內的業務專家生產,這些專家透過業務知識和專業知識的編纂產生價值。要建立這些資料產品,我們需要儘可能少的“技術摩擦”。域專家應該能夠在儘可能少的來自域內外的額外幫助和專業知識的情況下建立這些資料產品。

  #3 聚合資料產品

  最後,聚合資料產品的 TL;DR 定義是它們是在公司層面構建的,以推動全球 KPI。

  關於這些是什麼以及它們與消費者一致的資料產品有何不同的討論很多。但是,我們已經看到組織以自己的方式定義了聚合資料產品。下圖說明了資料產品如何與企業級 KPI 和企業的業務目標保持一致。

  此外,我們可以看到一種自上而下的方法,我們定義了由跨業務部門 KPI 組成的公司 KPI。較低階別的 KPI 由源對齊或消費者對齊的域建立的資料產品。在此圖中,聚合資料產品是那些將來自跨業務部門 KPI 資料產品的資料彙集在一起以支援企業級 KPI 的資料產品。

  利用使用指標構建有價值的資料產品

  在涉及構建資料產品等新計劃時,資料治理通常是首要考慮的問題。當我們考慮治理時,從歷史上看,我們會考慮訪問控制、安全性、所有權、沿襲和使用指標。使用指標是一種記錄、報告和分類資料消費者如何在其分析中利用資料的方式。

  從資料產品開發人員的角度來看,使用指標至關重要,因為它們是衡量資料產品價值的一種簡單的方法。同時,使用率越高,該資料產品對組織的價值就越高。這意味著資料產品開發人員知道應該關注哪些資料產品,哪些應該淘汰。從高階管理層的角度來看,我們可以實施使用指標作為員工激勵和激勵的工具。

  從終端使用者的角度來看,資料產品的使用指標使我們能夠洞察資料產品的可信度。使用率越高,我們對資料產品的信任度就越高。

  最初,我們需要進行業務分析以破譯我們認為哪些資料產品有價值。然後,基於資料使用報告,資料生產者可以採取主動行動,使資料產品更易於使用、更易於查詢和更有用。

  簡而言之,對於資料產品,我們想知道到底是誰在使用它們,我們想知道資料消費者如何使用它們,以便我們衡量它們的價值。因此,我們可以從被動資料管理轉變為主動資料管理。

  從被動到主動的資料管理

  從歷史上看,資料所有權一直是事後才想到的,並且由於資料沒有被視為產品,因此出於戰略原因對資料消耗的調整是非常被動的。然而,隨著資料在資料網格中被視為產品,資料的生命週期變得主動並且類似於任何其他產品。這是“資料資產”和“資料產品”之間的主要區別,這是定義任何資料產品的一種非常簡單的方法。

  資料產品的現代概念以產品管理技術為中心,這些技術將利益相關者定義的價值交付放在首位和中心位置。它鼓勵跨職能協作,打破孤島並提高整個企業的資料流暢性。

  接下來,我們將探索建立價值驅動資料產品的一些優秀實踐。

  #1 資料產品入門:從小處著手並迭代

  開始使用資料產品時,必須關注一兩個具有明確範圍和業務價值的特定用例。透過瞄準具有高影響力的用例,組織可以快速取勝並向利益相關者展示資料產品的價值。這種方法還為組織提供了嘗試不同工具和方法並確定最適合他們的方法的機會。

  專注於具有明確範圍和業務價值的用例是為持續的資料產品開發建立的一個關鍵習慣。鼓勵開發人員和業務利益相關者之間持續協作的迭代開發過程也是如此。團隊需要共同努力,根據使用情況和反饋改進資料產品。迭代過程通常會揭示開發人員和使用者對需求的新理解,並確保與業務需求保持一致。

  #2 開發資料產品:組建多學科團隊

  擁有業務和技術專業知識的多元化資料產品團隊對於開發資料產品至關重要。根據資料產品的性質,所需技能可能包括資料科學、資料工程、資料分析和資料視覺化。至關重要的是,該團隊的成員應具有業務領域知識,最好由利益相關者代表,並且具有產品管理技能。

  擁有業務和技術專業知識的多元化資料產品團隊對於開發資料產品至關重要。

  較大的組織通常可以在下圖中所示的每個技能領域中將一個或多個人分配到資料產品團隊。較小的公司通常需要能夠為團隊帶來多種技能並擔任不止一種角色的人。

  資料產品團隊的知識和技能

  #3 實現資料產品的價值:資料產品交付平臺

  為了實現其資料產品的潛在價值,組織必須讓使用者能夠找到、理解、訪問和信任它們。因此,資料產品交付平臺必不可少。它是一個自助服務門戶,使使用者能夠搜尋或瀏覽合適的資料產品,瞭解它們的潛在用途,並訪問它們或輕鬆請求訪問。資料消費者還必須能夠評估產品質量和可靠性,並確定他們是否可以信任滿足其需求的資料。因此,平臺應提供後設資料、文件和資料質量措施,以確保使用者瞭解產品的背景和侷限性。

  #4 為使用者提供更多資料:建立資料治理

  精心製作的資料產品和良好的交付平臺將使更多的使用者可以使用更多的資料。對於一直在努力利用其資料的組織而言,這可能具有變革性。然而,它也可能陷入混亂。因此,當務之急是為資料產品在廣泛可用之前必須滿足的後設資料、文件和資料質量建立資料治理標準。自動執行這些標準對於跟上對資料產品不斷增長的需求也至關重要。以下是一些自動執行的方法:

  確保資料質量。自動化的資料驗證、分析和清理可以幫助識別和糾正資料質量問題,確保資料產品建立在準確、可靠的資料之上。

  保護資料隱私和安全。自動資料遮蔽、加密和訪問控制可以保護敏感資訊,確保資料產品符合隱私和安全法規。

  促進合規。自動化的資料沿襲、審計跟蹤和策略執行可以幫助組織證明其符合資料法規和行業標準,從而最大限度地降低高額罰款和聲譽受損的風險。

  除了自動化之外,解決資料治理的人員和流程方面也很重要。明確定義資料治理的角色和職責,以確保所有團隊成員瞭解他們在維護資料質量、安全性和合規性方面的作用。透過培訓、提高意識和獎勵卓越來鼓勵資料治理文化。最後,監控和測量關鍵資料治理指標,例如已識別和緩解的資料質量問題、資料管道的可靠性以及可以刪除的未使用資料訪問許可權。

  小結:資料產品是資料驅動型組織必備的能力

  將資料視為產品可確保團隊將利益相關者的需求和業務價值放在首位。採用資料產品方法時要考慮的最重要的事情是:

  專注於具有明確範圍和業務價值的用例。

  組建一個具有業務利益相關者代表的多學科資料產品團隊。

  透過頻繁的利益相關者反饋機會迭代開發資料產品。

  構建強大的產品交付平臺,使資料產品易於查詢、理解、訪問和信任。

  建立自動化資料治理以確保質量和合規性,同時不妨礙創新。

  透過這些方法,組織可以利用資料產品的力量推動分析取得成功,並在當今資料驅動的世界中保持競爭優勢。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://server.it168.com/a2023/0518/6804/000006804241.shtml,如有侵權,請聯絡管理員刪除。

相關文章