如何實施資料網格? - thenewstack

banq發表於2022-02-21

資料網格克服了由資料湖和資料倉儲設計引起的限制和減速,而是以分散的點對點方式連線資料 - 將其網格化。該想法由 Thoughtworks 新興技術總監 Zhamak Dehghani 提出,並建立在四個基礎上:面向領域的資料所有權、資料即產品、自助資料和適當的治理。我相信這些對於幫助我們在未來十年擴充套件資料分析和機器學習至關重要。
以下是有關如何在現場實施資料網格的一些想法:
  1. 集中動態資料:引入中央事件流平臺;Apache Kafka 和 Confluent Cloud 是很好的解決方案,因為它們減少了工作量,讓您專注於實際使用網格。
  2. 分配資料所有者:為組織中的關鍵資料集指定所有者。您希望每個人都知道誰擁有哪個資料集。
  3. 將資料寫入 Kafka 主題:您可以將事件無限期地儲存在 Kafka 中,並使用壓縮將資料保持在可管理的大小。消費者可以根據需要從主題中的任何一點閱讀。
  4. 處理架構更改:所有者將向網格釋出架構資訊(可能以 wiki 的形式,或者從 Confluent Cloud 架構登錄檔中提取資料並轉換為 HTML 文件),您需要一個流程來處理架構更改贊同。
  5. 安全事件流:您需要一箇中央許可權來授予對單個事件流的訪問許可權。您可能需要在此處整理內部法規和規則。
  6. 從任何資料庫連線:許多受支援的資料庫型別都有可用的源和接收器聯結器。確儲存在所需的聯結器,以便您可以輕鬆配置生產和消費。
  7. 為新事件流的發現和註冊建立一箇中央使用者介面:這可以是一個應用程式,甚至是一個 wiki。它必須支援幾個關鍵活動,包括搜尋感興趣的資料、預覽事件流、請求訪問新的事件流和資料沿襲檢視。

雖然資料網格需要對您當前的資料架構設計進行有價值的重新思考,但它並不能解決您組織中的所有問題並解決所有問題。它與其他重要策略結合使用,例如雲端計算、微服務和領域驅動設計。這些其他方法很可能需要成為您工作的一部分,與資料網格一起,有時甚至是正交的。應用您認為合適的資料網格概念,為您的公司獲得最大利益。
資料網格作為一個概念仍然處於萌芽狀態。只要資料網格的基本原理完好無損,就沒有正確或錯誤的構建方式。

相關文章