談談工業企業如何將資料編織與傳統資料倉儲結合

qing_yun發表於2023-05-16

將傳統資料倉儲大規模連線到高階分析需要資料編織,而不僅僅是資料可用性

對於工業企業而言,從資料解放中獲得最終價值的途徑需要三個關鍵步驟。許多組織已經實現了第一步:從孤立的源系統中解放資料並將其聚合到傳統資料倉儲。第二步:從巨量的資料中挖掘價值尋找洞擦力,這要難得多。第三步:透過資料生態系統創造價值,如果成功資料價值將最大化。

在當今成熟的傳統資料倉儲市場中,進步的、資料驅動的組織正在積極利用 Data Fabric 解決方案作為對現有資料倉儲策略的補充。透過使用 Data Fabric,組織可以再次解放他們的資料——將其從聚合池中提取出來,並將其轉化為情境化知識,以實現他們對高階分析的期望。

資料編織與資料倉儲的區別

Data Fabric 的兩個主要支柱是資料上下文和資料發現。他們定義資料編織並使其與現有資料倉儲截然不同並與之互補。

1.資料上下文是不同資料型別和資料工件內部和之間有意義的使用、案例支援關係的總和。它是在所謂的情境化管道中進行資料關係挖掘和管理的結果。向資料新增上下文的過程通常稱為資料上下文化或資料融合。

在上下文化之前,資料通常是從許多源系統整合的,並共同位於一個公共資料儲存庫中,類似於傳統的資料倉儲。或者,資料整合透過資料聯合虛擬化,避免了資料複製和傳輸的需要。最近,混合方法變得普遍,特別是對於延遲敏感的物聯網 (IoT) 資料應用程式,其中必須在資料附近執行資料聚合和資料合成。

組織應用現狀

在電力和公用事業領域,數字化工作長期以來僅限於試點專案、概念驗證和案例研究,沒有大規模的運營專案。這主要是由於過時的 IT 基礎設施依賴遺留系統,並且只為應用程式提供商啟用點對點整合。這些一次性解決方案——有時包括有限的數字孿生——實際上會使數字化目標複雜化,因為由此產生的專案與原始資料一樣孤立,無法擴充套件,成本高到浪費。

用 Data Fabric 補充現有的資料倉儲解決方案大大降低了成本,同時在許多複雜的客戶組織中實現了可擴充套件性、開發速度和資料開放性。

2.資料發現就是讓資料以正確的格式毫不費力地提供給正確的使用者。這一直是資料和資訊架構師的目標。B2C 技術中的發現是即時的、自主的和不斷的自我學習。換句話說,它遠遠領先於企業和物聯網資料發現。這就是最重要的目標:從主動搜尋轉變為基於個性化相關性的被動發現。

最近,資料量、速度和商業價值呈指數級增長,再加上低程式碼和資料科學專案的迅速崛起,使得資料發現比以往任何時候都更加重要。

在企業資料管理的背景下,使正確的資料易於發現依賴於幾乎相同的方法:正確的後設資料、標籤、與其他資料的連結以及資料編目以使其可被機器和人讀取。過時的手動後設資料管理正逐漸被主動的、機器學習支援的後設資料實踐所取代,用於從關係和叢集中發現和推斷新的後設資料。

這就是進步組織正在尋找資料編織解決方案來補充其傳統資料倉儲策略的原因。Data Fabric 為現有的資料倉儲的資料資產新增了關鍵上下文和發現。事實上,用 Data Fabric 補充傳統資料倉儲是推動所有三個步驟實現真正資料解放的唯一途徑。

利用 Data Fabric 提高應用場景開發效率

現在讓我們進一步將資料編織與資料倉儲放在一起。為了解決資料可訪問性、可擴充套件性和效率帶來的關鍵挑戰,資料倉儲無疑是用於業務場景交付的不斷髮展的技術堆疊的重要組成部分。但很明顯,一些限制仍未解決。雖然資料湖為資料可重用性創造了環境,透過更好地訪問其源系統中的資料以及採用支援可擴充套件性的標準的方式,但它未能提高開發過程的效率。

正如下圖中所看到的,雖然可以在資料倉儲的一個位置訪問更多資料,但它仍然沒有完全解決在資料對業務用例有用之前必須發生的上下文化。因此,每次在用例中使用資料時都必須將其重新上下文化,從而暴露出嚴重的人工效率低下問題。

這就是 Data Fabric 作為手段發揮作用的地方:1) 使首次將資料集上下文化變得更容易,2) 自動將新資料上下文化到資料模型中,3) 使這些資料模型能夠在新用例中重用。

如上圖所示,這種下一代架構對於避免新用例需要與第一個概念驗證相同的工作量,同時減少在其生命週期中維護多個資料解決方案的 IT 負擔和成本至關重要。資料解決方案堆疊在實踐和架構方面不斷髮展,資料倉儲和資料編織將繼續發揮重要的共生作用。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/XadLndPUTDKEWM7hXcdHoQ,如有侵權,請聯絡管理員刪除。

相關文章