什麼是資料編織"Data Fabric "?

qing_yun發表於2022-05-16

“石老師,Data Fabric(資料編織)你聽過嗎?據說在資料領域很火啊?”

這是一個“談資料”讀者,去年10月份的時候在微信公眾號給我的留言。

說來比較慚愧,Data Fabric這個詞對我來說當時雖然聽過,但也僅限於“聽過”!因為當時我也只知道 "Data Fabric "是 Gartner 2021年十大資料和分析技術趨勢之一,但其具體工作原理、應用場景卻知之甚少了……

“Data Fabric”在國內談論的比較少,但據說在國外已經很火了,就如同2019年國內的“資料中臺”一樣火!

“Data Fabric”究竟是什麼?這又是一場概念的炒作,還是真正的技術革新?這些問題一直困擾著我。於是,帶著這些問題,通過翻閱大量材料,終於發現了“Data Fabric”的“真相”!

01、什麼是資料編織?

當下,資料是企業數字化轉型重要驅動因素,而企業的資料環境日趨複雜:內部資料/外部資料,實時資料/批處理資料,結構化資料/半結構化資料/非結構化資料,本地資料/雲端資料,單機資料/分散式資料……,在更高程度數字化要求下,企業必須使用一種新型的資料結構來應對企業資料資產日益加劇的多樣化、分散式、規模、複雜性等問題。

在這樣的背景下,一種新興的資料管理和處理方法——資料編織(Data Fabric)誕生了。

Gartner認為資料編織是一種跨平臺的資料整合方式,它不僅可以集合所有業務使用者的資訊,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何資料。

圖片來源:Gartner

作為一種新興的資料管理和處理方法,資料編織改進了資料倉儲和資料湖的概念,引入了一個新的架構(網路狀),使整個企業能夠統一利用資料。資料編織使用基於網路的架構而不是點對點的連線來處理資料,實現了從資料來源層面到分析、洞察力生成、協調和應用的一體化資料結構。

據Gartner預測:資料編制利用分析功能來持續監控資料管道,通過對資料資產的持續分析,支援各種資料的設計、部署和使用,縮短整合時間30%,縮短部署時間30%,縮短維護時間70%。

02、資料編織的結構和特點

Gartner 將資料編織定義為一種設計概念,它充當資料和連線過程的整合層(結構)。資料編織利用對現有、可發現的後設資料資產的持續分析,以支援跨所有環境(包括混合雲和多雲平臺)設計、部署和利用整合和可重用資料。資料編織利用人和機器的能力來訪問資料或在適當的情況下支援其整合。它不斷地識別和連線來自不同應用程式的資料,以發現可用資料之間獨特的、與業務相關的關係,並通過分析獲得資料洞察力;通過快速訪問和基於圖譜的後設資料理解提供比傳統資料管理更多的價值。

下圖是Gartner給出的資料編織的典型結構,至下而上分為5個層次:

圖片來源:Gartner

資料來源層:資料編織可以連線各種資料來源。這些資源可能存在於企業內部,例如企業的ERP系統、CRM系統或人力資源系統 。還可以連線到非結構化資料來源,例如,支援 PDF 和螢幕截圖等檔案提交系統,支援物聯網感測器的接入。資料編織還可以從公共可用資料(如社交媒體)等外部系統中提取資料。

資料目錄層:與傳統人工編目不同,資料編織強調採用新技術,例如:語義知識圖、主動後設資料管理和嵌入式機器學習 (ML),自動識別後設資料,持續分析關鍵指標和統計資料的可用後設資料,然後構建圖譜模型,形成基於後設資料的獨特和業務相關關係,以易於理解的圖譜方式描述後設資料。

知識圖譜層:資料編織必須構建和管理知識圖譜。知識圖譜的語義層使用 AI/ML 演算法簡化資料整合設計,使其更加直觀和易於解釋,使數字化領導者的分析變得容易。 基於知識圖譜的資料應用,將合適的資料在合適的時機自動化推送給資料整合專家和資料工程師,讓他們能夠輕鬆訪問資料並進行資料共享和使用。

資料整合層:資料編織提供自動編織、動態整合的能力,相容各種資料整合方式,包括但不限於 ETL、流式傳輸、複製、訊息傳遞和資料虛擬化或資料微服務等。同時,支援通過 API 支援與內部和外部利益相關者共享資料。

資料消費層:資料編織面向所有型別的資料使用者,提供資料和服務,包括:資料科學家、資料分析師、資料整合專家、資料工程師等,既能夠面向專業的IT 使用者的複雜整合需求處理,也可以支援業務人員的自助式資料準備和分析。

03、資料編織與資料中臺

資料編織,乍一看是不是很眼熟,是不是有種“似曾相識”的趕腳,是不是與我們的“資料中臺”的概念有點像?

在主流的資料中臺概念中,也強調支援各種資料來源(結構化的、半結構化的、非結構化的),提供資料目錄、資料標籤、資料分析等服務,提供資料資產的動態化管理,支援為不同資料使用者提供資料服務,解決企業的資料孤島,讓資料用起來。這些特點都與資料編織很相似,只不過資料編織更強調人工智慧和知識圖譜的應用。因此,也有專家提出“資料編織是資料中臺的一下站!”。

圖片來源:艾瑞諮詢

筆者認為資料中臺與資料編織還並不是一個概念,更不像是資料中臺的高階版本,以下是筆者理解的資料中臺與資料編織之間的關係和差異,如有偏頗,還請斧正。

第一,資料中臺並不是全新的技術和產品,更多是由一些技術元件組合而形成的一個綜合性的資料應用解決方案,例如:基於資料湖的資料儲存服務、基於各種資料管理元件的資料治理服務,基於大資料平臺的資料計算和處理服務,以及提供面向應用的資料標籤、資料目錄、資料分析、模型演算法服務等。而資料編織是側重於統一多樣化和分散式資料資產的功能,為應對複雜的混合資料環境所面臨的挑戰而設計,是一種架構設計方式,強調自動化的資料整合、整合和治理。

第二,資料中臺是一個“讓資料用起來”的方法論,不僅包含資料管理和使用的相關技術元件,還包括與之相適應的企業組織機構、管理制度和流程、運營機制和考核辦法等。而資料編織一開始就強調新技術的應用,例如:機器學習、人工智慧、知識圖譜的等,且構建和管理知識圖譜是其核心支援從資料來源級別到分析、洞察力生成、編排和應用程式的整合資料層(結構),資料編織的技術色彩更濃一些。

第三,資料中臺需要有專業的管理和運營團隊才能發揮作用,這個團隊往往是由IT部門承擔。而資料編織則強調更少的IT干預,資料編織的重要特徵依賴於一組預建和預配置的元件,從原始資料到經過處理和可操作的資訊,這些資訊或系統通常託管在雲端,由經驗豐富的服務提供商管理。這意味著,資料編織的實施和維護資料中,不需要太多的IT部門參與。

基於以上幾點,可見資料中臺與資料編織是兩個概念,如果硬要和資料中臺比較的話,我倒是認為資料編織可以作為資料中臺的一部分,畢竟資料中臺爭議頗多,至今也沒有一個標準的定義,多增加一些內容倒也無妨,哈哈~

04、資料編織與資料治理

大家都知道,資料治理是對資料管理的管理,它是基於內部資料標準、策略和規則,管理企業資料的可用性、完整性和安全性,從而將資料轉化為企業資產。資料治理涵蓋了資料管理的各種主題,例如:資料戰略、資料架構、資料建模、資料儲存和操作、資料安全、資料質量、後設資料、資料整合和互操作性、文件和內容、參考資料和主資料、資料倉儲和商業智慧等。

在傳統的資料治理體系中是沒有包含資料編織的,但Data Fabric是一種資料管理的全新架構,筆者認為資料編織將是自動化、智慧化資料治理的一個理想解決方案,從資料架構層面增強了企業資料管理的能力。

首先,統一語義和持續洞察力

資料編織提供了基於知識圖譜的統一語義描述層,使業務使用者能夠輕鬆發現和訪問相關的資料;資料編織使用先進的人工智慧、機器學習演算法連線不同資料來源的資料以及資料之間的業務關係,建立知識圖譜,提供持續分析能力,以衡量和識別與資料相關的各種業務價值和風險。

其次,統一治理和審計合規

資料編織支援各種資料來源的連線,本地化管理企業內部、外部、雲端的資料資產的後設資料;通過AI/ML技術,自動化應用策略、使得審計合規性和識別系統中的潛在資料漏洞變得更加容易;自動化和人工智慧的應用增強了資料跟蹤和路線查詢能力;通過整合所有資料環境,落地整體資料治理和安全流程集中且一致的治理體系。

再次,自動化和動態整合能力

資料編制的設計和部署天然具備跨分散式的多種基礎設施環境的資料進行整合能力,提供為孤立的資料來源自動建立資料整合管道,支援ETL、流式傳輸、複製、訊息整合、web服務、API介面等多種整合管道。通過預定義的資料整合策略自助、動態獲取最新的資料資產,讓企業的資料資產可見、可查、可管、可用!

最後,自動編排和統一生命週期

資料編織是一個先進的資料管理架構,採用人工智慧、機器學習、資料湖以及其他平臺和技術對不同資料來源進行自助編排,確保企業全面瞭解所有資料環境中的資料管道。資料編織支援資料的統一生命週期管理,用於配置和管理資料的各個方面,包括資料驅動應用的開發、運營、測試和生產釋出。

05、國外是如何使用資料編織的?

不得不承認,在科技創新方面,我們與美國還是有很大差距的。就拿資料編織這個全新的資料架構來講,在國內還未見到應用案例,但在國外已經形成了最佳實踐。以下內容是根據國內的一些公開材料,整理出來的5個資料編織應用實踐。

1、採用 DataOps 流程模型

我們先來回顧一下什麼是DataOps。DataOps是一種工程方法論和一套實踐方法,旨在快速、可靠、可重複、持續地交付生產就緒資料以及運營就緒分析和資料科學模型。DataOps 通過支援資料版本控制、資料轉換、資料血緣和分析模型的工程學科來增強和推進資料治理。

雖然Data Fabric和DataOps不是相同的概念,但DataOps是將Data Fabric真正落地一個重要的推動者。DataOps 流程模型,資料流程、工具和資料洞察與使用者之間存在密切的聯絡。使用者可以持續依賴資料,有意義地利用可用工具,並通過資料洞察力來優化業務運營。該模型與資料編織的架構具有共生關係。如果沒有 DataOps 流程模型和思維模式,使用者將難以充分利用資料編織。

2、避免建立另一個資料湖

構建資料編織時的一個常見問題是它可能最終變成另一個資料湖。如果企業擁有所有架構元件——資料來源、分析、BI 演算法、資料傳輸和資料消費——但沒有 API 和 SDK,那麼結果就不是真正的資料編織。

資料編織是一種架構設計方式,而不是單一技術。元件之間的互操作性和整合準備是該設計的定義特徵。這就是為什麼企業需要特別關注整合層、無縫資料傳輸以及自動洞察的獲得,通過API和SDK實現。

3、運營真正的混合雲

雲供應商傾向於將客戶繫結在他們的服務中,這使得資料遷移、整合、整合對企業來說是一項成本高昂且具有挑戰性的工作。

資料編織必須面向企業複雜的資料環境提供整合整合能力,克服在維護多樣化的資料儲存和基礎設施部署組合方面的技術挑戰。企業可以根據不斷變化的技術和業務需求,自由地從一系列混合 IT 基礎架構資源中執行關鍵任務資料驅動的 IT 服務、應用程式、儲存和訪問。

4、與邊緣計算深度融合

邊緣計算專為支援物聯網實施而構建,它是將與資料相關的關鍵任務從集中式應用程式轉移到一個單獨的邊緣層,該邊緣層是分散式的,但與資料編織緊密相連。通過使資料編織適配邊緣計算,企業可以從其物聯網裝置中獲得更多資料價值。

例如,智慧工廠可以使用資料編織與邊緣資料深度融合,可自動計算貨物集裝箱的重量,並自動啟動揀貨流程。通過邊緣資料編織加速業務決策並實現自動化操作,這是傳統集中式資料倉儲無法做到的。

5、基於圖分析的業務洞察

圖資料庫是關聯式資料庫的一種更智慧的替代方案,它有助於使用知識圖譜來視覺化後設資料和資料關係。圖資料庫使用語義上下文豐富資料,以瞭解資訊的含義,而不僅僅是文字字串。

由圖分析提供支援的知識圖譜是資料編織的理想解決方案——資料編織架構的主要目的是實現對不同資料來源的整體使用而不是重複使用。知識圖譜可以通過分析資料來源之間的關係來提供業務和運營洞察力。與關聯式資料庫方法相比,它更擅長整合不同的資料,並且挖掘出業務人員更關心的“洞見”。

參考文獻:

奇拉迪普·巴蘇馬利克《What Is Data Fabric?》

Gartner 《Gartner 2022年12大戰略技術趨勢》

來自 “ 談資料 ”, 原文作者:石秀峰;原文連結:https://mp.weixin.qq.com/s/7M93Zm7_wAbEo-9QWFeg7w,如有侵權,請聯絡管理員刪除。

相關文章