Data Fabric:資料管理的未來已來

qing_yun發表於2022-05-16

Gartner等分析師聲稱,資料編織(Data Fabric)是資料管理的未來。事實上,未來已來。從可預測的市場空間和可見的投資回報率,我們看到許多市場上成熟的跡象。資料編織有整合企業資料和減少資料發現、分析和實施中的重複性任務方面的獨特能力,這也是許多人認為今年將是現代資料整合方法爆發年的原因。

Gartner將資料編織定義為一種設計概念,作為資料和連線流程的整合層或結構。資料編織使分散在不同地點、由不同應用程式使用的資料能夠在統一的資料層中,在相同的管理和安全下被實時訪問和分析。是通過利用人和機器的能力來做到這一點。

資料編織模型正發展成為一項成熟的技術,這主要是因為資料正在呈指數級增長,資料來源正變得更加分散,而許多企業仍然沒有弄清楚如何獲得推動發展所需的有用資料。因此,利用資料編織的企業將是成功者。

剖析資料編織--不僅是其組成部分的總和

有些人認為,資料編織只是後設資料管理系統的另一個術語。當然,企業應該有一個後設資料驅動的設計,以動態支援不同的資料交付方式,並確保資料編織的成功。但這僅僅是個開始。

儘管資料編織中成功地使用了資料虛擬化,但將資料編織定義為一個虛擬化和隱藏其他資料來源的系統是錯誤的。是的,資料虛擬化建立了一個資料抽象層,無需物理移動,以整合所有的資料。但是,資料編織也並不侷限於此。其他人認為資料編織是一種方法,可以從資料中心的任何機器上訪問所有檔案級資料。這是真的,但同樣,它只是真正的資料編織的一部分。

利用人和機器的能力,資料編織包括上述所有的元件,並提供一個協調的方法來收集、統一和管理整個企業資料管理系統的資料來源。事實上,許多早期採用者建立資料編織是為了解決一個較窄的問題或在一個特定的用例中取得成功,但後來發現可以在其他方面使用。

推動發展的因素

在Covid-19大流行期間,許多行業為了生存而進行數字化轉型。這些變化增加了對可訪問資料的需求,導致對資料編織概念的採用增加。三V(資料的數量、種類和速度)始終是一個問題,加劇了其他資料問題,而資料編織很適合解決這些問題。

以安全管理和欺詐檢測/預防為例。資料編織可以自動檢測資料異常,並採取相應措施進行糾正,減少損失並提高監管合規性。資料編織使企業能夠定義治理規範和控制、改善風險管理,以及改進監測。鑑於資料治理和風險管理的法律標準變得更加苛刻,合規/治理變得至關重要,資料編織還能通過避免潛在的監管處罰來節約成本。

資料編織代表了一種本質上不同的資料連線方式。那些已經採用資料編織的人現在明白,他們可以以不同的方式做許多事情,為企業提供了一個解決問題的很好途徑。因為資料編織跨越了整個資料工作的範圍,解決了所有成員的需求:開發人員、業務分析師、資料科學家和IT團隊成員的共同需求。因此,POCs將繼續在各部門和部門之間發展。

隨著大資料、小資料、分析、業務敏捷性和AI/ML對資料共享的需求持續存在,企業現在意識到,擁有同一資料編織的多API訪問是有幫助的。

根據Gartner的說法,資料編織正變得越來越流行,因為它是一個單一的架構,可以解決組織資料資產的多樣性、分佈、規模和複雜性。他們還表示,這種方法將整整合計時間減少了30%,部署時間減少了30%,維護時間減少了70%,因為資料編織設計借鑑了使用、重用和結合不同資料整合風格的能力。

該報告認為,資料編織推動了自動化的資料和後設資料發現、資料質量和整合,從而推動了增強資料管理的發展。據瞭解,在大多數的資料質量、控制和整合解決方案中,自動化重複性任務可以將這些解決方案的整體成本降低35-65%,這取決於現有的方法。

它還允許組織從應用程式的彈性中受益,儘管系統元件出現故障,但仍能正常執行--當應用程式是分散式的時候,這項艱鉅的任務變得更加困難。隨著企業繼續在多個層級和技術基礎設施上快速實施軟體,彈性的重要性日益凸顯。然而,實現彈性需要在架構的各個層面上進行規劃,並不斷進行重新審視。

實現API的標準化,提高訪問的一致性,以及建立簡單的方法來匯入和消費組織內的各種資料正變得非常重要。一個精心設計的資料編織可以實現這些目標,並使應用程式對資料來源的變化和錯誤具有彈性。

標杆驗證出現

企業也在尋找利用非常大的公共資料集的方法,如Wikidata資料集,它是維基百科和其他維基媒體專案的結構化部分。最大的開放式RDF資料集Wikidata包含170億個三元組和大約1億個實體,這可能是為什麼企業越來越有興趣將這些公共資料來源與自己的內部資料結合使用的原因。可用的公共資料也為企業提供了一個機會,能夠方便地比較各種資料編織促成者的基準工作,為供應商/整合商在大規模下建立資料庫的速度和查詢表現進行基準測試。隨著基準的公開化,將進一步證明支撐和支援資料編織的技術可以產生卓越的結果。

企業知識圖譜是一個切入點

由於資料編織描述的是一套整合的資料管理技術,這意味著它可以以各種方式構建。然而,語義知識圖譜、主動後設資料管理和嵌入式機器學習(ML)等能力是確保資料編織設計成功的必要組成部分。

企業知識圖譜(EKG)能夠實現所有這三個特徵,所以它們被認為是建立資料編織的理想切入點。事實上,許多人正在採用EKG,以建立一個單一的資料層,而不必摧毀和替換他們現有的資料倉儲和資料湖。

在上述報告中,Gartner認為“資料編織是基礎”,因為該方法改善了現有的基礎設施,逐步增加了資料管理自動化,並將傳統的做法與新興的做法相結合。在同一份報告中,Gartner說,為了贏得資料編織的成功,企業要確保它支援不同資料交付方式的動態組合(通過後設資料驅動的設計),以支援特定的用例。通過對資料管理生態系統實施持續發展的資料工程實踐,來運算元據編織。並通過利用現有的、熟知的、成熟的整合技術和標準來構建資料編織,但要繼續對團隊進行新方法和實踐的教育,如DataOps和資料工程,也包括邊緣環境。

在過去的幾年裡,資料編織一直是一個不斷髮展的趨勢。未來已來,現在是最好的開始時機。

作者Navin Sharma是Stardog的產品副總裁

來自 “ https://www.datanami.com/2022/05/05/the-future-of- ”,原文連結:http://blog.itpub.net/69925873/viewspace-2894410/,如需轉載,請註明出處,否則將追究法律責任。

相關文章