一文讀懂資料平臺的發展歷史

danny_2018發表於2024-01-29

摘要:資料平臺的發展歷史經歷了多個階段。最早的階段是使用關係型資料庫構建星型模型的資料倉儲。這種方式透過將資料儲存在規範化的關係型資料庫中,並使用星型模型來建立資料關聯,實現了資料的集中儲存和快速查詢。

隨著資料規模的不斷增長,基於Hadoop叢集的大資料平臺逐漸嶄露頭角。Hadoop的分散式計算和儲存能力使得處理大規模資料變得可行,同時也引入了新的資料處理框架和技術,如MapReduce和Hive,用於處理和分析大資料。

隨著企業對資料的深入挖掘和運營需求的增加,資料平臺進入了資料中臺的階段。資料中臺將資料視為核心資產,透過資料集市和資料服務的方式,提供給內部各個業務部門使用和運營,實現資料的共享和協同。

目前,資料平臺逐漸發展到湖倉一體的階段。資料湖將結構化資料和非結構化資料集中儲存在一個大型資料湖中,以適應多樣化和高速增長的資料。資料倉儲和資料湖的整合使得企業能夠更好地實現資料的探索、挖掘和分析。

在未來,資料平臺的發展趨勢將進一步融合AI。AI的資料平臺將結合機器學習和深度學習等技術,實現自動化的資料分析和決策。資料平臺將成為支援企業數字化轉型和智慧化決策的重要基礎,為企業創造更大的價值。

透過不斷的演進和創新,資料平臺為企業提供了更強大、更靈活和更智慧的資料處理和分析能力,成為推動企業發展的重要戰略工具。

01

星型資料倉儲

資料倉儲(資料平臺1.0)

在資料倉儲中,資料是按照主題域組織的,這使得資料分析更加高效和方便。而傳統的OLTP資料庫由於獨立部署和資料庫設計正規化的約束,無法滿足高效的資料分析需求。資料倉儲的出現填補了這一空白。

資料倉儲是由比爾·恩門在上世紀90年代提出的,他在1991年的書中明確定義了資料倉儲的概念。資料倉儲是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支援管理決策。

在資料倉儲中,資料經過一系列的抽取、清理、加工、彙總和整理的步驟,最終組織成為一個具有明確主題和層次結構的資料集合。這樣的組織方式使得資料的分析更加高效和方便,能夠滿足企業的決策支援需求。

資料倉儲的出現不僅填補了OLTP資料庫無法支援高效資料分析的空白,還為企業提供了一個整合的資料檢視,使得不同部門和業務使用者能夠從同一資料來源中獲取準確、一致的資料,並基於此進行深入的資料分析和決策制定。

此外,隨著資料倉儲的發展,資料集市也應運而生。資料集市是基於資料倉儲的進一步擴充套件和細化,將資料按照不同的業務領域或目標群體進行劃分和管理,為業務部門提供更加靈活和個性化的資料訪問和分析能力。

此時資料倉儲和資料集市是透過關係型資料庫搭建構建的。

02

hadoop大資料平臺

大資料平臺(資料平臺2.0)

在資訊化、新業態的帶動下,企業更多、更全的資料被採集和儲存,資料量已達到TB、PB甚至EB級規模。資料量級帶來的挑戰已不是透過資料倉儲模型和傳統資料處理技術能解決的了,大資料處理技術應運而生,提供了一套針對海量資料儲存、處理和分析的解決方案。

大資料平臺的特點包括:

1、資料規模巨大:TB、PB甚至EB級的資料量,遠超傳統資料倉儲的容量限制。

2、分散式架構:採用Hadoop生態系統的元件(如HDFS、Hive、Spark、Impala)構建,利用分散式計算和儲存能力處理大規模資料。

3、離線計算和批處理:大資料平臺透過離線計算實現對海量資料的批次處理,適合對資料進行深度分析和長期趨勢挖掘。

4、實時流處理:隨著業務對實時性需求的增加,實時流處理計算方案崛起,以Flink為代表,能夠對實時資料進行實時計算和結果響應。

5、配套技術:大資料平臺還需要與其他技術配合使用,如訊息佇列(MQ)和Apache Kafka等,用於實時資料的傳輸和處理。

大資料平臺的出現使得企業可以更好地應對資料爆炸的挑戰,並能夠從資料中挖掘出有價值的資訊,支援企業的決策和業務發展。這也是資料平臺2.0的一個重要變革。

03

資料中臺

資料中臺(資料平臺3.0)

大資料平臺的建設為企業各部門提供了快速高效構建資料應用和資料服務的機會。然而,這也暴露出了一些問題,比如各個部門獨立開發資料應用導致了資料重複開發、儲存和計算資源浪費,資料標準不統一,資料使用成本高,業務資料孤島嚴重,資料利用率低等。為瞭解決這些問題,阿里巴巴在2015年率先提出了“中臺”的概念,透過構建“大中臺,小前臺”的組織和業務體制,讓中臺能夠同時支撐多個業務,並促進業務之間的資訊互動和增強。在阿里中臺戰略的指導下,資料中臺的出現成為解決方案,透過資料技術對海量資料進行採集、計算、儲存和加工,同時統一標準和口徑。資料中臺的核心是對資料能力進行抽象、共享和複用,從而實現全域性的管理和規範統一。透過將資料進行統一和儲存,形成大資料資產層,資料中臺為客戶提供高效的服務。資料平臺的發展是根據不同階段的業務場景和需求推動的,不同階段對技術的要求各不相同。

在資料平臺3.0中,主要有以下幾個特點:

1、資料統一和標準化:資料平臺透過資料中臺的架構,將不同部門和業務中的資料進行統一管理和標準化,解決了煙囪式資料重複開發、資料標準不統一、業務資料孤島等問題。資料中臺將資料進行抽象、共享和複用,形成全域性的管理和規範統一。

2、資料一體化和整合:資料平臺整合了多個資料來源,包括結構化資料、非結構化資料和實時流資料等,透過資料整合和處理,將資料進行加工、清洗和轉化,形成質量和準確度較高的資料資產層。這樣可以提高資料的利用率和價值,為企業提供高效服務。

3、資料服務和分析能力:資料平臺不僅提供資料儲存和處理能力,還提供資料服務和分析能力。透過資料平臺,企業可以快速構建開發資料應用和資料服務,提供給不同業務部門和團隊使用。同時,資料平臺也提供強大的資料分析和挖掘功能,幫助企業發現資料中的業務價值和洞察。

04

湖倉一體

資料平臺湖倉一體(資料平臺4.0)

隨著資料應用範圍的擴大,企業對資料的需求也變得更加多樣化和複雜化。在過去,企業主要關注結構化資料和基於報表和BI分析的資料應用,但隨著大資料時代的到來,非結構化資料的重要性也逐漸凸顯出來,科學分析對於企業決策的支援也變得越來越重要。資料中臺的發展也不再侷限於資料的儲存和管理,而是逐漸發展成為一個資料湖和資料倉儲的一體化解決方案。

資料湖是指將結構化資料和非結構化資料以原始的形式儲存在一起,不需要提前進行特定的模式設計和預處理。資料湖的好處是可以更快地接納各種型別和格式的資料,併為後續的資料分析和處理提供更大的靈活性和可擴充套件性。而資料倉儲則是指將資料按照特定的模式進行轉換和組織,以便於資料分析和查詢。資料倉儲的好處是可以提供更高效的資料檢索和分析能力,但相對來說對資料的結構和格式要求更高。

湖倉一體是利用先進的技術,在資料平臺中實現了資料湖和資料倉儲的一體化儲存。使用現代格式如Delta Lake、Iceberg、Apache Hudi或Parquet,資料工程師能夠高效地儲存大量資料集,並支援各種查詢、事務和操作。這些格式的採用代表了資料儲存效率的重大進步。

此外,我們的平臺還利用流媒體技術分析來自不同來源的實時資料饋送。透過實時報告提供見解的同時,我們也開始利用機器學習模型的強大功能。這些模型在異常檢測、裝置故障預測、欺詐活動識別、銷售趨勢預測和客戶分類等方面發揮著至關重要的作用。

在這個高階水平上,決策不僅僅依靠當前的資料,我們還整合了機器學習模型的預測結果。這種變革性的方法使我們能夠根據預測主動進行規劃,不僅能夠應對當前情況,還能夠提前做好規劃。

05

AI資料平臺

AI資料平臺(資料平臺5.0)

隨著資料應用的深入,資料平臺會不斷提供各種AI能力來賦能上層的應用。同時,這些應用也能夠反過來賦能資料平臺,使其成為一個具備AI能力的資料平臺。這種AI資料平臺的出現能夠大大減少人工操作,並實現自動化的資料處理和分析。透過智慧化的演演算法和模型,資料平臺能夠自動化地執行各種資料處理任務,發現資料中的見解和模式,以及自動最佳化資料流程和決策過程。

AI技術在資料平臺中的應用可以帶來很多好處,例如提高資料的質量和準確性、加快資料處理的速度和效率、發現隱藏的關聯關係和潛在價值、提供自動化的資料洞察和預測能力等。透過將AI技術與資料平臺結合,可以實現更高的智慧化水平,提升資料處理和分析的能力,為業務決策和創新提供更有競爭力的支援。

值得注意的是,要實現自動化的資料平臺,需要綜合運用各種AI技術,包括機器學習、深度學習、自然語言處理、影像識別等。同時,還需要不斷最佳化資料治理、資料流程和資料架構,以構建靈活、可擴充套件、適應多樣化需求的AI資料平臺。

目前資料平臺一個重要的方向是利用AIGC做資料分析,或者是增強分析,例如北極九章等一些企業。

來自 “ 資料工匠俱樂部 ”, 原文作者:資料工匠俱樂部;原文連結:https://mp.weixin.qq.com/s/-P1yGpvUIrZxq0WJBzt-gQ,如有侵權,請聯絡管理員刪除。

相關文章