一句話解讀資料編織、湖倉一體、增強分析等20個最新資料技術概念

qing_yun發表於2022-09-06

老闆關心技術,經常會問一些技術的問題。

有次跟老闆彙報大資料,記得當時介紹到了NOSQL資料庫,然後老闆問起資料庫的發展歷史,讓我說說關係型資料庫以前是什麼資料庫,為什麼會演變成這樣,我一時語塞。

還有一次跟老闆彙報資料治理,老闆問主資料是什麼意思,我說主資料是為了確保各系統之間資料的一致性,然後發現自己答非所問。

造成以上現象有兩個原因,第一個是我認為理解了某個概念,但實際上理解歪了或者不全面,另一個是雖然理解了概念,但卻無法簡潔而準確的表述,也就是說不到點上。

無論如何,我都不算是發揮失常,而是水平不夠,這就是孔子說得學而不思則罔吧。

作為專業人士,還是要能用自己的語言把專業領域的概念通俗的說出來,如要具備這個能力,靠百度、谷歌搜尋一下或者讀讀別人的文章是達不到的,必須建立在自身的實踐和思考之上,從而形成一套自己的體系。

最近幾年資料技術發展迅速,很多新概念爬上了Gartner曲線,比如資料湖、資料網格、資料編織啥的,這些概念中的很多是舶來品,理解起來不易,但我們有時也不得不去理解,一方面是技術決策的需要,另一方面是來自於解釋的需要,否則容易被人帶偏。

這次特意挑了資料網格、資料編織、湖倉一體、存算分離、DataOps等20個資料領域比較前沿的、抽象的概念來挑戰,希望儘量能用一句話解釋清楚,後來發現實在講不清楚,因此還是做了一些備註,文後列了參考文獻。

我的解釋也許不是很嚴謹,但希望能勉強的應對電梯挑戰吧,想象那麼一個場景,電梯裡突然碰到你的老闆,然後老闆問:”最近有家做資料編織的XX公司要來拜訪,那什麼是資料編織?”

1、資料網格

一種分散式的領域驅動的資料整合和服務架構,資料網格是分析系統的”微服務“。

2、資料編織

基於知識圖譜(主動後設資料為核心)的自動化、智慧化資料整合架構。

3、資料倉儲

具備結構化資料採集、儲存、離線處理及分析能力的集中化平臺,資料管理能力較強,比如在儲存階段即按預先定義好的格式寫入平臺,在使用的時候基於預定義的格式進行加工處理。

4、資料中臺

基於沉澱的資料資產進行封裝後對外提供資料服務(API等形式)的平臺。

5、資料湖

具備結構化、非結構化、半結構化資料採集、儲存及離線處理能力的集中化平臺,資料湖是原始資料的一份映象,資料管理能力很弱,比如資料在儲存階段直接寫入(不做格式規範),在應用需要的時候才進行資料格式的定義並進行加工處理。

6、湖倉一體

具備結構化、非結構化、半結構化資料採集、儲存、共享、實時處理、實時分析及資料管理能力的集中化平臺,相比於資料湖,湖倉一體能支援實時分析場景,相比於資料倉儲,湖倉一體能支援多型別資料的實時處理能力。

注1:共享意味著針對各種型別資料可以互相訪問,減少了搬遷成本。實時處理指支援實時的資料變更及事務處理能力,實時分析指諸如BI等可以直接對接資料來源進行分析,不用遷移資料到資料倉儲,資料管理能力指模型的管理等能力。

注2:業界對於湖倉一體有兩種實現模式,一種是橫向打通方案,以阿里M axCompute 為代表,主要是針對資料湖和資料倉儲進行網路、儲存及後設資料的橫向打通,具備保護原有投資的優勢,另一種是縱向整合方案,以Iceberg、Hudi和DeltaLake為代表,其在資料湖之上構建資料倉儲。

7、流批一體

流批一體是一種架構思想,指在滿足流處理計算的同時也可以同步滿足批處理任務的計算,這樣不僅可以降低成本,也可以保證資料一致性,因為理論上任何流處理都可以看成間隔極短的批處理。

8、存算分離

針對傳統hadoop架構中計算資源和儲存資源按某一比例強繫結,系統擴容必須按節點數目增加,導致記憶體或磁碟浪費的問題,提出的一種新架構,其解耦了計算和儲存繫結關係,實現計算和儲存單獨彈性擴充套件、按需分配,降低了系統部署和擴充套件成本,解決了資源利用不均衡的問題。

9、隱私計算

隱私保護計算技術能夠實現資料處於加密狀態或非透明(Opaque)狀態下的計算,在保護參與方隱私的基礎上,實現資料“價值”和“知識”的流動與共享, 真正做到“資料可用不可見”。隱私計算其實是一堆“資料可用不可見”技術集合,包括多方安全計算、聯邦學習、機密計算、差分隱私及資料脫敏等等。

10、雲原生資料倉儲

雲原生資料庫是在公有云、私有云和混合雲等新型動態環境中,基於儲存與計算分離架構的、儲存和計算可以獨立彈性擴充套件的、鬆散耦合的資料倉儲系統。

注:一般分為三個層次,最上層是服務層,主要做查詢解析、最佳化、後設資料管理,包括安全控制等等,中間層是查詢計算層,可以分成多個小的叢集,不同的使用者可以使用不同的叢集,類似於多租戶的概念,這樣就帶來了高併發等好處,底下是儲存層,包括物件儲存、HDFS等等,典型的產品包括Snowflake、阿里的AnalyticDB等。

11、HTAP 資料庫

HTAP是對傳統OLTP+OLAP+ETL 的資料架構的替代,能夠在一份資料上同時支撐OLTP和 OLAP執行的資料庫,可以在保證事務處理效能的基礎上,同時具備實時分析的能力,不僅避免 ETL 跨平臺資料傳輸帶來的高昂成本,同時具備分散式、彈性擴容及高併發的能力。

12、DataOps

DataOps是一種面向資料全生命週期,以價值最大化為目標的實踐、流程和技術。聚焦於從資料需求輸入到交付物輸出的全鏈路過程,實現資料研發運營的一體化、敏捷化、標準化、自動化、智慧化、價值顯性化。

注:參考了信通院DataOps成熟度框架,相對於維基抽象的定義,增加了標準化、智慧化等的闡述。

13、圖計算

基於圖資料進行的分析計算都屬於圖計算,圖計算的核心在於圖演算法,常用的演算法包括最短路徑演算法、PageRank、PageRank等等。

注1:圖(Graph)是用於表示物件之間關聯關係的一種抽象資料結構,使用節點(Vertex)和邊(Edge)進行描述:頂點表示物件,邊表示物件之間的關係。

注2:圖資料庫(Graph Database)是一種以圖結構進行儲存和查詢的資料庫,相對於儲存行列資料的關係型資料庫,其在兩個節點遍歷的時候只需在這兩個節點間區域性資料進行檢索,而關係型資料庫則需要全域性遍歷,這使得以圖結構儲存的資料在涉及關係複雜的海量資料查詢時速度有量級的提升。

14、增強分析

增強分析是指利用機器學習和自然語言處理 (NLP) 等人工智慧 (AI) 技術實現增強的分析。機器學習技術能夠讓系統自動執行資料準備、自動分析、深化洞察等複雜的分析流程,自然語言處理技術則支援使用者(甚至是未經培訓的業務使用者)以會話形式提出資料問題,並輕鬆獲取答案。

注:有種說法說傳統分析、自助分析和增強分析是分析的三個階段,但我對於增強分析還是一臉懵逼,因為我認為自動資料準備、自動分析和會話式分析過於理想化,只要自動的規則還是人定義的,姑且不說這個規則能否制定出來,但制定這個規則的代價實在太大了,以至於後面的自動化失去了意義,只有深化洞察是大家現在都在做的,也有很多案例。

自動執行資料準備:分析師 80% 的時間都是在準備資料,包括匯出、合併、清理和結構化處理,增強分析內嵌的機器學習技術能夠自動執行這一流程

自動分析:機器學習模型可以自動執行復雜的分析,資料科學家不再需要花費數週時間來做分析。使用者可以即時獲取查詢答案和視覺化資料內容,減少資料探勘的時間,將更多精力用於解讀資料洞察

深化洞察:機器解讀資料的能力遠超人類。與人類相比,機器不僅能夠從更多角度審視更大的資料集,還能挖掘人類靠肉眼無法識別的統計相關性、關係和模式

會話式分析:自然語言處理技術支援不瞭解查詢語言或程式碼的業務使用者採用會話方式進行提問,自然語言生成 (NLG) 技術則能以完整的書面或口頭語句,對分析結果進行彙總或解釋,為使用者提供答案

15、物件儲存

由於存算分離等架構都會用到物件儲存,因此特意解釋下物件儲存。物件儲存是一種資料儲存,其中每個資料單元(稱為“物件”)作為離散單元儲存。這些物件實際上可以是任何型別的資料:pdf,影片,音訊,文字,網站資料或任何其他檔案型別。

注:相對於檔案儲存,物件儲存中的所有物件都儲存在單個平面地址空間中,透過一個全域性唯一的識別符號(即物件的ID)定址(類似於鍵值管理),不需要像檔案儲存那樣維護資料夾複雜的層次結構和豐富的後設資料資訊,意味著訪問單個物件既快速又簡單,而且具有極高的伸縮性,其缺點是由於簡單的後設資料無法維護每個物件的操作資訊(比如保留修改、插入、刪除檔案中的某一小段資料而造成的複雜對映關係),導致沒法像檔案儲存那樣進行隨意的增刪改,比如網盤大多是物件儲存,若要進行任何修改,只能把該物件對應的所有資料全部重新寫入。

16、AutoML

AutoML即為Auto+ML,是自動化+機器學習兩個學科的結合體;從技術角度來說,則是泛指在機器學習各階段流程中有一個或多個階段採取自動化而無需人工參與的實現方案,其覆蓋了特徵工程(Feature Engineering)、模型選擇(Model Selection)、演算法選擇(Algorithm Selection)以及模型評估(Model Evaluation)4個典型階段,而僅有問題定義、資料準備和模型部署這三部分工作交由人工來實現。

17、AIOps

智慧運維(AIOps,Artificial Intelligence for IT Operations)是指透過機器學習自動的從海量運維資料(包括日誌、業務資料、系統資料等)中進行實時和離線分析來自動化IT運營流程,包括事件關聯、異常檢測、因果關係確定等。

18、數字孿生

數字孿生是物理物件的數字模型,該模型可以透過接收來自物理物件的資料而實時演化,從而與物理物件在全生命週期保持一致。基於數字孿生可進行分析、預測、診斷、訓練等(即模擬),並將模擬結果反饋給物理物件,從而幫助對物理物件進行最佳化和決策。

19、Serverless

Serverless,又叫無伺服器。Serverless 強調的是一種架構思想和服務模型,讓開發者無需關心基礎設施(伺服器等),而是專注到應用程式業務邏輯上。Serverless 與 FaaS(函式即服務)通常被視為可以互換的術語,但這並不準確。Serverless 是一種抽象層次更高的架構模式,而“FaaS(函式即服務) + BaaS(後端即服務)”只是 Serverless 這種架構模式的一種實現。Serverless 一般具有免運維、免運維、按需付費及按需付費等特點,資料領域如統計、機器學習、流程處理等能力也可以封裝成函式介面,從而具備更細粒度的按需使用和按需付費能力。

20、零信任

零信任是對傳統網路邊界保護方法的改進,指在公司網路內、外部均不設定安全區域或可信使用者,而是將企業內、外部的所有操作均視為不可信任,依循“永不信任,一律驗證“的原則。零信任提倡相互認證,包括在不考慮位置的前提下檢查裝置身份和完整性,以及基於裝置身份和裝置狀況的置信度來結合使用者身份驗證,提供對應用程式和服務的訪問許可。隨著資料安全重要性凸顯,零信任概念也逐漸被引入到資料安全技術體系。

以上這些概念基本反映了最近幾年資料技術領域最新的發展趨勢,希望對你的延伸閱讀有所幫助。

參考資料

1、王曉青 HTAP會成為資料庫的未來嗎?

2、 大資料技術標準推進委員會 DataOps成熟度框架正式釋出

3、DataOps指南:資料管理新時代來了?

4、凌雲時刻 雲原生資料倉儲從託管到原生的演進實踐

5、阿里開發者 雲原生分散式資料庫和資料倉儲崛起背後的原因

6、騰訊雲 鋪天蓋地雲原生,什麼才是真正的雲原生資料倉儲?

https://cloud.tencent.com/developer/article/1828394

7、SAP Insights 什麼是增強分析?|

8、知乎 物件儲存有什麼優勢?

https://www.zhihu.com/question/432864591/answer/1684497247

9、知乎 塊儲存、檔案儲存、物件儲存這三者的本質差別是什麼?

10、資料湖還沒玩明白,就別想著湖倉一體了!by 傅一平

https://mp.weixin.qq.com/s/1uSjr0R7d8G4XnodYSzgSA

11、死磕了老半天,終於讀懂了資料編織(Data Fabric) by 傅一平

https://mp.weixin.qq.com/s/OhczWJg2H2j76E35YaUdeA

12、研究了半天,終於把數字孿生內涵搞清楚了 by 傅一平

https://mp.weixin.qq.com/s/rrOEQ_u8rVUiCtw6eD1nvQ

13、終於把隱私計算、聯邦學習、多方安全計算、機密計算、差分隱私全搞清楚了!(萬字好文收藏)

https://mp.weixin.qq.com/s/jK2qVn30n6irtwNtEHISvQ

14、到底什麼是資料湖?全面解讀資料湖的緣起、特徵、技術、案例和趨勢

https://mp.weixin.qq.com/s/kvCgH1t3aQXqbNlVQn1YBg

15、信通院 2021年大資料白皮書

16、信通院 2020年大資料白皮書

來自 “ 與資料同行 ”, 原文作者:傅一平;原文連結:https://mp.weixin.qq.com/s/2hsVvx6ozhDvCwKJA_JTcA,如有侵權,請聯絡管理員刪除。

相關文章