未來資料分析行業發展之路，是資料產業和傳統產業共同關心的話題。

過去的20年裡，中國從資訊行業飛速發展，各個領域如行動通訊、製造、醫療保健以及金融公司都出現了大規模的資料增長。另外，隨著微博微信、社交網路、感測器等新型的資訊產出，以及雲端計算、物聯網、雲原生新興技術的出現，資料正在以前所未有的速率增長積累。如何將這些資料打通共享，融合分析，挖掘這些資料的潛在價值，是資料分析行業面臨的關鍵問題。

資料分析技術演進路線之Hadoop

10年前，hadoop為解決大資料難題誕生，透過提供一體化完整的生態工具給使用者解決資料分析的難題。過去的十多年裡面深刻影響了資訊行業，但著隨著新興技術的不斷湧現，新的資料分析產品clickhouse不依賴hadoop生態，2018年全球第一的CDH與全球第二的HDP合併為CDP, hadoop市場萎縮，直至2021年6月1日，KKR與CD&R擬47億美元收購Cloudera。hadooop是不是不行了？作為大資料分析的掌門人掛了，誰能代替hadoop？以後用什麼技術和產品進行大資料分析？這些都是大家關心的話題。

前事不忘後事之師，先了解hadoop的作用功能。hadoop擁有多種元件滿足各種大資料業務場景需求，首先hadoop核心元件HDFS 支援資料儲存，滿足海量資料。另外MapReduce 和 Spark 做資料計算和處理，sqoop 負責資料採集，kafka可做資料來源儲存， hbase可做列式資料庫，Impala和Tez負責即席查詢。特定場景的資訊管理系統可以移到 hbase來做，hbase積蓄了大量資料，由於本身就在hadoop系統裡面，ETL搬遷資料更節省時間。對於全量資料和批處理，hadoop提供批處理能力和流處理能力，另外具備資料流程工具管理任務。分析中的資料可以觀看執行狀態，分析後的資料有跡可循。另外資料血緣和資料許可權管理工具，hadoop都一一滿足。早期hadoop憑藉著批處理能力能夠實現多個廉價伺服器計算一個巨大的資料量任務，吸引中小企業的眼光，佔領了大部分的資料分析市場。現在的問題出在哪裡？

一個考慮周全、面面俱到的解決方案必然是複雜性犧性代價的。客戶只需要一碗水，你給一條大江，還要給客戶去拿，顯然產品的體驗不舒適。hadoop叢集的搭建大費周章，而且叢集維護需要專業人士，產品雖然穩定可靠，但是可用性和運維性差，入門的門檻高，學習的成本高，這是一部分企業不採用hadoop的原因。即使最新版的hadoop3，功能乏善可陳，最大的特性是壓縮使用了磁碟空間，沒有其它亮點，在hadoop的產品路線圖裡面，hadoop已經沒有想著怎麼創新功能，主要內容是怎麼整合支援k8s\docker等系統。hadoop的創新走到盡頭了。

資料分析技術演進路線之新型資料平臺

追溯資料分析的歷史，資料產生都是第一時間儲存在資料庫裡面，資料內容不多，完全可以在資料庫裡面分析。如果資料量太大，資料庫處理必須佔用太多資源，分析時會影響資料庫的正常使用，才非常有必要把資料整合到其它資料產品。

使用者更希望一個輕量的、統一的資料平臺，底層遮蔽資料來源細節，本身擁有把物理資料資源抽象出來的能力。

其它人是怎麼做的，大資料分析公司新銳代表，美國有紮根深厚的databrick和上市不久的snowflak。databrick是spark技術運營的母公司，等於是spark的商業版應用，主要領域是透過雲服務和雲平臺的方式向使用者提供資料探勘分析服務。上層提供了一個功能豐富又簡單的互動式 Notebook，使用者可以直接手寫 Python，Scala 或 SQL 進行資料分析和挖掘，底層計算使用 Spark，儲存使用 Delta 對接雲端儲存服務，實現一致性和事務性。

Snowflak是資料分析市場的獨角獸。2020年9月，Snowflake在紐約證券交易所上市，緊接著，它迎來了一個又一個高光時刻，上市首日股價大漲超110%，估值翻了一番多，從330億美元增至700多億美元，並一舉成為了美國有史以來IPO規模最大的一家軟體公司，上市的時候股價曾一度飆漲到每股 400 多美金。易用性是讓 Snowflake 身價暴漲的一個重要原因，Snowflake 是一個把資料倉儲做成 SaaS 服務的軟體供應商，這種完全託管的服務對於使用者使用變得非常簡單。

資料分析技術演進路線之資料虛擬化

是什麼使他們受到了資本市場的追捧？無非兩點原因，第一是基於流行的公有云平臺，產品具有使用簡單、彈性伸縮、按量計費、靈活取用等特點。第二是基於創新型的技術，下面我們統稱為資料虛擬化技術，透過遮蔽底層資料來源細節，對外給客戶提供統一簡潔的介面，既提高客戶產品使用的舒適性，又最大化發揮資料產品的效能。databrick除了我們耳熟能詳的批流一體化能力對海量資料進行全量處理或增量更新，另外還能支援連線不同的資料來源，能夠實現不同源的資料匯聚整合。在第一批的資料訪問提煉後，把資料快取起來快速響應後續的訪問。眾所周知，databrick的資料處理引擎用的是spark，那麼Snowflake的資料處理技術是什麼，批處理？流處理？索引？分割槽?快取? Snowflake作為資料倉儲的SaaS服務領導者，必然是多種資料處理技術協同共存，針對不同的需求完成不同資料處理智慧排程。不同的資料使用者統一與虛擬層打交道，請求卻指向不同的資料來源。

資料虛擬化有以下特徵。

1.統一資料語言的標準化和轉換層,對外提供SQL，遮蔽Python、Scala 、Java各種語言。

2.統一後設資料標準規範，比如表格的結構、轉換和清洗操作、聚合等。當使用資料虛擬化時，後設資料規範只需要被執行一次，不需要把它們複寫給更多的資料消費者。換句話說，資料消費者共享和重複使用這些規範。

3.統一資料儲存中心，支援從多個資料儲存區中整合資料，具備資料下推往資料來源執行的能力。

資料虛擬化是指隱藏底層資料來源(關係型資料庫、NOSQL、NEWSQL、資料倉儲)等技術訪問細節，將資料來源的抽象和聚合要求將物理資源抽象出來，對外為使用者提供一個統一的資料介面。使用者在定義資料來源的初始化配置檔案後，能夠自由查詢和操作各個目標源的資料來源，一言簡之，資料虛擬化技術實現前端與後端多源異構的解耦，輕量級簡單解決資料整合多源異構的困難。

簡言之，資料虛擬化對外實現了高可用性和高易用性，對內實現了多種處理技術協調共存，具備多源異構的資料處理能力。

國內資料分析代表性新技術

在國內，柏睿資料擁有同類技術產品Rapids faderation，為企業客戶提供一站式大資料管理和分析服務，憑藉經濟高效的解決方案來支援企業日益增長的資料業務，簡化大資料分析的流程，提供標準化的高效能資料虛擬化解決方案，幫助企業進一步降低使用者資料的整體擁有成本，目前已經在眾多業務平臺提供服務，嵌入柏睿全記憶體分散式資料庫RapidsDB，能夠提供 OLAP高效能分析服務，支撐大資料智慧管理和分析應用。

RapidsDB透過將資料建模、分散式聚合索引和雲原生彈性架構結合，來顯著簡化資料倉儲和資料湖的資料處理工作，同時大幅降低雲分析成本。RapidsDB還提供智慧查詢安全路由和資料下推智慧查詢功能，在資料湖上提供統一SQL 介面，支撐高效能的靈活查詢場景。藉助統一語義層服務，RapidsDB可以在孤島資料來源上建立整合分析檢視，為企業使用者構建統一、可信的分析視角。

另外透過機器學習技術，柏睿RapidsDB內建人工智慧演算法 AI 增強引擎，可自動識別使用者分析模式、SQL 查詢歷史和系統執行指標等資料並給出最佳化建議，使分析模型更加合理化。RapidsDB擁有直觀、友好的管理員介面，顯著降低運營和維護成本。此外，它大幅提升了平臺上執行資料分析的使用者數量，這是向機器學習和應用資料提供 Data-as-a-Service（資料即服務）的最佳選擇。

目前，我國數字化發展程式不斷加速，我們仍需投入更多的時間精力去打磨核心技術，潛心研發自主產品、打造出與國際前沿科技企業分庭抗禮的中國資料分析產品。

柏睿預測：下一代資料分析技術-資料虛擬化

相關文章