資料儲存處理分析比以往更為複雜,而效率和成本催生了智慧湖倉架構的興盛。
本文來源:199IT Ralf
2019年,全球汽車巨頭豐田著手自身車聯網服務的打造。通過給汽車配備車載資料通訊模組DCM,使用者授權將資料傳到豐田互聯構建的超大資料湖裡面,對資料湖裡的資料分析駕駛員可以更安全地使用汽車。包括精準感知車況、駕駛習慣的科學建議、甚至根據駕駛習慣來判斷保險折扣。
這一超大車聯網系統背後的重要一環是亞馬遜雲科技資料湖的強力支援。
而今,資料儲存處理分析比以往來得更為複雜。效率和成本催生了智慧湖倉架構的興盛。雖然智慧湖倉架構並非新近提出,但亞馬遜雲科技在2020 re:Invent上,迭代自身的智慧湖倉架構,其要點在於智慧湖倉架構對整體資料的更好支撐。
為何會需要智慧湖倉架構,如果從應用的結果層面來看,亞馬遜雲科技大中華區雲服務產品部總經理顧凡給出的三個挑戰或許說明了一些問題。
顧凡認為,首先,當前資料呈指數級增長,從GB、TB、PB到EB,從結構化到半結構化到非結構化資料。資料量及非結構化資料越來越大。
其次,資料面臨更為複雜的使用場景。不同分析場景下的資料會需要技術更加的個性化和定製化。資料驅動決策物件範圍越來越大。
再次,基於實時資料的快速決策,讓以前幾天的決策變成了分鐘級別決策,甚至在一些實時流分析中實時就應該給到決策。
從應用深入到底層,一個被反覆提及的重點是資料的無縫移動。無縫移動在哪幾個之間移動,資料湖、資料倉儲以及圍繞著資料湖周邊構建的所有的這些專用的資料儲存,SQL的資料庫,Non-SQL的資料庫,甚至更多不同的分析引擎。資料如何在湖、倉和不同的資料專用分析服務之間移動非常關鍵。
如何構建智慧湖倉架構,亞馬遜雲科技所定義的智慧湖倉架構不僅僅是湖和倉的打通,而是湖、倉專門構建資料服務連線成一個整體。
顧凡表示,“要構建一個資料湖要有專門構建的資料分析服務,要能做到資料、湖、倉和專門構建的資料服務的無縫資料移動,統一管理、低成本,這是我們所定義的亞馬遜雲科技智慧湖倉架構。“
亞馬遜雲科技“智慧湖倉”架構具有以下五個特點。
靈活擴充套件,安全可靠。亞馬遜雲科技“智慧湖倉”架構用Amazon S3作為資料湖的儲存基礎,客戶可根據不斷變化的需求,靈活擴充套件或縮減儲存資源。Amazon S3可達到 99.999999999%(11 個 9)的資料永續性,且具有強大的安全性、合規性和審計功能。
專門構建,極致效能。為了滿足客戶不同的資料分析需求,亞馬遜雲科技提供全面而深入的、專門構建的資料分析服務,包括互動式查詢服務Amazon Athena、雲上大資料平臺Amazon EMR、日誌分析服務Amazon Elasticsearch Service、Amazon Kinesis、雲資料倉儲Amazon Redshift等。這些專門構建的資料分析服務為客戶提供了極致效能,客戶在使用過程中不必在效能、規模或成本之間做出任何妥協。其中Amazon Redshift的價效比是其他企業雲資料倉儲的三倍,AQUA(分散式硬體加速快取)使 Redshift 查詢的執行速度比其他其他雲資料倉儲最高快 10 倍;Amazon EMR執行大資料處理及分析服務的成本不到傳統本地解決方案的一半,但其速度比標準 Apache Spark 快 3 倍以上。
資料融合,統一治理。亞馬遜雲科技“智慧湖倉”架構不止是打通了資料湖、資料倉儲,還進一步將資料湖、資料倉儲以及所有其它資料服務組成統一且連續的整體。在實際應用場景中,資料需要在這些服務與資料儲存方案之間,以及服務與服務之間按需來回移動,跨服務訪問。亞馬遜雲科技“智慧湖倉”架構降低了資料融合與資料共享時統一安全管控和資料治理的難度。其中,Amazon Glue提供資料無縫流動能力,Amazon Lake Formation提供了快速構建湖倉、簡化安全與管控的全面資料管理能力。
敏捷分析,深度智慧。亞馬遜雲科技將資料、資料分析服務與機器學習服務無縫整合,為客戶提供更智慧的服務。例如Amazon Aurora ML、Amazon Redshift ML、Neptune ML等,資料庫開發者只需使用熟悉的 SQL 語句,就能進行機器學習操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等,可以幫助使用者使用熟悉的技術,甚至自然語言來使用機器學習,幫助企業利用資料做出更好的決策。使用者還可以通過機器學習服務Amazon SageMaker、個性化推薦服務Amazon Personalize等挖掘資料智慧。
擁抱開源,開放共贏。亞馬遜雲科技“智慧湖倉”架構中的關鍵元件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基於開原始碼,介面與開源完全相容,無需改變任何程式碼就可以實現遷移,也相容主流的管理工具。OpenSearch 基於開放的Apache2.0 授權,其程式碼完全開放,使用者可以免費下載使用並獲得企業級的功能。這些服務允許使用者在轉型過程中,以非常低的改造成本向雲端遷移。
在顧凡眼中,資料的價值實現有三個步驟:第一是如何把資料基礎設施現代化,採用雲上的雲原生資料庫。第二如何從資料中真正產生價值,包括諸多的分析的工具。第三,如何用機器學習更好地輔助決策,甚至是驅動決策。
目前,亞馬遜雲科技已經打通旗下機器學習Amazon SageMaker和湖倉的融合,同時實現機器學習的再擴圈,數倉和資料庫的開發人員或者分析師是SQL專家,但不懂Python,可以讓他們能很快上手使用機器學習,而不用讓資料科學家幫自己構建演算法模型。