在 2021 年初全年技術趨勢展望中,資料湖與資料倉儲的融合,成為大資料領域的趨勢重點。直至年末,關於二者的討論依然熱烈,行業內的主要分歧點在於資料湖、資料倉儲對儲存系統訪問、許可權管理等方面的把控;行業內的主要共識點則是二者結合必能降低大資料分析的成本,提高易用性。
而此類爭論,又反映了行業在大資料處理領域的核心訴求:如何通過資料湖、資料倉儲的設計,有效滿足現代化應用的資料架構要求。亞馬遜雲科技作為行業頭部雲廠商,也推出了與資料湖、資料倉儲融合相關的“智慧湖倉”。為什麼“智慧湖倉”可以更智慧地整合資料湖、資料倉儲和其他資料處理服務?“智慧湖倉”架構備受關注意味著什麼?在技術行業風向標的 2021 亞馬遜雲科技 re:Invent 大會上,我們看到了“智慧湖倉”架構的現在和未來構想。
被廣泛關注的“智慧湖倉”架構
理解“智慧湖倉”架構的現在和未來,需要先了解它的過去。早在 2017 年,“智慧湖倉”架構就已初具雛形。當時,亞馬遜雲科技釋出了 Amazon Redshift Spectrum,讓 Amazon Redshift 具備了打通資料倉儲和資料湖的能力,實現了跨資料湖、資料倉儲的資料查詢。
這件事情啟發了“智慧湖倉”架構的形成。在 2020 年的亞馬遜雲科技 re:Invent 大會上,亞馬遜雲科技正式釋出“智慧湖倉”。如果從早期的技術探索開始算起,在 2021 亞馬遜雲科技 re:Invent 大會上釋出的 Serverless 能力,代表了“智慧湖倉”架構的第 8 輪技術演進。如今,“智慧湖倉”基於 Amazon S3 構建資料湖,繞湖整合資料倉儲、大資料處理、日誌分析、機器學習資料服務,利用 Amazon Lake Formation、Amazon Glue 等工具可以實現資料的自由流動與統一治理。
具體而言,“智慧湖倉”架構下,首先需要打破資料孤島形成一個資料湖;其次,需要圍繞著資料湖,在不同應用場景為使用者提供相應的分析工具;另外,需要確保資料在湖、倉以及專門的服務之間能夠自由移動;此外,需要確保用統一的方式去管理湖裡面資料的安全性、訪問控制和審計;最終,需要能夠採用低成本的方法將湖、倉各自的優勢有效利用起來,並利用人工智慧等創新手段進行創新。
就像 Amazon Redshift 在 2012 年釋出時,引導了雲原生數倉的發展方向一樣,“智慧湖倉”架構一經發布就引發業內廣泛關注,一方面是因為亞馬遜雲科技作為頭部雲廠商的行業地位,另一方面是因為此架構在技術上的創新思路能夠為行業帶來一些新的思考。
“智慧湖倉”更強調“架構”而非“產品”,更強調資料的自由流動與統一治理,以及基於湖倉的“智慧創新”。如今,“智慧湖倉”架構不是簡單地將湖與倉打通,而是將湖、倉與專門構建的資料服務連線成為一個整體,讓資料在其間無縫移動。面對向 TB 級、PB 級,甚至 EB 級增長的資料,“如何存”和“如何用”不再是相對孤立的話題。“智慧湖倉”向行業傳遞了一個訊號:企業需要統一資料分析工具,實現資料在整個資料平臺的自由流轉。
不管是企業資料管理理念的視角,還是在技術視角下,“智慧湖倉”架構被廣泛關注也意味著,隨著資料湖和資料倉儲的邊界在逐漸淡化,基於兩者的大資料處理體系的架構正在被重構。
“智慧湖倉”架構下,重構中的大資料基礎設施
這種重構大概可以分為幾個維度來理解,其中最重要的是更強的資料安全、治理和資料共享能力,更敏捷的構建方式,更智慧的創新手段。
資料安全、治理和共享,重點聚焦跨湖、跨倉庫甚至跨企業的資料流通和治理,致力於實現真正意義上的資料跨域互通;更敏捷的構建方式則要將企業的敏態追求提升到極致,Serverless 能力的應用是其關鍵;更智慧的創新手段則把 AI/ML 能力和大資料治理併入統一範疇,避免走入“為了大資料而大資料”的誤區。
在 2022 年,當我們再次談起資料湖和資料倉儲的融合問題時,包含以上關鍵點的“智慧湖倉”架構,很可能成為被業內重點參考的構建思路之一。
更強的資料安全、治理和資料共享能力
資料的安全、治理和共享,原是大資料的本職任務,但當資料達到 PB 乃至 EB 級,需要跨多個區域、組織、賬戶進行資料共享或資料互動時,企業有些時候並非不想細顆粒度管理資料,而是無法管理。這種顆粒度的許可權控制往往比單機系統設計或者單一的分散式系統要複雜得多。所以,資料治理成為了“智慧湖倉”重要的發力點。
在 2021 亞馬遜雲科技 re:Invent 大會上,支撐資料統一治理和自由流動能力的“智慧湖倉”元件 Amazon Lake Formation 釋出了多項新功能。除了之前早已支援的表和列級安全,Amazon Lake Formation 現在支援行和單元級許可權,通過只限制使用者對部分資料的訪問許可權,讓限制訪問敏感資訊變得更加簡單。
此外,Data mesh 的概念在 2021 亞馬遜雲科技 re:Invent 大會上也被提及。Data mesh 概念也是 Gartner 提出的十大資料技術趨勢之一。在 Data mesh 模式下,“智慧湖倉”能夠實現領域資料成為產品、輕鬆啟用細粒度授權、資料更容易被使用、資料呼叫跨企業可見和聯邦的資料管控與合規。這意味著,“智慧湖倉”架構下,Data mesh 可以實現跨資料湖的資料共享和計算。亞馬遜雲科技藉助自身資料湖安全、tag 級別的訪問控制和共享能力,為 Data mesh 提供了實現方式與手段,讓 Data mesh 概念走向落地。
更敏捷的構建方式
除了更強的資料安全、治理和資料共享能力,更敏捷的構建方式也是絕大多數企業當下主要關注的技術創新之一。敏捷在企業間的認可度和應用程度越來越高,而“智慧湖倉”原本就是敏捷的架構。在“智慧湖倉”架構中,Amazon Lake Formation 能夠將建立資料湖的時間從數月縮短到數天。使用者可以使用像 Amazon Glue 這樣的 Serverless 資料整合工具快速實現資料入湖;使用 Amazon Athena 這樣的 Serverless 查詢引擎直接實現基於 SQL 語言的湖上資料查詢分析。無論是超大型公司還是工作室,都可以從這種敏捷的構建方式中快速獲益,提取資料的價值。
為了讓構建方式更敏捷,在 2021 亞馬遜雲科技 re:Invent 大會上,亞馬遜雲科技宣佈推出更多資料分析服務的無伺服器版,藉助無伺服器的能力,讓使用者可以更敏捷地構建自己的資料儲存、分析、智慧應用解決方案。
- Amazon Redshift Serverless ,讓資料倉儲更敏捷,支援在幾秒鐘內自動設定和擴充套件資源,使用者無需管理資料倉儲叢集,實現 PB 級資料規模執行高效能分析工作負載;
- Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless ,讓流式資料接入與處理,支援快速擴充套件資源,簡化實時資料攝取和流式傳輸,實現全面監控、移動甚至跨叢集載入分割槽,自動調配和擴充套件計算和儲存資源,讓使用者可以按需使用 Kafka;
- Amazon EMR Serverless 讓大資料處理更敏捷,使用者無需部署、管理和擴充套件底層基礎設施,使用開源大資料框架(如 Apache Spark、Hive 和 Presto)執行分析型應用程式;
- Amazon Kinesis Data Streams on Demand 讓流式資料分析與實時資料場景搭建更敏捷。每分鐘可以處理數 GB 的寫入和讀取吞吐量,而不必預置與管理伺服器、儲存,在成本和效能之間取得平衡且變得更加簡單。
來自亞馬遜雲科技的資料顯示,現在每天有數以萬計的使用者每天在使用 Amazon Redshift 處理超過 2EB 的資料。全球最大的製藥公司之一羅氏製藥(Roche)首席雲平臺和機器學習工程師 Yannick Misteli 博士表示:“Amazon Redshift Serverless 可減輕運營負擔,降低成本,並幫助羅氏製藥規模化實踐 Go-to-Market 策略。這種極簡的方式改變了遊戲規則,幫助我們快速上手並支援各種繁重的分析場景。”
更智慧的創新手段
正如 Yannick Misteli 提到的一樣,近些年來,底層的技術創新推動業務層的改變,而業務層的訴求也倒逼底層技術的進步。遊戲規則正在技術升級中改變。如今,“智慧”是絕大多數技術的演進目標。在亞馬遜雲科技的“智慧湖倉”架構中,也將“智慧”提到了一個相當重要的位置。
“智慧湖倉”架構下,資料庫服務與人工智慧和機器學習深度整合。在具體的產品上,亞馬遜雲科技提供了 Amazon Aurora ML、Amazon Neptune ML、Amazon Redshift ML 等諸多資料庫原生的機器學習服務。
同時,在“智慧湖倉”架構中,還有云原生人工智慧平臺 Amazon SageMaker ,它提供了多類機器學習庫和開發工具包,幫助使用者快速構建人工智慧應用。當使用者需要面對大量資料處理場景時,可以使用 Amazon SageMaker 內建的工具輕鬆快速連線到 Amazon EMR 叢集進行大資料處理。而 Amazon EMR Serverless,也幫助人工智慧相關的資料處理與分析變得足夠敏捷。
在 Gartner 2021 年釋出的報告《Magic Quadrant for Cloud Database Management Systems》中,亞馬遜雲科技連續 7 年被評為“領導者”,這項報告面向的主要是對各大廠商提供的雲資料庫、雲資料分析工具進行全景評估,並給出最終位置的“測評報告”,含金量可見一斑。亞馬遜雲科技參與評測的產品均為“智慧湖倉”架構中的代表產品,這個“領導者地位”背後代表的技術成熟度不言自明。
我們可以看到,“智慧湖倉”提供的每一款服務工具的迭代,都在向更敏捷、更安全、更智慧的資料架構目標邁進。資料架構作為企業數字化轉型的最底層,也是應用現代化的底層動力。“智慧湖倉”帶來的資料管理方式的變革,也承載著亞馬遜雲科技對應用現代化的構想。
寫在最後
回到文章開篇提到的問題,目前行業內已經形成了資料湖和資料倉儲的融合必將降低大資料分析成本的共識,主要分歧點在於資料湖、資料倉儲對儲存系統訪問、許可權管理等方面的把控。在這些方面,亞馬遜雲科技的“智慧湖倉”架構圍繞這些問題都提供了相關的工具或服務。
無論是在資料基礎架構、統一分析還是業務創新上,從連線資料湖和資料倉儲到跨資料庫、跨域共享,“智慧湖倉”在實際的業務場景中並非孤立存在,而是與應用程式緊密相連。
底層資料架構的現代化演進,也將為企業乃至全行業帶來更大的價值。資料,作為與土地、勞動力、資本、技術並列的“第五大生產要素”,重要性不言而喻。如今,亞馬遜雲科技“智慧湖倉”架構在企業中的實踐,已經為企業構建現代化資料平臺提供了一條可供遵循的路徑。
活動推薦
對於技術圈而言,這一年中,各種技術與領域的發展,既站高峰,也歷跌宕。在 2021 年最後時刻,我們也想聆聽來自雲端計算領域開發者的聲音,為此,雲端計算開發者有獎調研正式開啟,誠邀各位夥伴參與,多重好禮等你來領!