【2022開發者專場】從Amazon Redshift實戰沙龍看雲數倉未來發展趨勢

danny_2018發表於2023-01-04

大資料時代,企業對資料帶來的業務價值有哪些期待?如果你參加了Amazon Redshift實戰沙龍,一定會有更深刻的感悟!

12月30日,2022re:Invent Recap 開發者專場系列線下沙龍活動如期召開,本次會議由亞馬遜雲科技和ITPUB社群聯合舉辦。繼上一場Amazon Aurora Serverless 資料庫開發者專場活動之後,以“化繁為簡,Amazon Redshift讓資料架構走向Zero-ETL時代”為主題的雲數倉沙龍活動,精彩紛呈,現場座無虛席!

眾所周知,2022 re:Invent有很多重磅釋出,為了讓更多嘉賓瞭解會議精華,2022開發者專場-北京站會議成功召開,本次雲數倉專場重點分享了Amazon Redshift十年躍遷,以及多項重磅釋出。同時,為把更多體驗帶給中國雲技術愛好者,現場還設定了動手實踐環節,多名開發者實地感受到雲原生資料倉儲帶來的方便與快捷。

企業無需構建和維護複雜的 ETL 管道

針對企業使用者重點關注的實際業務問題,比如:如何去構建一個雲原生的資料戰略?面向未來的雲資料基礎設施有哪些選擇?亞馬遜雲科技 資深解決方案架構師 史天 ,以“Amazon Redshift業務價值及亮點功能更新”為話題點,進行了諸多分享!

“企業面臨多種多樣的資料來源,包括OLTP資料庫、資料湖、流資料、檔案儲存等,而手動運算元據流水線,既昂貴又繁瑣,雲原生資料倉儲可以極大地簡化資料攝入工作。”在史天看來,要想有效解決複雜的資料重構以及資料不完整、不一致的問題,需要建立一個面向未來的資料底層基礎設施。

談到大資料,很多企業的基本用法都是從資料庫中抓取很多業務資料,然後出BI報表,輔助老闆或者團隊做商務決策,這也是傳統且典型的一些業務場景。再之後,資料不再是傳統的關係型資料,還有資料湖、SaaS應用等其他資料來源,如何把這些資料匯入資料倉儲做相應分析呢?其中會涉及不同的資料來源,也就是ETL的一些工作,包括抽取(extract)、轉換(transform)、載入(load)這樣一個Pipeline!

問題是,傳統OLTP資料庫,加上跨多個源的ETL,包括資料湖,會使得整個資料管道變得更加複雜,之前只是關係型到分析型資料庫的轉換,現在需要多線條的資料維護和管理。如何從更多資料探勘資料見解?企業開始從大資料向機器學習演進,探索近實時的分析和預測模式!

其實,企業儲存在資料倉儲的資料,已經為ETL操作做好了準備,本身結構良好,非常適合在機器學習中做訓練。所以,把資料倉儲和機器學習結合,也是資料倉儲產品的一個重要發展方向。

與此同時,企業業務正在發生新變化,之前做分析報表,或者做BI分析的時候,大部分資料都是離線模式,比如:出一個上個月、上週的產品銷售分析,稍微快一些的,可以是前一天的資料分析。現在,各種應用資料都是實時打到應用系統中,到了實時資料分析平臺之後,會變成批或者離線形式,對實時資料分析有很大影響。如何提升實時性?讓資料在新鮮度很高的情況下,就能做實時分析,也是現在雲資料倉儲或者資料平臺重點關注的方向!

有了很多資料之後,能做機器學習分析,也能實時捕捉資料的一些變化,那下一步的考慮是,如何實現資料變現?除了對資料進行分析,為業務提供一定的見解之外,如何把資料轉化成對我們業務更有價值的產品,類似於資料即服務的模式,能對應用帶來更大幫助,這是資料現代化的一種表現,是有別於傳統資料倉儲或者資料平臺的一種新架構。

以上這些變化,是Amazon Redshift經過十年演進,走過的心歷路程。換言之,提供面向未來的現代化資料架構,正是Amazon Redshift的長項。藉助最新發布的Zero ETL功能,亞馬遜雲科技可以幫助客戶完成從0到1的構建,再實現從1到0的蛻變。Redshift與Amazon Aurora資料庫深度整合,在事務型資料寫入Aurora後,資料在底層被持續地複製到Redshift,完成行式資料儲存到列式資料儲存的轉換,徹底消除了自己構建和維護複雜資料管道的工作。同時,藉助Amazon Redshift Integration for Apache Spark,使用者可以透過類似EMR、Amazon Glue這樣的Spark引擎來消費Amazon Redshift裡面的資料。和之前相比,最佳化之後的技術可以使Spark引擎對Amazon Redshift資料抽取效能提升10倍多。

全鏈路雲原生讓資料實現實時分析

企業要想獲取簡單、低程式碼資料分析能力,需打破資料孤島,建立端到端的資料旅程。

“在簡單、可擴充套件的Amazon Glue 4.0時代,企業可以讓資料整合更快,並且能實現大規模自動化。”亞馬遜雲科技 資深解決方案架構師 肖紅亮,在“全鏈路雲原生資料服務能力解析(大資料+雲數倉+機器學習)”主題分享過程中,全面介紹了無伺服器資料整合帶來的業務價值。

以Amazon Glue為例, Amazon Glue 是一項完全託管,無伺服器架構的ETL服務,客戶無需預置基礎設定,僅需由 Glue 負責預置、擴充套件 Spark 執行環境,並且使用 Amazon Glue 時,只需為 ETL 作業執行時間付費。其中藉助Amazon Glue Data Quality,系統可以自動提供資料質量規則建議,透過持續的資料分析使資料保持高質量,同時控制資料湖和資料流水線中資料集的資料質量,確保使用者成本收益最大化。在Amazon Glue中,企業還能擴充套件現有的Python框架程式碼,無需管理或者調優基礎設施,建立全面資料分析流程。

再比如:在Amazon Redshift提供的Streaming Ingestion功能中,使用者可以非常方便地可以將訊息中心的資料接入到Redshift,中間無需依賴任何元件,執行Redshift標準SQL即可,整個過程自動攝取,極大地降低了資料入倉攝入延遲和維護成本。與其他同類產品不同,Amazon Redshift依靠自己內部的強大的機器學習演算法,會自動去做一系列的動作,使用者不再需要特別關注數倉效能的調優,只關注業務邏輯即可。

可以說,企業要想快速構建資料流水線,實現ETL自由,Amazon Redshift是底層基礎設定的重要支撐。而憑藉Amazon Redshift與其他資料分析應用的無縫整合,使用者可以獲得更完美的資料分析體驗。比如:可以實現高效能格式儲存資料,以更經濟有效的方式將儲存擴充套件到千兆位元組,可實現儲存和計算的分離,並且能支援ACID事務,實現分析和機器學習引擎的選擇等等。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31547898/viewspace-2930688/,如需轉載,請註明出處,否則將追究法律責任。

相關文章