大資料時代，企業對資料帶來的業務價值有哪些期待?如果你參加了Amazon Redshift實戰沙龍，一定會有更深刻的感悟!

12月30日，2022re：Invent Recap 開發者專場系列線下沙龍活動如期召開，本次會議由亞馬遜雲科技和ITPUB社群聯合舉辦。繼上一場Amazon Aurora Serverless 資料庫開發者專場活動之後，以“化繁為簡，Amazon Redshift讓資料架構走向Zero-ETL時代”為主題的雲數倉沙龍活動，精彩紛呈，現場座無虛席!

眾所周知，2022 re:Invent有很多重磅釋出，為了讓更多嘉賓瞭解會議精華，2022開發者專場-北京站會議成功召開，本次雲數倉專場重點分享了Amazon Redshift十年躍遷，以及多項重磅釋出。同時，為把更多體驗帶給中國雲技術愛好者，現場還設定了動手實踐環節，多名開發者實地感受到雲原生資料倉儲帶來的方便與快捷。

企業無需構建和維護複雜的 ETL 管道

針對企業使用者重點關注的實際業務問題，比如：如何去構建一個雲原生的資料戰略?面向未來的雲資料基礎設施有哪些選擇?亞馬遜雲科技資深解決方案架構師史天，以“Amazon Redshift業務價值及亮點功能更新”為話題點，進行了諸多分享!

“企業面臨多種多樣的資料來源，包括OLTP資料庫、資料湖、流資料、檔案儲存等，而手動運算元據流水線，既昂貴又繁瑣，雲原生資料倉儲可以極大地簡化資料攝入工作。”在史天看來，要想有效解決複雜的資料重構以及資料不完整、不一致的問題，需要建立一個面向未來的資料底層基礎設施。

談到大資料，很多企業的基本用法都是從資料庫中抓取很多業務資料，然後出BI報表，輔助老闆或者團隊做商務決策，這也是傳統且典型的一些業務場景。再之後，資料不再是傳統的關係型資料，還有資料湖、SaaS應用等其他資料來源，如何把這些資料匯入資料倉儲做相應分析呢?其中會涉及不同的資料來源，也就是ETL的一些工作，包括抽取(extract)、轉換(transform)、載入(load)這樣一個Pipeline!

問題是，傳統OLTP資料庫，加上跨多個源的ETL，包括資料湖，會使得整個資料管道變得更加複雜，之前只是關係型到分析型資料庫的轉換，現在需要多線條的資料維護和管理。如何從更多資料探勘資料見解?企業開始從大資料向機器學習演進，探索近實時的分析和預測模式!

其實，企業儲存在資料倉儲的資料，已經為ETL操作做好了準備，本身結構良好，非常適合在機器學習中做訓練。所以，把資料倉儲和機器學習結合，也是資料倉儲產品的一個重要發展方向。

與此同時，企業業務正在發生新變化，之前做分析報表，或者做BI分析的時候，大部分資料都是離線模式，比如：出一個上個月、上週的產品銷售分析，稍微快一些的，可以是前一天的資料分析。現在，各種應用資料都是實時打到應用系統中，到了實時資料分析平臺之後，會變成批或者離線形式，對實時資料分析有很大影響。如何提升實時性?讓資料在新鮮度很高的情況下，就能做實時分析，也是現在雲資料倉儲或者資料平臺重點關注的方向!

有了很多資料之後，能做機器學習分析，也能實時捕捉資料的一些變化，那下一步的考慮是，如何實現資料變現?除了對資料進行分析，為業務提供一定的見解之外，如何把資料轉化成對我們業務更有價值的產品，類似於資料即服務的模式，能對應用帶來更大幫助，這是資料現代化的一種表現，是有別於傳統資料倉儲或者資料平臺的一種新架構。

以上這些變化，是Amazon Redshift經過十年演進，走過的心歷路程。換言之，提供面向未來的現代化資料架構，正是Amazon Redshift的長項。藉助最新發布的Zero ETL功能，亞馬遜雲科技可以幫助客戶完成從0到1的構建，再實現從1到0的蛻變。Redshift與Amazon Aurora資料庫深度整合，在事務型資料寫入Aurora後，資料在底層被持續地複製到Redshift，完成行式資料儲存到列式資料儲存的轉換，徹底消除了自己構建和維護複雜資料管道的工作。同時，藉助Amazon Redshift Integration for Apache Spark，使用者可以透過類似EMR、Amazon Glue這樣的Spark引擎來消費Amazon Redshift裡面的資料。和之前相比，最佳化之後的技術可以使Spark引擎對Amazon Redshift資料抽取效能提升10倍多。

全鏈路雲原生讓資料實現實時分析

企業要想獲取簡單、低程式碼資料分析能力，需打破資料孤島，建立端到端的資料旅程。

“在簡單、可擴充套件的Amazon Glue 4.0時代，企業可以讓資料整合更快，並且能實現大規模自動化。”亞馬遜雲科技資深解決方案架構師肖紅亮，在“全鏈路雲原生資料服務能力解析(大資料+雲數倉+機器學習)”主題分享過程中，全面介紹了無伺服器資料整合帶來的業務價值。

以Amazon Glue為例， Amazon Glue 是一項完全託管，無伺服器架構的ETL服務，客戶無需預置基礎設定，僅需由 Glue 負責預置、擴充套件 Spark 執行環境，並且使用 Amazon Glue 時，只需為 ETL 作業執行時間付費。其中藉助Amazon Glue Data Quality，系統可以自動提供資料質量規則建議，透過持續的資料分析使資料保持高質量，同時控制資料湖和資料流水線中資料集的資料質量，確保使用者成本收益最大化。在Amazon Glue中，企業還能擴充套件現有的Python框架程式碼，無需管理或者調優基礎設施，建立全面資料分析流程。

再比如：在Amazon Redshift提供的Streaming Ingestion功能中，使用者可以非常方便地可以將訊息中心的資料接入到Redshift，中間無需依賴任何元件，執行Redshift標準SQL即可，整個過程自動攝取，極大地降低了資料入倉攝入延遲和維護成本。與其他同類產品不同，Amazon Redshift依靠自己內部的強大的機器學習演算法，會自動去做一系列的動作，使用者不再需要特別關注數倉效能的調優，只關注業務邏輯即可。

可以說，企業要想快速構建資料流水線，實現ETL自由，Amazon Redshift是底層基礎設定的重要支撐。而憑藉Amazon Redshift與其他資料分析應用的無縫整合，使用者可以獲得更完美的資料分析體驗。比如：可以實現高效能格式儲存資料，以更經濟有效的方式將儲存擴充套件到千兆位元組，可實現儲存和計算的分離，並且能支援ACID事務，實現分析和機器學習引擎的選擇等等。

【2022開發者專場】從Amazon Redshift實戰沙龍看雲數倉未來發展趨勢

相關文章