亞馬遜雲科技兩項新功能幫助客戶邁向Zero-ETL 未來

danny_2018發表於2022-12-06

Amazon Aurora zero-ETL與Amazon Redshift 整合的功能助力客戶近乎實時地分析 PB 級交易資料,無需自定義資料管道。

面向 Apache Spark的Amazon Redshift整合功能幫助客戶在使用亞馬遜雲科技的分析和機器學習服務時可以更快更輕鬆地透過Apache Spark 應用程式訪問到Redshift上的資料。

2022年12月6日,亞馬遜雲科技在2022 re:Invent全球大會上釋出兩項全新的整合功能,使客戶可以連線和分析多地儲存的資料,無需在不同服務間進行資料遷移。客戶可以使用Amazon Redshift近乎實時地分析Amazon Aurora中的資料,無需在不同服務之間提取、轉換和載入(ETL)資料。客戶還可以使用亞馬遜雲科技的分析和機器學習服務(如 Amazon EMR、Amazon Glue和Amazon SageMaker)在Amazon Redshift的資料上輕鬆執行 Apache Spark應用程式。這兩項新功能共同幫助客戶在亞馬遜雲科技上邁向一個“Zero-ETL的未來”。

“當前,客戶管理的資料既龐大又複雜,這意味著他們不能只用單一技術或幾個工具來分析和探索這些資料。我們的許多客戶都透過亞馬遜雲科技的眾多資料庫和分析服務從資料中提取價值。確保他們能夠使用正確的工具完成工作,對於他們的企業成功非常重要。”亞馬遜雲科技資料庫、分析和機器學習副總裁 Swami Sivasubramanian表示,“今天釋出的新功能幫助我們的客戶在亞馬遜雲科技上邁向一個‘Zero-ETL的未來’,減少在不同服務間手動遷移或轉換資料的工作。無論企業和資料的規模有多大,複雜度有多高,透過為客戶消除 ETL 和其它資料遷移任務,我們都能助力客戶專注於分析資料,面向業務獲取新的洞察。”

資料是所有應用程式、流程和業務決策的核心,也幾乎是每個企業數字化轉型的基石。但是,現實世界的資料系統通常既龐大又複雜,各種資料分散在多個雲服務和本地系統中。許多企業坐擁大量資料,希望最大限度地從資料中獲得價值。亞馬遜雲科技提供了一系列專門構建的工具,例如 Amazon Aurora用於將交易資料儲存在與 MySQL 和 PostgreSQL 相容的關聯式資料庫中,Amazon Redshift用於在PB級資料上執行高效能資料倉儲和分析工作負載。但要真正實現資料價值最大化,客戶需要這些工具無縫協作。因此,亞馬遜雲科技投入開發了基於Zero-ETL理念的功能,例如 Amazon Aurora ML 和 Amazon Redshift ML,讓客戶可以在機器學習用例受益於Amazon SageMaker的功能,而無需在不同服務間遷移資料。此外,亞馬遜雲科技確保可以從流式服務(如Amazon Kinesis 和 Amazon MSK)向廣泛的資料儲存服務(如Amazon S3和Amazon OpenSearch Service)無縫注入資料,從而助力客戶及時分析資料。亞馬遜雲科技資料庫和分析產品組合效能卓越,整合深入,在此基礎之上此次釋出的新功能會助力客戶更快、更輕鬆、更經濟高效地訪問和分析儲存在亞馬遜雲科技上的資料。

Amazon Aurora zero-ETL與Amazon Redshift 整合的功能助力客戶輕鬆使用Amazon Redshift對 Amazon Aurora中的交易資料進行近乎實時的PB級分析。

企業希望更好地瞭解核心業務驅動因素,制定戰略以增加銷售額、降低成本、獲得競爭優勢,因此,近乎實時地從購買、預訂和金融交易等交易資料中獲得洞察的需求不斷增加。當前,許多企業用以分析交易資料的解決方案分為三部分:用關聯式資料庫儲存資料,用資料倉儲分析資料,並用資料管道在關聯式資料庫和資料倉儲之間提取、轉換和載入(ETL)資料。資料管道構建成本高昂且難以管理,需要開發人員編寫自定義程式碼,並且持續管理基礎設施以確保其按需擴充套件。一些公司甚至需要投入整個團隊以完成這項工作。此外,用這種方式準備好資料可能需要幾天的時間,而且間歇性的資料傳輸錯誤會影響客戶獲得稍縱即逝的洞察,甚至錯失商機。

藉助Amazon Redshift整合的Amazon Aurora zero-ETL功能,交易資料在寫入Amazon Aurora後的幾秒鐘內可以自動連續複製,使其在Amazon Redshift中即時可用。一旦資料在Amazon Redshift中可用,客戶立即可以開始分析資料,並且應用資料共享和Amazon Redshift ML等高階功能獲得全面的預測性洞察。客戶可以將資料從多個Amazon Aurora資料庫叢集複製到同一個Amazon Redshift例項,跨多個應用程式獲得洞察。如此,客戶可以使用Amazon Aurora支援交易資料庫需求,使用 Amazon Redshift進行分析,無需構建或維護複雜的資料管道。

面向Apache Spark的Amazon Redshift整合功能幫助客戶在使用亞馬遜雲科技的分析和機器學習服務時可以更快更輕鬆地透過Apache Spark 應用程式訪問到Redshift上的資料。

許多開發人員使用Apache Spark(一種用於大資料工作負載的開源處理框架)來支援各種分析和機器學習應用程式。當前,亞馬遜雲科技支援在Amazon EMR、Amazon Glue和Amazon SageMaker上執行 Apache Spark,功能完全相容,最佳化後的執行時間比開源版本快3倍。客戶通常希望直接從這些服務中分析Amazon Redshift中的資料。他們需要經歷複雜、耗時的過程查詢、測試和認證第三方聯結器,以在他們的環境和Amazon Redshift之間讀取和寫入資料。即使找到聯結器,客戶還必須管理中間的資料暫存位置(如Amazon S3),以便從Amazon Redshift讀取和寫入資料。所有這些挑戰都增加了操作的複雜性,使客戶難以充分利用Apache Spark。

面向Apache Spark的Amazon Redshift整合功能使開發人員可以輕鬆地使用亞馬遜雲科技支援的分析和機器學習服務,在Amazon Redshift資料上構建和執行Apache Spark應用程式。該整合功能由亞馬遜雲科技認證、打包和支援,消除了與第三方聯結器相關的繁瑣而且容易出錯的過程。開發人員可以使用流行的語言框架(如 Java、Python、R和Scala),在幾秒鐘內開始從基於Apache Spark的應用程式對 Amazon Redshift 資料執行查詢指令。中間資料暫存位置是自動管理的,客戶無需在應用程式程式碼中配置和管理這些位置。要開始使用面向Apache Spark的Amazon Redshift整合功能,請訪問aws.amazon.com/redshift/features/integration-for-apache-spark。

從個人和小型企業到政府機構和全球品牌,Adobe使每個人都能創造和交付卓越的數字體驗。“Adobe 的使命是透過數字體驗改變世界,在當今世界,這意味著擁有能夠提供深刻和實時洞察的分析工具。” Adobe Acrobat Sign 首席科學家Jack Lull表示,“作為 Amazon Aurora 的客戶,我們非常歡迎Amazon Redshift整合的Amazon Aurora zero-ETL功能。它將為我們不斷擴大的Acrobat Sign 客戶群提供新的洞察和更快的分析能力,並隨著他們用量的增加而同步增長。所有這些都不需要我們自己的團隊做日常維護。”

Infor是商業雲軟體和特定行業ERP解決方案的全球領導者。“在Infor,我們使用亞馬遜雲科技構建和部署現代化的工具,幫助客戶轉型其業務並加速創新,其中包括我們最新提供的面向客戶行業雲資料的託管資料倉儲服務,以幫助客戶透過高階分析和機器學習更快地做出決策。”Infor雲服務高階副總裁Jim Plourde表示,“我們很高興使用Amazon Redshift整合的Amazon Aurora zero-ETL功能,它將讓Amazon Aurora中的交易資料近乎實時地提供給Amazon Redshift,減輕我們的運營負擔。現在,我們既可以受益於Amazon Aurora用作關聯式資料庫管理系統的效能,又可以輕鬆利用 Amazon Redshift的分析和機器學習功能實現新的託管資料倉儲服務。”

高盛集團是一家領先的全球金融機構,為包括企業、金融機構、政府和個人在內的龐大而多元化的客戶群提供投資銀行、證券、投資管理和消費者銀行業務等廣泛的金融服務。 “我們的重點是為高盛內所有使用者提供自助式資料訪問。當在整個金融服務行業開展協作時,我們透過開源資料管理和治理平臺Legend可以助力使用者開發以資料為中心的應用程式,並且獲得資料驅動的洞察。”高盛首席資料官Neema Raphael 表示,“透過面向Apache Spark的Amazon Redshift整合功能,我們的資料平臺團隊以最少的定製化操作就可以訪問Amazon Redshift資料,實現零程式碼ETL,使我們更有能力在工程師收集完整及時的資訊時,讓他們更容易專注於完善其工作流。由於我們的使用者現在可以輕鬆訪問Amazon Redshift中的最新資料,我們將能實現更高的應用程式效能和更強的安全性。”

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31547898/viewspace-2926881/,如需轉載,請註明出處,否則將追究法律責任。

相關文章