大資料+機器學習融合,亞馬遜雲科技全新服務組合上線

李泽南發表於2022-04-29

機器學習技術崛起後,人們津津樂道的是神經網路結構、網路層數、超引數的最佳化等概念,但資料的採集、處理、最佳化對於演算法能力同樣至關重要。

4 月 27 日,在北京舉行的活動中,亞馬遜雲科技宣佈推出「雲、數、智三位一體」的大資料與機器學習融合服務組合,幫助企業推進大資料和機器學習的融合,將機器學習由實驗轉為規模化落地實踐。

亞馬遜雲科技提出的服務組合涵蓋三個方面,分別是:構建雲中統一的資料治理底座,為機器學習提供生產級別的資料處理能力,以及賦能給業務人員更加智慧的資料分析工具。

該服務組合是亞馬遜雲科技自去年推出「智慧湖倉」架構以來,持續推進該框架的深度智慧並加速其落地實踐。大資料+機器學習融合,亞馬遜雲科技全新服務組合上線

亞馬遜雲科技大中華區產品部總經理陳曉建表示:「隨著企業資料越來越多,機器學習模型越來越先進,很多企業期望透過大資料與機器學習技術的融合,進一步帶動業務創新,提升產出。但企業往往面臨一個困境,有大量的資料和分析技術儲備,也嘗試了很多先進的機器學習模型,但就是很難有實際的業務產出。」

亞馬遜雲科技認為,企業不能只靠機器學習,而應在雲中打造統一的資料基礎底座,實現大資料與機器學習的合力。在大資料與機器學習領域,亞馬遜雲科技提供廣泛而深入的服務,既打通兩個領域的資料治理底層服務,還能實現大資料與機器學習之間的相互賦能。

「雲、數、智三位一體」的大資料和機器學習融合服務組合,是智慧湖倉架構的重要組成。亞馬遜雲科技透過在雲中構建統一的資料治理底座,提供資料分析服務保障機器學習的生產實踐,實現機器學習反向賦能智慧化資料分析,促進雲、數、智三者的統一與融合,幫助客戶推進機器學習專案的落地。

•    構建雲中統一的資料治理底座,打破資料及技能孤島。亞馬遜雲科技能幫助客戶構建統一的資料治理底座,實現大資料和機器學習的資料共享,資料許可權的統一管控,以及兩者統一的開發和流程編排。這不僅能提升大資料和機器學習的高效融合,還能減少大資料和機器學習重複構建的工作,並且顯著降低成本。其中, Amazon Lake Formation 推出諸多新功能,實現了資料網格跨部門的資料資產共享,以及基於單元格的最細粒度的許可權控制機制。Amazon SageMaker Studio 可一站式地完成資料開發、模型開發及相關的生產任務,該服務基於多種專門構建的服務,如互動式查詢服務 Amazon Athena、雲上大資料平臺 Amazon Elastic MapReduce (Amazon EMR)、雲資料倉儲服務 Amazon Redshift、Amazon SageMaker 等,為大資料和機器學習提供統一的開發平臺。

•    助力機器學習由實驗轉為實踐,為機器學習提供生產級別的資料處理能力。機器學習專案成功的關鍵是對複雜的資料進行加工和準備。亞馬遜雲科技提供多種靈活可擴充套件、專門構建的大資料服務,幫助客戶進行復雜的資料加工及處理,應對資料規模的動態變化,最佳化資料質量。其中,Amazon Athena 能夠對支援多種開源框架的大資料平臺,包括 Amazon EMR、高效能關聯式資料庫 Amazon Aurora、NoSQL 資料庫服務 Amazon DynamoDB、Amazon Redshift 等多種資料來源,對這些資料來源進行聯邦查詢,快速完成機器學習建模的資料加工。 以 Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 為代表的無伺服器分析能力,可以讓客戶無需配置、擴充套件或管理底層基礎設施,即可輕鬆地處理任何規模的資料,為機器學習專案提供兼具效能和成本效益的特徵資料準備。

•    讓資料分析智慧化,賦能業務人員探索創新。亞馬遜雲科技還不斷提供更加智慧的資料分析服務,賦能業務人員進行智慧分析、模型效果驗證以及自主式創新。例如,在日常分析工具中整合機器學習模型預測能力,其中深度整合機器學習 Amazon SageMaker 模型預測能力的 Amazon QuickSight 、在分析結果中新增基於模型預測的 Amazon Athena ML,可幫助使用者使用熟悉的技術,甚至透過自然語言來使用機器學習。亞馬遜雲科技還提供如 Amazon Redshift ML、可視資料準備工具 Amazon Glue Databrew、零程式碼化的機器學習模型工具 Amazon SageMaker Canvas 等服務,讓業務人員探索機器學習建模。

目前,全球數十萬客戶正藉助亞馬遜雲科技大資料及機器學習服務開展業務創新,將機器學習投入實踐,解決現實世界中真實和複雜的資料應用場景。

在亞馬遜已提供的「資料湖倉」等能力之上,不同團隊有不同的應用方式。「在一些企業中,機器學習能力完全誕生於大資料團隊,他們最喜歡的亞馬遜雲科技產品是 Amazon EMR。」亞馬遜雲科技大中華區產品部技術專家團隊總監王曉野表示。

Amazon EMR 能夠提供與開源框架完全相容的技術能力,其中的 Spark ML Lib 等框架在機器學習領域已被廣泛用於技術實現。Amazon EMR 透過靈活擴充套件能力,及在雲端採用 Amazon Graviton 2 自研晶片的創新能力,在帶給企業完全開源相容性的同時,大幅實現了效能和成本的提升。

第二類企業的數智化起步是由深度學習帶來的,如應用機器視覺、語音識別等能力。在這樣場景下,應用「智慧湖倉」產品更多是面向資料科學的 Amazon SageMaker,其提供的從資料標記、內建演算法,再到高效模型訓練能力,可以在生產環境中靈活彈性實現模型部署,實現端到端的機器學習。

在活動中,一些亞馬遜雲科技的客戶進行了業務落地分享。

樂我無限(Joyme)運營的全球化直播平臺 LiveMe,薈萃了來自 200 多個國家和地區的近 100 萬名主播,每月活躍使用者數(MAU)超過 3700 萬。LiveMe 基於亞馬遜雲科技的解決方案搭建了資料研發中心平臺的核心技術服務。Joyme 資料研發中心總監楊飛表示:「LiveMe 核心業務均部署在亞馬遜雲科技上,透過亞馬遜雲科技的技術賦能,實現了降本增效,加速了業務創新。透過直播內容實時識別技術服務,LiveMe 不僅提升了使用者體驗,還大量降低了內容管理的業務成本。透過欺詐交易識別技術服務輔助識別欺詐交易,減少欺詐、拒付類交易,LiveMe 每年減少經濟損失可達數百萬美元。未來 LiveMe 將在系統穩定性、資料驅動以及新技術開發等方面加深與亞馬遜雲科技的合作。」

亞馬遜雲科技構建了強大的合作伙伴網路,透過合作伙伴網路成員幫助客戶構建解決方案。亞馬遜雲科技合作伙伴上海欣兆陽(Convertlab)以雲端計算、大資料和人工智慧為代表的數字化技術,為企業營銷提供數字化、自動化、智慧化基礎設施以及相關的專業服務。

Convertlab 聯合創始人兼 CTO 李徵表示:「基於亞馬遜雲科技統一的資料基礎底座, Convertlab 構建了相輔相成的一體化資料智慧湖倉架構 Data Hub 和一體化高效機器學習平臺 AI Hub,使資料流轉時效性提升 32%,可進行快速的特徵設計與機器學習模型迭代,模型上線效率提升 30%。當前已上線 5 大營銷特徵類別,300 多營銷特徵,20 多營銷 AI 模型,更好地賦能客戶智慧營銷,實現業務增長,助推行業數字化轉型。」

此外,亞馬遜雲科技還透過資料科學實驗室、機器學習實驗室和機器學習專業服務等一系列定製化措施,從基礎能力構建到行業前沿知識分享,幫助客戶將 “資料驅動轉型” 從設想到全面落地,重塑創新引擎。

市場研究機構 IDC 提供的報告顯示,到 2023 年全球企業在 AI 系統方面的支出將達到 979 億美元,比 2019 年增加 2.5 倍。而 Gartner 的分析則指出,到 2024 年將有 75% 的企業將把機器學習技術真正用於生產,為業務所賦能。

機器學習和大資料融合對企業業務將會產生越來越大的作用。

相關文章