在雲端計算領域,資料與人工智慧的融合趨勢愈來愈明顯,這一趨勢在亞馬遜雲科技re:Invent 2022上可見一斑。亞馬遜雲科技將其總結為上雲、用數、賦智。

企業數字化已經進入深水區。從早期的上雲,到現在,企業需要解決如何透過資料和智慧來改造企業的決策流程,重塑業務體系。

全球雲端計算領導亞馬遜雲科技在其re:Invent 2022上明確將這整體流程總結為上雲、用數、賦智。三個階段相輔相成,其中上雲可以相對容易,用數學問比較大,賦智是更高的境界。

亞馬遜雲科技大中華區產品部總經理陳曉建表示,re:Invent2022釋出了非常多的資料服務。從這些re:Invent釋出的特性中能夠看到,未來技術演進的方向是數智融合。

Amazon SageMaker五年增加260項新功能

提到人工智慧,Amazon SageMaker絕對是明星產品。也是資料與智慧融合的典範。在推出的五年時間裡,Amazon SageMaker增加260項新功能,不斷降低機器學習的技術門檻,簡化機器學習的前期工作,加速為客戶“賦智”。在資料服務方面也是如此,透過各種新服務和新功能,儘可能讓開發人員可以上手開展機器學習。

其中,Amazon SageMaker Studio Notebook提供了強大的資料功能。幫助客戶直觀地透過幾次點選檢查和解決資料質量問題。

專業人員在準備訓練資料時希望直接在Notebook中探索資料集,以發現和糾正潛在的資料質量問題(如資訊缺失、極值、資料集失真和偏差)。專業人員可能要花費數月時間編寫樣板程式碼將資料集的不同部分視覺化,檢查資料集,以期識別和修復問題。

Amazon SageMaker Studio Notebook新提供了內建的資料準備功能,讓專業人員只需點選幾下即可直觀地檢視資料特徵、修復資料質量問題,所有這一切都直接在Notebook環境中進行。當使用者在Notebook中顯示data frame(即資料的表格形式)時,Amazon SageMaker Studio Notebook 會自動生成圖表幫助使用者識別資料質量問題,提供資料轉換建議幫助解決常見問題。專業人員選擇資料轉換後,Amazon SageMaker Studio Notebook 會在Notebook中生成相應程式碼,可供每次執行Notebook時重複應用。

Amazon SageMaker Studio 是一個整合開發環境,它提供了一個基於 Web 的視覺化介面,開發人員可以在其中訪問各種工具,執行所有機器學習開發步驟,從準備資料到構建、訓練和部署機器學習模型,將資料科學團隊的生產力提高多達 10 倍。開發人員可以快速上傳資料、建立新記事本、訓練和調優模型,在各個步驟之間來回切換以調整實驗,還可以在不離開 Studio 的情況下將模型部署到生產環境中。

Amazon Glue Data Quality跨資料湖和資料管道自動管理資料質量

Amazon Glue 是一項完全託管的提取、轉換和載入 (ETL) 服務,讓客戶能夠輕鬆地準備和載入資料以供分析。此次re:Invent 2022,亞馬遜雲科技為Amazon Glue推出的一項新功能,叫Amazon Glue Data Quality,可以跨資料湖和資料管道自動管理資料質量。其最終目標也是指向機器學習應用。

成千上萬客戶使用Amazon Glue快速、輕鬆且經濟高效地構建和管理現代資料管道。組織需要監控其資料湖和資料管道中資訊的資料質量(衡量資料的即時性、準確性和完整性),確保資料的高質量,然後再將其用於分析或機器學習應用。但資料質量管理是一個耗時且複雜的過程,需要資料工程師花費數天時間收集資料的詳細統計數字,根據這些統計數字資訊手動識別資料質量規則,並將其應用於數千個資料集和資料管道。實施了這些規則之後,資料工程師必須持續監控資料中的錯誤或變化,相應地調整規則。

Amazon Glue Data Quality可以自動測量、監控和管理Amazon S3資料湖和Amazon Glue資料管道的資料質量,將資料分析和規則識別的時間從幾天縮短到幾小時。Amazon Glue Data Quality可以計算客戶資料集的統計數字(如最小值、最大值、直方圖和相關性),使用統計數字自動地推薦規則,確保資料的即時性、準確性和完整性。客戶可以安排Amazon Glue Data Quality在資料發生變化時定期執行,自動分析資料並提出質量規則的更改建議以確保相關性。一旦出現質量問題,資料工程師無需編寫程式碼即可配置使用者提醒或終止資料管道。

Amazon SageMaker對地理空間資料極致支援

亞馬遜雲科技對地理空間資料的支援讓客戶能夠更輕鬆地為氣候科學、城市規劃、災難響應、零售規劃、精準農業等行業開發機器學習模型。此舉意在幫助客戶將更多的資料用於機器學習。

當前,大部分收集到的資料都包含地理空間資訊(如位置座標、天氣圖和交通資料)。但是,已經用於機器學習的只有一小部分,原因是地理空間資料集很難處理,通常達到PB 級的規模,且跨越整個城市或數百公里土地。要開始構建地理空間模型,客戶通常會採購衛星影像或地圖資料等第三方資料來源以補充其專有資料。

由於地理空間資料規模龐大,專業人員需要合併這些資料,準備資料用於訓練,並編寫程式碼將資料集劃分為可管理的子集。當客戶準備部署訓練好的模型時,他們必須編寫更多程式碼以重新組合多個資料集,將資料和機器學習模型預測關聯起來。

為了從完成的模型中提取預測結果,專業人員需要花費數天時間使用開源的視覺化工具在地圖上做渲染。從資料改進到視覺化,整個過程可能需要幾個月的時間,這使得客戶很難利用地理空間資料及時產生機器學習預測。

Amazon SageMaker將客戶豐富資料集、訓練地理空間模型並將結果視覺化的時間從數月縮短到數小時,從而加速和簡化地理空間機器學習預測的生成。客戶只需幾次點選或使用 API就可以使用 Amazon SageMaker訪問各種地理空間資料來源。

例如亞馬遜雲科技的位置服務Amazon Location Service、開放資料集Amazon Open Data、客戶自有資料和來自Planet Labs等第三方供應商的資料。

當專業人員選擇了想要使用的資料集,他們可以利用內建的運算器將這些資料集與自己的專有資料合併起來。為了加快模型開發,Amazon SageMaker 提供了預訓練的深度學習模型,其支援的用例包括透過精準農業提高作物產量、監測自然災害後區域恢復以及改善城市規劃等。訓練完成後,內建的視覺化工具在地圖上顯示資料,揭示新的預測。

Amazon QuickSight Q 新功能讓客戶能夠預測並追問預測依據

 陳曉建認為Amazon QuickSight Q把人工智慧和業務洞察相結合,使得客戶不用再去掌握資料分析技術,而是透過人類自然語言來進行業務的洞察,從而大降低了使用門檻。

Amazon QuickSight Q使用機器學習讓任何使用者都能以自然語言提出有關業務資料的問題,並在幾秒鐘內獲得視覺化的準確答案。它讓沒有技術專業知識的業務人員都可以探索歷史趨勢和資料指標,讓使用者能夠從支撐其看板和報表的資料中獲得新的洞察。

亞馬遜雲科技新推出的Amazon QuickSight Q功能是可以針對預測結果追問預測依據。這樣就可以檢視特定結果受哪些歷史資料影響。Amazon QuickSight Q讓資料智慧實現以前可以問“是什麼”,現在不僅可以問“是什麼”,還可以問“為什麼”。

走過11個年頭的亞馬遜雲科技re:Invent已經圓滿落幕。re:Invent 2022帶了諸多新的產品和新功能。其核心仍然是資料和智慧的融合,降低客戶使用門檻。讓客戶能夠將更多精力放在業務本身。

Forrester 副總裁兼研究總監戴鯤評論道:“Forrester認為,在持續動盪的全球宏觀經濟環境下,廣大企業客戶亟需構建兼具韌性、自適應性和創造性的適應未來的技術戰略。亞馬遜雲科技在今年re:Invent大會上的產品與服務釋出不僅一如既往地貫徹自身以客戶為中心的長期主義,而且持續彰顯其作為全球公有云基礎設施與開發平臺市場領導者的前瞻性技術視野與快速產品創新能力。”