透過Amazon SageMaker HyperPod的三項新功能,以及直接在Amazon SageMaker中整合亞馬遜雲科技合作伙伴的熱門AI應用產品,亞馬遜雲科技幫助客戶消除AI開發生命週期中無差別繁重工作,從而更快速、更輕鬆地構建、訓練和部署模型

北京——2024年12月16 亞馬遜雲科技在2024 re:Invent全球大會上,宣佈推出Amazon SageMaker AI四項創新,助力企業更快使用熱門的公開模型,最大化訓練效率、降低成本,並使用其首選工具加速生成式人工智慧(AI)模型的開發。Amazon SageMaker AI是一項端到端的服務,數十萬客戶使用它來構建、訓練和部署各種用例的AI模型,它提供完全託管的基礎設施、工具和工作流。

  • Amazon SageMaker HyperPod新增三項強大功能,幫助客戶更輕鬆地快速開始訓練時下流行的公開可用模型,透過靈活訓練計劃節省數週的模型訓練時間,並最大化計算資源利用率,將成本降低高達40%。
  • 現在,客戶可以直接在Amazon SageMaker中輕鬆安全地發現、部署和使用來自亞馬遜雲科技合作伙伴的完全託管的生成式AI和機器學習(ML)開發應用,例如CometDeepchecksFiddler AILakera,從而靈活選擇最適合的工具。
  • Articul8、澳大利亞聯邦銀行、富達、Hippocratic AI、Luma AI、NatWest、NinjaTech AI、OpenBabylon、Perplexity、Ping Identity、Salesforce和湯森路透等客戶正在使用Amazon SageMaker的新功能,加速生成式AI模型開發。

亞馬遜雲科技人工智慧和機器學習服務與基礎設施副總裁Baskar Sridharan博士表示:“亞馬遜雲科技在七年前推出Amazon SageMaker,以簡化構建、訓練和部署AI模型的過程,幫助各種規模的組織訪問和擴充套件其對AI和機器學習的使用。隨著生成式AI的興起,Amazon SageMaker不斷快速創新,自2023年以來已經推出了超過140項功能,幫助Intuit、Perplexity和Rocket Mortgage等企業更快地構建基礎模型。透過此次釋出,我們將為客戶提供更高效能、更具成本效益的模型開發基礎設施,幫助他們加速將生成式AI工作負載部署到生產環境中。”

Amazon SageMaker HyperPod:訓練生成式AI模型的首選基礎設施

隨著生成式AI的出現,構建、訓練和部署機器學習模型的過程變得更加困難,這需要深厚的AI專業知識、訪問大量資料以及建立和管理大型計算叢集。此外,客戶需要開發專門的程式碼來實現跨叢集分散式訓練,持續檢查和最佳化模型,並手動處理硬體故障,同時儘量控制時間進度和成本。亞馬遜雲科技為此推出Amazon SageMaker HyperPod,幫助客戶在數千個AI加速器上高效擴充套件生成式AI模型開發,將訓練基礎模型的時間縮短高達40%。無論是Writer、Luma AI、Perplexity等領先的初創公司,還是湯森路透、Salesforce等大型企業,都在利用Amazon SageMaker HyperPod加速模型開發。亞馬遜還使用Amazon SageMaker HyperPod訓練新的Amazon Nova模型,不僅降低了訓練成本,提高了訓練基礎設施的效能,還節省了數月手動設定和管理叢集的時間。

現在,越來越多的企業希望微調熱門的公開可用模型,或訓練自己的專用模型,以利用生成式AI改造業務和應用。Amazon SageMaker HyperPod將持續創新,幫助客戶更輕鬆、更快速、更具成本效益地大規模構建、訓練和部署這些模型,具體創新包括:

  • 新訓練配方幫助客戶更快上手:許多客戶希望基於Llama和Mistral等熱門的公開可用模型,使用內部資料為特定用例進行定製。然而,最佳化訓練效能可能需要數週的反覆測試,包括嘗試不同的演算法、調整引數、觀察訓練效果、除錯問題和設定效能基準。為了幫助客戶在幾分鐘內快速入門,Amazon SageMaker HyperPod現在提供30多個精選的模型訓練配方,可適用於時下熱門的一些公開可用模型,包括Llama 3.2 90B、Llama 3.1 405B和Mistral 8x22B。這些配方極大地簡化了客戶的入門過程,自動載入訓練資料集、應用分散式訓練技術,並配置系統以實現高效的檢查點管理和基礎設施故障恢復。不同技能水平的客戶能夠從一開始就在亞馬遜雲科技基礎架構上最佳化模型訓練的價效比,省去了數週的反覆評估和測試的時間。客戶可以透過Amazon SageMaker GitHub儲存庫瀏覽可用的訓練配方,根據定製需求調整引數,並在幾分鐘內完成部署。此外,客戶只需一行簡單編輯,即可在基於GPU或Trainium的例項之間無縫切換,進一步最佳化價效比。

Salesforce的研究人員一直在尋求一種快速啟動基礎模型訓練和微調的解決方案,希望能夠在不用過多關注基礎設施的情況下,避免為每個新模型耗費數週時間進行訓練堆疊最佳化。透過Amazon SageMaker HyperPod的定製模板,他們現在能夠快速開展基礎模型的原型設計。目前,Salesforce的AI研究團隊可以在短短几分鐘內啟動各種預訓練和微調流程,併成功實現基礎模型的高效運營。

  • 靈活訓練計劃可輕鬆滿足訓練時限和預算要求儘管基礎設施創新有助於降低成本並提高訓練效率,但客戶仍需規劃並管理所需計算資源,以確保在預算範圍內按時完成訓練任務。因此,亞馬遜雲科技為Amazon SageMaker HyperPod推出了靈活訓練計劃。客戶只需輕鬆點選幾下,就能指定預算、截止日期和所需的最大計算資源量。Amazon SageMaker HyperPod會自動預留容量、設定叢集並建立模型訓練作業,幫助團隊節省數週的訓練時間,減少客戶在獲取大型計算叢集以完成模型開發任務時的不確定性。如果提議的訓練計劃無法滿足指定的時間、預算或計算要求,Amazon SageMaker HyperPod會提供替代方案,如延長日期範圍、增加計算資源或選擇不同的亞馬遜雲科技區域進行訓練。一旦計劃獲批,Amazon SageMaker會自動配置基礎設施並啟動訓練作業。Amazon SageMaker使用 Amazon Elastic Compute Cloud (EC2)容量塊預留所需的加速計算例項,確保訓練任務按時完成。根據容量塊的可用時間,Amazon SageMaker HyperPod透過有效的暫停和恢復訓練作業,確保客戶始終擁有按時完成任務所需的計算資源,無需人工干預。

Hippocratic AI為醫療保健開發以安全為重點的大語言模型(LLM)。為了訓練多個模型,Hippocratic AI採用了Amazon SageMaker HyperPod靈活訓練計劃,獲得了按時完成訓練任務所需的加速計算資源。這幫助他們將模型訓練速度提高了4倍,並更有效地擴充套件其解決方案,以適應數百個用例。

  • 任務治理功能最大加速器利用率:越來越多的企業為模型訓練配置大量加速計算資源。這些計算資源昂貴且有限,因此客戶需要一種管理資源使用率的方法,以確保其計算資源優先用於最關鍵的模型開發任務,避免任何浪費或利用率不足。如果沒有對任務優先順序和資源分配的有效控制,一些專案最終會因資源不足而停滯,而同時其他專案卻資源利用率不足。這給管理員帶來了巨大負擔,他們必須不斷重新規劃資源分配,而資料科學家則難以取得進展。這不僅阻礙了企業將AI創新快速推向市場,還可能導致成本超支。透過Amazon SageMaker HyperPod任務治理功能,客戶可以在模型訓練、微調和推理過程中最大化加速器的利用率,將模型開發成本降低最多 40%。只需點選幾下,客戶就可以輕鬆為不同任務定義優先順序,併為每個團隊或專案可以使用的計算資源設定限制。一旦客戶在不同團隊和專案之間設定了限制,Amazon SageMaker HyperPod將分配相關資源,自動管理任務佇列以確保最關鍵的工作優先進行。例如,如果客戶緊急需要更多計算資源來支援面向客戶的推理任務,但所有計算資源都已被佔用,Amazon SageMaker HyperPod會自動釋放未充分利用的資源或非緊急任務的資源,以確保緊急推理任務獲得所需資源。在這種情況下,Amazon SageMaker HyperPod會自動暫停非緊急任務,儲存檢查點以保證已完成的工作完好無損,並在更多資源可用時從最後儲存的檢查點恢復任務,確保客戶最大化計算資源的利用。

Articul8 AI是一家快速成長的初創企業,致力於幫助企業構建自己的生成式AI應用產品,因此需要不斷最佳化計算環境,以儘可能高效地分配資源。透過使用Amazon SageMaker HyperPod中的新任務治理功能,該公司的GPU利用率有了顯著提高,減少了空閒時間,並加速了端到端模型開發。自動將資源轉移到高優先順序任務的能力提高了團隊的生產力,使他們能夠更快地推出生成式AI創新成果。

Amazon SageMaker中使用亞馬遜雲科技合作伙伴的熱門AI應用產品,加速模型開發和部署

許多客戶在使用Amazon SageMaker AI的同時,也在使用業界一流的生成式AI和機器學習模型開發工具來執行專業任務,如跟蹤和管理實驗、評估模型質量、監控效能和保護AI應用產品。然而,將熱門的AI應用產品整合到團隊的工作流程中是一個耗時的多步驟過程。這包括尋找合適的解決方案、執行安全和合規性評估、監控跨多個工具的資料訪問、配置和管理必要的基礎設施、構建資料整合以及驗證是否符合治理要求。現在,亞馬遜雲科技幫助客戶更輕鬆地將專業AI應用產品的強大功能與Amazon SageMaker AI的託管能力和安全性結合起來。這項新功能讓客戶能夠直接在Amazon SageMaker中輕鬆發現、部署和使用來自領先合作伙伴(如Comet、Deepchecks、Fiddler和Lakera Guard)的最佳生成式AI和機器學習開發應用,從而消除其中的阻礙繁重的工作。

Amazon SageMaker是首個為一系列生成式AI和機器學習開發任務提供精選的、完全託管且安全的合作伙伴應用集的服務。這為客戶構建、訓練和部署模型提供了更大的靈活性和控制權,同時將AI應用產品的上線時間從數月縮短到數週。每個合作伙伴應用都由Amazon SageMaker AI完全託管,因此客戶不必擔心設定應用或持續監控以確保有足夠的容量。透過Amazon SageMaker可直接訪問這些應用,客戶無需將資料從安全的亞馬遜雲科技環境中移出,同時可以減少在不同介面之間切換的時間。客戶只需瀏覽Amazon SageMaker合作伙伴AI應用產品目錄,瞭解他們想要使用的應用的功能、使用者體驗和定價。然後,他們可以輕鬆選擇和部署應用,並使用Amazon Identity and Access Management(Amazon IAM)管理整個團隊的訪問許可權。

Amazon SageMaker在Ping Identity自研的AI和機器學習基礎設施的開發和運營中也發揮著關鍵作用。藉助Amazon SageMaker中的合作伙伴AI應用產品,Ping Identity將能夠透過私有、完全託管的服務,為其客戶提供更快速、更高效的機器學習驅動的功能,同時滿足嚴格的安全和隱私要求,並減少運營開銷。

Amazon SageMaker全部創新技術現已全面可用。