昨晚的「雲端計算春晚」,大模型、晶片連發,比OpenAI、谷歌上新都猛

机器之心發表於2024-12-04

亞馬遜雲科技上演了一場生成式 AI 能力的「王者歸來」。

今天凌晨,有「雲端計算春晚」之稱的 re:Invent 大會在美國拉斯維加斯開幕。亞馬遜雲科技一下子搬出了全新大模型 Nova 系列,效能比肩英偉達旗艦的 AI 訓練晶片,與之對應的算力服務,並對 Amazon Bedrock 進行了一番從頭到腳的升級。
圖片
登臺演講之前,亞馬遜雲科技新任 CEO Matt Garman 提出了一個發人深省的觀點:人工智慧是一場沒有終點的競賽,它將永遠持續下去。

這場競賽其實還處在開始階段,經歷了「All in 大模型」的瘋狂之後,大家確實在思考:面對這場持久戰,接下來要重點關注「細水長流」了。

對於各行各業的使用者來說,可持續發展問題首先是成本問題。如果說去年的我們還在摸索如何適應新的生成式 AI 技術,那麼到了 2024 年的末尾,更重要的是:如何持續降低生成式 AI 的應用成本,換言之,提升生成式 AI 技術應用的價效比。

在今天凌晨的 Keynote 中,Matt Garman 分享了亞馬遜雲科技在人工智慧和計算等領域的「新技術、新產品、新服務」,生成式 AI 技術棧再次煥新。

我們看到了相當前沿的一波技術能力,源源不斷地震撼釋出。與此同時,技術落地成本降低到了難以置信的程度。

這一切升級,的確稱得上「真正革命性的變化」。風雲變幻的生成式 AI 時代,亞馬遜雲科技又一次「Hold 住全場」。

成本直降 75%
全模態 Amazon Nova 將「價效比」做到極致

去年 4 月,亞馬遜雲科技剛剛加入生成式 AI 大模型之戰,釋出的 Amazon Titan 系列模型當時僅支援文字內容生成和建立高效搜尋。一年多過去,亞馬遜雲科技已經在基礎模型層完成了全面的佈局,向覆蓋文字、影像、影片和語音的全模態體系發起衝擊,在與 OpenAI、谷歌、Anthropic 等主流大模型廠商的競爭中,絲毫不落下風。

本次 re:Invent 大會上,全新自研生成式 AI 多模態 Amazon Nova 系列模型正式亮相,不僅在多種任務中達到了 SOTA 智慧水平,更在價效比層面實現了業界領先。
圖片
亞馬遜總裁兼 CEO 安迪・賈西(Andy Jassy)。

此次釋出的 Amazon Nova 系列模型共四個版本:純文字模型 Amazon Nova Micro,支援 128k 上下文,能夠以極低成本實現最低延遲響應;成本極低的多模態模型 Amazon Nova Lite,支援 300k 上下文或 30 分鐘影片輸入,可以快速處理影像、影片和文字;功能強大的多模態模型 Amazon Nova Pro,同樣支援 300k 上下文或 30 分鐘影片輸入,兼顧準確性、速度和成本,適用於各種任務;功能最強的多模態模型 Amazon Nova Premier,可用於複雜推理任務,並用作自定義蒸餾模型的最佳教師模型。

模型好不好,先跑個分。從打榜結果來看,Amazon Nova 系列模型經受住了各種行業基準測試,直接挑戰了 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet V2 這樣的頂級選手。

圖片

Amazon Nova Pro 與 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet V2 的比較。

一方面,純文字 Amazon Nova Micro 在與 LLaMa 3.1 8B、Gemini 1.5 Flash-8B 的較量中取得了相當或者更優的表現。Micro 210 tokens/s 的輸出速度實現了業界領先,對於需要快速響應的應用程式而言,Micro 是最佳選擇。

另一方面,多模態 Amazon Nova Lite 和 Amazon Nova Pro 與 OpenAI、谷歌和 Anthropic 等主流廠商相比,在絕大多數基準上表現相當甚至更好。尤其在處理輕量級任務時,Lite 是當前成本最低的多模態模型

目前,Amazon Nova Micro、Lite、Pro 三款模型均已推出,並整合到了 Amazon Bedrock 中,支援自定義微調和蒸餾。Amazon Nova Premier 則將於 2025 年第一季度問世。

在效能全方位加強之外,Amazon Nova 系列模型中 Micro、Lite 和 Pro 的價格至少比 Amazon Bedrock 中各個智慧類別中的最強模型要便宜 75%。對於有大模型服務呼叫需求、預算不高但又不想在模型效果上打折扣的客戶來說,Nova 系列無疑是一個價效比極高的選擇。
另外,在影像和影片生成模型百花競豔的當下,亞馬遜雲科技也秀了一把內容創作實力。獨立的影像生成模型 Amazon Nova Canvas影片生成模型 Amazon Nova Reel 悉數登場:Canvas 支援影像生成和編輯,提供豐富的配色方案和佈局控制元件;Reel 可根據關鍵提示詞和參考影像生成 6 秒影片,支援使用者調整攝像頭運動以進行平移、360 旋轉和縮放,未來還會支援 2 分鐘影片生成
圖片
提示詞:一隻狗在很開心地兜風。狗的嘴巴張開時要注意舌頭的位置。

最後,安迪・賈西還預告了另外兩款 Amazon Nova 模型,分別是 Amazon Nova Speech-to-Speech 和 Amazon Nova Any-to-Any。前者要實現自然、類人的口頭互動,後者旨在用同一個模型解決多種任務,包括多模態轉換、內容編輯以及 AI 智慧體操作。這兩款模型預計將先後於 2025 年第一季度和中期與大家見面。
圖片
從文字到影片的 Amazon Nova 模型一次性全部上線,下一步計劃也直接對標最新方向。亞馬遜雲科技自研大模型的進化速度,著實讓全場觀眾都震撼了一下。

自動蒸餾,多智慧體協作,還能搞定 LLM 幻覺
Amazon Bedrock 又變強了

自生成式 AI 爆發兩年多以來,亞馬遜雲科技的人工智慧戰略一直沒有改變,那就是希望作為一箇中立且有能力的平臺,為企業、開發者們提供靈活的、領先的 AI 模型選擇

除了聚合一批頂尖模型,在工具層,亞馬遜雲科技也一直在確保使用者能夠擁有最先進的技術。

這次大會,亞馬遜雲科技基礎模型託管服務 Amazon Bedrock 的更新直指企業使用者當下急需的技術能力。

首先是幫助對大模型進行蒸餾的 Amazon Bedrock Model Distillation,它透過從大型基礎模型(被稱為教師模型)生成響應,並用生成結果來微調較小的基礎模型(被稱為學生模型),可以自動為特定用例建立最佳化版模型。
圖片
有了這項功能,使用者可以快速構建實用化的生成式 AI 模型,並提高小模型的準確性,透過知識轉移過程獲得大體量模型的大部分能力,或是針對特定用例提煉專有模型。據亞馬遜雲科技介紹,經過最佳化的模型比原始大型模型快五倍,計算成本低 75%,對於檢索增強生成 (RAG) 等用例,準確度損失不到 2%。

另外一項新推出的服務 Automated Reasoning checks,賦予使用者透過自動推理減少大模型幻覺、檢查提高對話式 AI 準確性。這意味著,可以透過交叉引用提供的資訊來驗證大模型響應是否準確,自動推理檢查是消除幻覺的「第一個」也是「唯一」的保障。
圖片
具體來說,當大模型生成響應時,自動推理檢查會對其進行驗證,使用「邏輯準確」和「可驗證的推理」得出結論。如果可能出現幻覺,則系統根據基本事實得出正確答案。該答案與可能的錯誤資訊一起呈現,人們可以直觀地看到模型偏離了多遠。

基礎模型之上,大模型領域的競爭已經升級到「智慧體」(Agent)階段,Anthropic、微軟等公司紛紛推出了桌面級的智慧體應用,它們大大擴充套件了大模型執行任務的範圍,比如網購、發郵件、訂票,就像是打通了大模型落地的最後一關。

亞馬遜雲科技同樣加重了對 Agent 的投入。現在,Amazon Bedrock 已經上新了實現大模型多智慧體協作的工具。
圖片
構建有效多智慧體協作系統的關鍵在於管理大規模協調多個專業智慧體的複雜性和開銷。Amazon Bedrock 簡化了其過程,幫助人們將複雜任務分解為多個子任務,利用專業 AI 能力進行解決,提高了多智慧體協作框架在解決複雜的現實問題方面的協調能力、通訊速度和整體有效性。

至此,我們能夠很清晰地看出:Amazon Bedrock 的進化對應了使用者在應用生成式 AI 過程中所面臨的幾大挑戰 —— 大模型推理的算力需求、大模型的準確性,以及多智慧體操作。

當技術飛速進化時,使用者需求的變化速度往往超出需求。不過這些艱難的關卡,已經被 Amazon Bedrock 逐個擊破了。

新一代 AI 晶片 Trainium 面世
算力革命正在路上

如果你需要執行科學計算或大型 AI 模型,那就需要大範圍、低延遲的網路來連線所有 GPU 節點,亞馬遜雲科技可以提供迄今為止業內最快、最易擴充套件的算力。

十年來,AI 行業已經形成了一個共識:模型之所以能夠實現引數量規模和計算複雜度的持續增長,得益於強大算力的支撐。

此前,我們可以從兩個較為簡單的維度來理解這個結論:要麼向上擴充套件,使用更大的計算機;要麼向外擴充套件,使用更多的計算機。

但在生成式 AI 時代,由於涉及數十億甚至上千億的引數,設計、訓練和部署模型都需要消耗大量的計算資源。比如,每次訓練都需要對海量資料進行復雜的矩陣運算和梯度計算,對算力基礎設施的要求已不可同日而語。

對於想要應用生成式 AI 的企業來說,想要保持對 OpenAI、谷歌等頂尖公司的追趕,這意味著要購買越來越多的高階晶片和雲服務,支出的計算成本因此顯著上漲。Gartner 分析稱,到 2025 年,隨著 AI 技術基礎設施的不斷升級,各個雲支出領域的增長率都將達到兩位數。

現在,核心問題已經變成了:如何在算力資源供應短缺的大環境下擴大算力來源,以及如何在大模型產生高昂計算成本壓力下極致高效地利用算力。

對於眾多企業使用者來說,亞馬遜雲科技的自研 AI 晶片提供了一個速度更快、能耗更低的優質選項。

Trainium 是亞馬遜雲科技自研的 AI 晶片,2020 年首次推出,曾一度被認為是訓練 AI 模型最具效率的晶片。

在這次的 re:Invent 大會上,亞馬遜雲科技宣佈 Trainium2 晶片全面正式可用,幫助行業訓練和部署大型語言模型。Trainium2 在一年前首次釋出,速度是其上一代產品的四倍。
圖片
單個 Trainium2 驅動的 EC2 例項配有 16 個 Trainium2 晶片,可提供高達 20.8 PetaFLOPS 的計算效能。在測試中,與其他雲服務商的類似產品相比,使用 Amazon Bedrock Trn2 EC2 例項的 Llama 3.1 405B 模型 token 生成吞吐量提高了三倍以上。

另一個非常值得關注的訊息是:亞馬遜雲科技和 Anthropic 正在合作構建一個名為 Project Rainier 的 Trn2 UltraServer 叢集。

生成式 AI 爆發後,Anthropic 就大量使用了亞馬遜雲科技的算力設施。在大模型賽道上,Anthropic 始終是對 OpenAI 追趕得最緊的一位玩家。今年 11 月底,亞馬遜宣佈向 Anthropic 追加 40 億美元投資,這筆交易後,對 Anthropic 的投資總額達到 80 億美元。基於深厚的合作關係,Anthropic 後續將用亞馬遜雲科技的 Trainium AI 晶片來訓練和執行其 AI 模型。

Project Rainier 這個叢集會包含數十萬個 Trainium2 晶片,為 Anthropic 提供了足夠的可擴充套件分散式計算能力訓練下一代大模型。與 Anthropic 用於訓練其當前一代模型的叢集相比,新叢集的計算能力達到其 5 倍,並將成為迄今為止全球最大的 AI 計算叢集。

對於規模更大的萬億級引數 LLM,亞馬遜釋出了第二層 Trianium2 例項 Trn2 UltraServer,同時提供 64 個 Trainium2 晶片用於 AI 模型訓練或推理。它將允許使用者超越單個 Trn2 伺服器的限制,可以提供高達 83.2 PetaFLOPS 峰值計算能力。

與此同時,亞馬遜雲科技的下一代自研 AI 晶片也在路上了:Trainium3 是這家科技公司第一款採用 3nm 工藝製造的晶片,將提供兩倍於 Trainium2 的效能,能耗降低為 40%。它的效能將比肩英偉達的新一代 AI 晶片。
圖片
首批基於 Trainium3 的例項預計將於 2025 年上市。亞馬遜雲科技表示,搭載 Trainium3 的 UltraServer 預計效能會比搭載 Trainium2 晶片的 UltraServer 高出四倍。

在生成式 AI 技術突飛猛進的情況下,不斷進化的亞馬遜雲科技為使用者提供了一個安心的「算力」選項。當人們熱議「追逐 Scaling Law 還有沒有意義」的時候,至少不斷進化的 Trainium 系列和亞馬遜雲科技長期以來構建的一整套 AI 基礎設施,能讓千行百業的使用者在這場浪潮中找到「船槳」。

生成式 AI 走向應用的「底層邏輯

此外,亞馬遜雲科技還在新版本的 Amazon SageMaker 上簡化了資料和 AI 資產管理的功能,併為 Amazon Aurora 雲資料庫大幅提升了吞吐速度。

從新一代大模型,到開發工具、管理平臺、晶片,再到資料處理模組。從今天的釋出會上我們可以看出,亞馬遜雲科技一直在強調大模型全鏈路技術在新一代應用中將要起到的關鍵作用。

與讓大模型學會新技能的「訓練」相對應的是,推理是 AI 模型生成預測或輸出的過程,代表著模型的應用。從行業角度看:隨著 AI 技術的成熟,生成式 AI 的一次次推理最終會推動很多行業發生變革。而從技術的角度看:在開發者呼叫 AI 能力時,其背後從硬體到演算法、應用,計算的全流程,僅僅最佳化兩個字,卻包含著無數的技術實踐的努力。

在生成式 AI 技術落地的過程中,不斷整合先進的 AI 能力,並將基礎設施無縫整合,保證易於使用,是亞馬遜雲科技的目標。

亞馬遜雲科技正在全流程降低生成式 AI 構建的門檻。從某種層面上來說,如果 OpenAI 是在為大模型通向 AGI 探索方向,亞馬遜雲科技就是在為生成式 AI 技術應用落地鋪路。

這其中的一系列工作,重要性不言而喻,而且和競爭者相比,亞馬遜雲科技已經全方位拉開了代差。

相關文章