Scaling Law撞牆?預訓練終結?亞馬遜雲科技為什麼還在做基礎大模型

机器之心發表於2024-12-18

12 月 2-6 日,亞馬遜雲科技在美國拉斯維加斯舉辦了今年度的 re:Invent 大會。會上,亞馬遜雲科技釋出了相當多東西,其中之一便是新的大模型系列 Nova。說實話,這確實出乎了相當多人的意料 —— 畢竟亞馬遜已經重金押注 Anthropic,似乎沒有必要再自起爐灶了。

圖片
亞馬遜總裁兼 CEO 安迪・賈西(Andy Jassy)宣佈 Nova 系列模型,包括 Micro、Lite、Pro 和 Premier 四個版本,其中後三者是多模態模型。

雖然事實上 Nova 並非亞馬遜釋出的第一款基礎大模型 —— 這家科技巨頭在 2023 年的 re:Invent 大會上就曾釋出過 Titan 系列 AI 模型,但考慮到前段時間關於「Scaling Law 是否撞牆」的問題甚囂塵上,很多人都認為繼續耗費資源和時間來訓練基礎大模型並不划算,還不如基於已有的模型進行微調、再訓練或推理時間最佳化。

那亞馬遜雲科技訓練 Nova 就算是無用功了嗎?並非如此。實際上,從 re:Invent 大會後一些研討會上的討論情況看,亞馬遜雲科技在基礎模型上的投入並未受到「Scaling Law 撞牆論」的影響,依然認為基礎大模型大有可為;同時,訓練基礎大模型對亞馬遜雲科技自身以及 AI 領域的創業者來說都具有巨大的潛在價值。這篇文章將告訴你為什麼亞馬遜雲科技不可能放棄基礎大模型,還會繼續一路走下去。

Scaling Law 就算撞牆也無妨
基礎大模型依然大有可為

Scaling Law 是否已經或將要撞牆?對這個問題的爭論已經遍佈整個學術界和產業界。毫不誇張地講,這個問題的答案直接決定著 AI 領域的資源和資金流向。但到目前為止,即便這個問題已經引發許多業內大佬的爭論,我們依然沒能看到一個確切答案的苗頭。
圖片
OpenAI CEO Sam Altman 堅信「沒有牆」,而著名研究者 Ilya Sutskever 卻多次表示「我們所知的預訓練將會終結」,圖片分別來自 X 和 NeurIPS 2024 演講

雖然關於「Scaling Law 是否撞牆」的爭論紛紛擾擾,但剛剛釋出 Nova 系列模型的亞馬遜雲科技顯然並不受影響;不僅如此,他們還對基礎大模型的前景非常樂觀。亞馬遜雲科技大中華區產品部總經理陳曉建就表達了這樣的觀點,他說:「到今天為止,基礎大模型還遠遠沒有到非常成熟、已經不需要新的提供商入局的階段,它其實還是在一個非常早期的階段。」

事實上,恐怕不止亞馬遜一家公司這麼想,畢竟它並不是唯一仍在積極佈局基礎大模型的科技巨頭。比如蘋果就一直在研發規模不大的基礎大模型,前些天還剛剛釋出了一款多模態模型 STIV;重金支援 OpenAI 的微軟也沒有放棄自家的大模型,更遑論谷歌和 Meta 了。在國內,位元組跳動、阿里巴巴和騰訊等巨頭也都有自己的基礎大模型專案。陳曉建也說明了這一點:「在亞馬遜雲科技內部,我們有高度共識認為要做大模型。」

究其根本,目前關於 Scaling Law 是否撞牆的問題其實主要集中在資料上。前段時間有一項研究認為,如果 LLM 保持現在的發展勢頭,預計在 2028 年左右,已有的資料儲量將被全部利用完;前些天 Ilya Sutskever 也表示資料就像是 AI 的化石燃料,遲早會消耗光:「我們已經達到了資料的峰值,未來不會再有更多資料。我們必須利用現有的資料,因為網際網路只有一個。」
圖片
來自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》

但實際上,公共網際網路資料並不能完全代表所有資料。人類世界還有很多資料並未數字化或沒有公開,包括大量古老的紙質文獻、大量涉及機密或隱私的資料、許多物聯網和感測器資料以及封閉的行業資料等。

此外,人類每一天都還在繼續產生大量新資料 —— 雖然其中絕大部分都是低質量或重複的資料,但也不能否認,當任何一種新技術得到廣泛應用,又會創生出大量新形勢的高質量資料,而我們又正處於一個新技術迸發的時代,量子計算、生物技術、虛擬和混合現實、物聯網…… 它們都有可能成為下一代 AI 的重要資料來源。

因此,就算基於公共網際網路的資料 Scaling 撞牆了,基礎大模型的發展也不會停滯,私有資料和新型資料有望繼續創造新的可能性。

陳曉建也指出了這一點:「資料的價值是毫無疑問的。我們一直在強調,在這個大模型時代,合適的模型和平臺只是其中一個部分,遠遠不是做大模型的全部。你的整個資料資產,你的資料基座才是你真正實現業務差異化的能力。」

此外,已有資料是否已被充分利用也是一個有待商榷的問題,畢竟我們不能保證現在的 token 化方案就是完美的,能夠在不丟失任何資訊的情況下完成對文字、影片、時間和空間等資訊的編碼。隨著模型規模的擴大以及編碼技術的進一步演進,基礎大模型或許能從已有資料中發掘出新的養分,實現進一步的 Scaling。

當然,另一個重要的探索方向也不容忽視,即利用 AI 合成高質量資料來訓練下一代 AI。
圖片
亞馬遜雲科技開源的一個使用 Amazon Bedrock 生成合成資料集的專案架構,專案地址:https://github.com/aws-samples/amazon-bedrock-synthetic-manufacturing-data-generator

總之,Scaling Law 撞牆論顯然無法動搖亞馬遜等科技巨頭繼續投入基礎大模型的決心。事實情況可能剛好相反,它們不僅看到了基礎模型目前的應用價值,還看到了未來透過技術進步和資料探勘實現更大突破的機會。

在 re:Invent 大會上,亞馬遜雲科技釋出了多款與資料相關的產品,包括可以連線多個外部資料來源的 Kendra Index、讓使用者可以使用自己的私有資料的結構化資料檢索能力、用於知識圖譜的 GraphRAG 技術、用於非結構化資料的資料增強功能以及升級版的 SageMaker(將資料、分析和 AI 整合到一起的服務)。陳曉建表示:「所有這些工具都是為了幫助大家更好地把自己的私有資料 —— 無論是結構化還是非結構化資料 —— 透過 Bedrock 平臺更方便地跟大模型能力整合起來。」
圖片
下一代 Amazon SageMaker 概況,來自亞馬遜雲科技 re:Invent 2024

在「Scaling Law 是否撞牆」的爭論中,亞馬遜雲科技一方面沒有放棄基礎大模型,另一方面也在積極探索其它有潛力的技術方向。比如,去年 11 月,亞馬遜雲科技就宣佈為 Bedrock 的智慧體(Agents)配備上了思維鏈(CoT)推理能力;此外,在今年的 re:Invent 大會上,亞馬遜雲科技還推出了一個名叫 Automated Reasoning checks 的服務,可透過自動推理減少大模型幻覺、檢查提高對話式 AI 準確性。

利己也利創業者
為市場提供另一個選擇

毫無疑問,亞馬遜雲科技之所以投入大量資源來訓練基礎大模型,首先這肯定是對其自身有利的。

我們知道,創業公司或小公司往往缺乏像 OpenAI 或谷歌那樣的資源,很難自己訓練出滿足自身業務的大模型,因此,面向企業(To B)的大模型有一個存在強烈需求的市場。目前,幾乎所有的雲服務商和大模型服務提供商都在努力爭奪這一快速增長的市場的份額。亞馬遜雲科技,坐在雲服務商的頭把交椅上,自然不可能錯過這塊潛力無限的大蛋糕。
圖片
亞馬遜雲科技繼續維持在雲市場的領先地位,來自 Statista

從使用者,尤其是創業者的角度來看,不論是計劃自己訓練模型的團隊,還是希望基於現成模型部署應用的開發者,亞馬遜雲科技的基礎模型都提供了一個有力的替代選項。亞馬遜雲科技中國區技術合作夥伴總監李奔也在研討會上提到了這一點,他表示:「我們面對的客戶有兩種屬性:一種是 Buyer 屬性,一種是 Builder 屬性。Builder 公司可能更喜歡用工具鏈自己去構建。但還有很多客戶群是 Buyer 屬性的,他們不大會去自己 build,他們更願意直接購買好的應用產品來提升能力。」

作為使用者,替代選項帶來的好處顯而易見,尤其是我們中國網際網路使用者,對此的感受可能尤為深刻。而亞馬遜雲科技的 Nova 系列可為創業者和小公司提供一個並不比其它競爭者差的替代選項,並且不同規模的版本還能滿足不同層次的需求,降低了進入壁壘。比如 Nova Pro 和 Nova Lite 雖然效能不及 Nova Premier,但同樣可以處理文字、影像和影片等多種模態的資料。對於預算有限的創業公司來說,這些低成本且效能優越的模型提供了一種能夠快速部署並支援創新的解決方案。
圖片
使用 Nova Pro 執行文件分析示例,來自亞馬遜雲科技部落格

與此同時,替代選項還能保證創業公司的業務安全。這不,前些天 ChatGPT 當機事件還歷歷在目,全世界的使用者都深深受到影響。Vozo AI 創始人周昌印在研討會上也表達了類似的看法:「我覺得對於大模型,我們希望有 Multiple LLM,這對我們的業務來說是比較安全的。」

並且,多樣化的選擇也能有效激發創新。當多個提供商競爭同一市場時,為了吸引客戶,他們必然會不斷提升服務質量、最佳化成本結構。這不僅讓創業者能夠更輕鬆地基於基礎模型構建應用,還能將更多精力投入到差異化創新中,進一步推動 AI 技術和應用的繁榮發展。

李奔分享了他在跨境電商領域觀察到的狀況:「這個行業是一個充分競爭的市場,競爭特別激烈,而深圳人使用新工具的速度也非常快。我去年年初到深圳去的時候,發現 GPT 才剛出來,很多跨境電商企業就在用了,使用場景從營銷側一直延伸到售後,包括使用 AI 工具來生成廣告和營銷素材、執行使用者反饋分析、增強中間的各種資料分析等等。亞馬遜雲科技跟電商客戶在這個應用場景裡的探索也特別多。」

在基礎模型賽道上,亞馬遜雲科技透過 Nova 系列為企業使用者帶來了新的可能性,也在一定程度上推動了市場的良性迴圈與健康競爭。

此外,從亞馬遜自身的角度,我們還可以總結出以下幾點原因:

  1. 強化自身的雲服務生態:透過提供基礎模型及相關服務,亞馬遜雲科技可以吸引更多企業上雲,並藉此深度繫結客戶,強化其雲端計算市場的領先地位。
  2. 資料和技術的長遠佈局:自主訓練基礎模型能幫助亞馬遜雲科技積累寶貴的技術和資料經驗,形成核心競爭力,併為未來潛在的顛覆性 AI 應用奠定基礎。
  3. 參與行業標準的定義:透過持續釋出基礎模型,亞馬遜雲科技可以在 AI 領域成為標準制定者,塑造行業對模型能力和 API 服務的認知,甚至影響開源模型的發展方向。
  4. 增強亞馬遜內部服務和產品:基礎模型可以直接應用於亞馬遜電商平臺、語音助手 Alexa 及物流系統,提升搜尋、推薦和自動化能力,從而實現全方位最佳化。
  5. 應對競爭壓力:在面對谷歌、Meta 和微軟等巨頭和眾多初創企業的競爭時,亞馬遜需要保持技術領先。這種戰略不僅是防守,更是進攻。

基礎大模型體現了亞馬遜堅持的長期主義

長期主義」,是亞馬遜創始人及現任董事長傑夫・貝佐斯所著文集的中文版書名,也是亞馬遜一直以來都堅持的企業文化。
圖片
業內人士普遍認為,構建基礎大模型需要大量的資金、時間和技術資源,而亞馬遜的堅持與投入展現了它作為科技巨頭的責任感與前瞻性。Nova 系列模型的推出表明,亞馬遜不僅希望透過自身的技術創新引領 AI 的發展,還致力於降低開發者和企業進入 AI 領域的門檻,為創業公司提供靈活的替代方案。這種多樣化選擇帶來的生態效應,可被視為其「長期主義」文化的具體體現。

而在堅持基礎大模型的道路上,亞馬遜雲科技不僅能穩固和提升自身的市場佔有率,還能幫助更多企業進入 AI 應用生態,從而提升整個市場的活力與創造力。這是亞馬遜雲科技不可忽視的重要貢獻。

相關文章