電力、晶片製造、資料和延遲成四大限制因素,Scaling Law能續到2030年嗎?

机器之心發表於2024-09-14
近年來,人工智慧模型的能力顯著提高。其中,計算資源的增長佔了人工智慧效能提升的很大一部分。規模化帶來的持續且可預測的提升促使人工智慧實驗室積極擴大訓練規模,訓練計算以每年約 4 倍的速度增長。

從這個角度來看,人工智慧訓練計算的增長速度甚至超過了近代史上一些最快的技術擴張。它超過了行動電話採用率(1980-1987 年,每年 2 倍)、太陽能裝機容量(2001-2010 年,每年 1.5 倍)和人類基因組測序(2008-2015 年,每年 3.3 倍)的峰值增長率。

在最近的一份報告中,Epoch AI 研究了當前人工智慧訓練規模的快速增長(約每年 4 倍)在 2030 年之前是否始終在技術上可行。

報告提到了可能制約擴充套件的四個關鍵因素:電源可用性、晶片製造能力、資料稀缺性和「延遲牆」(人工智慧訓練計算中不可避免的延遲所造成的基本速度限制)。
圖片
報告中的分析包括生產能力的擴張、投資和技術進步。除其他因素外,這包括審查先進晶片封裝設施的計劃增長、額外發電廠的建設以及資料中心利用多個電力網路的地理分佈。為了考慮這些變化,報告納入了各種公開來源的預測:半導體代工廠的擴張計劃、電力供應商的產能增長預測、其他相關行業資料以及自己的一些研究。

他們發現,到本個十年末,2e29 FLOP 的訓練執行或許是可行的。換句話說,到 2030 年,我們將很有可能訓練出規模超過 GPT-4 的模型,與 GPT-4 在規模上超過 GPT-2 的程度相同。如果繼續努力,到本個十年末,我們可能會看到人工智慧的巨大進步,就像 2019 年 GPT-2 的簡陋文字生成與 2023 年 GPT-4 的複雜問題解決能力之間的差異一樣。

當然,人工智慧開發者是否真的會追求這種水平的擴充套件,取決於他們是否願意在未來幾年投資數千億美元用於人工智慧的擴充套件。但這不是報告討論的重點。

在整個分析過程中,報告假定訓練執行可持續 2 到 9 個月,這反映了持續時間越來越長的趨勢。報告還假設,在為分散式訓練和晶片分配人工智慧資料中心電力時,公司只能獲得現有供應量的 10% 到 40% 左右。

制約擴充套件的四個關鍵因素

電力限制

人們已經討論過,到 2030 年資料中心園區達到 1 至 5 GW 的計劃,這將支援 1e28 至 3e29 FLOP 的訓練執行(作為參考,GPT-4 可能在 2e25 FLOP 左右)。地域分散式訓練可以利用多個地區的能源基礎設施,進一步擴大規模。根據目前美國資料中心擴張的預測,美國的分散式網路可能容納 2 到 45 GW,假設資料中心之間有足夠的頻寬,則可支援 2e28 到 2e30 FLOP 的訓練執行。除此之外,如果提前 3 到 5 年進行規劃,願意支付新發電站成本的參與者可以獲得更多電力。
圖片
資料中心電力容量的快速擴張潛力巨大,這一點已被多種資料來源和預測所證實。SemiAnalysis 提供的歷史資料顯示,2019 年至 2023 年期間,資料中心容量的年增長率約為 20%(如圖 2)。2024 年和 2025 年的擴建計劃旨在加快這一速度,如果按時完成,年增長率將達到 32%。

總體而言,10-30% 的年增長率似乎是可以實現的。根據 15% 的中心增長率估算,到 2030 年,美國資料中心的容量將從 40 GW 增長到 90 GW,即增加 50 GW。注意,此處使用的是對實際增長的預測範圍,並以此為基礎估算可行的增長,因此這一數字可以說是保守的。

報告中提到,由本地電力支援的 2030 年訓練執行可能需要 1 到 5 GW,到 2030 年可達到 1e28 到 3e29 FLOP。與此同時,分佈在各地的訓練執行可獲得 2 至 45 GW 的電力供應,並在資料中心對之間實現 4 至 20 Pbps 的連線,從而實現 2e28 至 2e30 FLOP 的訓練執行。上述估計背後的假設可以在下圖 3 中找到。
圖片
晶片製造能力

人工智慧晶片提供了訓練大型人工智慧模型所需的計算能力。目前,擴充套件受到先進封裝和高頻寬記憶體生產能力的限制。不過,考慮到製造商計劃的規模擴張以及硬體效率的提高,即使考慮到 GPU 將在多個 AI 實驗室之間分配,並且部分專用於服務模型,也可能有足夠的能力讓 1 億個 H100 等效 GPU 專用於訓練,為 9e29 FLOP 的訓練執行提供動力。然而,這一預測具有很大的不確定性,估計值從 2000 萬到 4 億個 H100 等效處理器不等,相當於 1e29 到 5e30 FLOP(比 GPT-4 大 5000 到 300000 倍)。

報告中假設了一種情況,即從現在到 2030 年,臺積電 5 奈米及以下的全部產能都用於 GPU 生產。在這種情況下,潛在計算量可能會增加一個數量級,達到 1e30 到 2e31 FLOP。這一上限基於當前的晶圓產量預測,說明了如果完全解決封裝、HBM 生產和晶圓分配方面的現有限制,對人工智慧訓練能力可能產生的最大影響。圖 4 展示了這些估計值,並列出了其背後的假設。
圖片
資料短缺

訓練大型人工智慧模型需要相應的大型資料集。索引網路包含約 500T 的獨特文字,預計到 2030 年將增加 50%。從影像、影片和音訊資料中進行多模態學習可能會適度促進擴充套件,使可用於訓練的資料增加三倍。在考慮了資料質量、可用性、多 epoch 和多模態 tokenizer 效率等不確定因素後,估計到 2030 年可用於訓練的 token 相當於 400 萬億到 20 億億個,允許 6e28 到 2e32 FLOP 的訓練執行。人工智慧模型生成的合成資料可能會大幅提高這一比例。

據估計,索引網路上的文字資料量為 20 億億個 token (Villalobos et al, 2024)。同時,網際網路上圖片和影片秒數的估計值為 40 萬億。如果也使用每張圖片或每秒影片 100 個 token 的高階估計值,這意味著有四億億個視覺 token,或六億億個文字和視覺 token。如果還假設到 2030 年這些資料量翻一番,80% 的資料因質量過濾而被刪除(FineWeb 丟棄了約 85% 的 token),模型在這些資料上訓練 10 個 epoch,那麼有效資料集的規模將達到約 20 億億個 token。有關這些引數的完整列表以及報告選擇這些值範圍的理由,如圖 5 所示。
圖片
延遲牆

延遲牆是一種 「速度限制」,源於向前和向後傳遞所需的最短時間。隨著模型規模的擴大,它們需要更多的順序操作來訓練。增加並行處理的訓練 token 數量(即「批大小」)可以攤銷這些延遲,但這種方法也有侷限性。超過「臨界批大小」後,批大小的進一步增加會導致訓練效率的回報遞減,訓練更大的模型需要連續處理更多的批。這就為特定時間範圍內的訓練 FLOP 設定了上限。報告估計,現代 GPU 設定上的累積延遲將使訓練執行的 FLOP 上限達到 3e30 到 1e32。要超越這一規模,需要採用其他網路拓撲結構、減少通訊延遲,或者採用比目前更積極的批規模擴充套件。

OpenAI 之前的研究將臨界批大小(在這個點之後,訓練的收益會大幅遞減)與梯度相對於訓練資料的分散程度聯絡了起來。在此基礎上,Erdil 和 Schneider-Joseph(即將發表)推測,批大小可能與可還原模型損失的倒數成比例,根據 Chinchilla 的說法,可還原模型損失的比例大致為模型引數數量的立方根。如果這種情況成立,它將把延遲牆推回一個數量級,參見下圖。
圖片
什麼限制因素影響最深?

上文講到了人工智慧擴充套件的四個主要瓶頸。如果將它們放在一起考慮,則意味著到本個十年末,訓練執行高達 2e29 FLOP 是可行的。這將代表著相對於當前模型的大約 10000 倍的擴充套件,並意味著擴充套件的歷史趨勢可以不間斷地持續到 2030 年(圖 7)。深色陰影框對應四分位數範圍,淺色陰影區域對應 80% 置信區間。
圖片
最具約束力的限制因素是電力和晶片的可用性。其中,電力的可塑性可能更大,能源行業的集中度較低,而且有擴大 100 GW 電力供應的先例,如果提前三到五年計劃,供應商應該能夠執行。

擴大晶片製造面臨多重挑戰:先進封裝等關鍵工藝大多已分配給資料中心的 GPU,而建設新的晶圓廠需要大量資本投資和高度專業化的勞動力。

資料是最不確定的瓶頸,其不確定性範圍跨越四個數量級。多模態資料對提高推理能力的作用可能有限,而且我們對此類資料的可用存量、質量以及當前 token 化方法效率的估計都不如對文字資料的估計那麼確定。最終,合成資料可以實現無限擴充套件,但計算成本較高。

最後,雖然延遲牆是一個遙遠的制約因素,但它作為一個需要克服的障礙,已經出現在地平線上。透過採用更復雜的網路拓撲結構,包括更大的 pod 或 pod 之間更多的連線,可能會將延遲牆推倒。

AI實驗室們會擴充套件到這個程度嗎?

迄今為止,人工智慧模型規模的不斷擴大一直帶來能力的提升。這為人工智慧的發展灌輸了一種以規模為中心的觀點,導致用於訓練執行的支出以每年約 2.5 倍的速度增長。早期跡象表明,這種情況可能會繼續下去。

值得注意的是,據報導,微軟和 OpenAI 正在為一個名為 Stargate(星際之門)的資料中心專案制定計劃,該專案耗資可能高達 1000 億美元,將於 2028 年啟動。這表明,大型科技公司確實正在準備實現本文所述的巨大規模。

將 GPT-4 升級到與 GPT-6 相當的模型,再加上演算法的大幅改進和後期訓練的改進,可以進一步證明人工智慧系統具有足夠大的經濟回報潛力。這些證據可能表現為:GPT-5 等較新的模型在釋出的第一年內就創造了超過 200 億美元的收入;人工智慧功能的顯著進步,使模型能夠無縫整合到現有的工作流程中,操作瀏覽器視窗或虛擬機器,並在後臺獨立執行。

人工智慧能夠自動完成相當一部分經濟任務,其潛在回報是巨大的。一個經濟體投資數萬億美元建立與計算相關的資本儲備,包括資料中心、半導體制造工廠和光刻機,是有可能實現的。要了解這一潛在投資的規模,需要考慮全球每年的勞動報酬約為 6000 萬美元。即使不考慮人工智慧自動化帶來的經濟加速增長,如果開發能夠有效替代人類勞動力的人工智慧變得可行,那麼投資數萬億美元來獲取這 6000 萬美元中的一小部分,在經濟上也是合理的。

據標準經濟模型預測,如果人工智慧自動化達到取代大部分或全部人類勞動力的程度,經濟增長可能會加快十倍或更多。在短短几十年內,這種加速增長可使經濟產出增加幾個數量級。考慮到這一潛力,提前實現完全或接近完全自動化的價值可能佔全球產出的很大一部分。認識到這一巨大價值,投資者可能會將傳統行業的大部分資金轉投人工智慧開發及其重要基礎設施(能源生產和分配、半導體制造工廠、資料中心)。這種前所未有的經濟增長潛力可能會推動數萬億美元的人工智慧開發投資 104。

更多報告觀點,可參考原文。

相關文章