從 GPT-4 到 AGI:計算OOM

banq發表於2024-06-12


本文討論了人工智慧的快速發展以及在不久的將來取得重大進展的潛力。以下是要點:

過去的AI進展:

  • 有效加速主義 計算”的增加已經導致模型效能在幾年內和許多數量級(OOM)的一致增長。
  • GPT-2類似於學齡前兒童的智力水平,GPT-3相當於小學生的水平,GPT-4相當於聰明的高中生

計算 OOM
深度學習的神奇之處在於它就是有效——儘管時不時會有反對者,但趨勢卻出奇地一致。 

  • 隨著每次有效計算的 OOM,模型可以預測且可靠地變得更好。
  • 如果我們可以計算 OOM,我們就可以(粗略地、定性地)推斷出能力的改進。

一些有先見之明的人就是這樣預見到 GPT-4 的到來的。 

我們可以將 GPT-2 到 GPT-4 四年來的進展分解為三類擴充套件:

  1. 計算:我們使用更大的計算機來訓練這些模型。
  2. 演算法效率:演算法不斷進步,其中許多演算法充當“計算乘數”,我們可以將它們放在有效計算增長的統一尺度上。
  3. “解除束縛”的好處:預設情況下,模型會學習很多令人驚歎的原始能力,但它們會以各種愚蠢的方式受到束縛,從而限制其實際價值。透過簡單的演算法改進,例如從人類反饋中進行強化學習 (RLHF)、思路鏈 (CoT)、工具和腳手架,我們可以釋放出巨大的潛在能力。

我們可以沿著這些軸“計算 OOM”的改進:即以有效計算為單位跟蹤每個的擴充套件。

  • 3 倍是 0.5 OOM;10 倍是 1 OOM;30 倍是 1.5 OOM;100 倍是 2 OOM;等等。

我們還可以看看從 2023 年到 2027 年,我們應該對 GPT-4 有什麼期待。

結果很明顯:我們正在快速穿越 OOM。資料牆中存在潛在的阻力,到 2027 年,我們似乎應該可以期待在 GPT-4 的基礎上再出現一次 GPT-2 到 GPT-4 規模的飛躍。

算力
我將從最近進展中討論最多的驅動因素開始:向模型投入(大量)更多的計算。 

許多人認為這僅僅是摩爾定律的功勞。但即使在摩爾定律鼎盛時期,其發展速度也相對緩慢——大概每十年 1-1.5 個 OOM。我們看到計算能力的擴張速度要快得多——接近摩爾定律的 5 倍——而這要歸功於鉅額投資。

我們可以使用 Epoch AI(因其出色的 AI 趨勢分析而廣受尊重的來源)的公開估計來追蹤從 2019 年到 2023 年的計算擴充套件。

  • 從 GPT-2 到 GPT-3 的擴充套件非常快;存在大量計算過剩,從較小的實驗擴充套件到使用整個資料中心來訓練大型語言模型。
  • 隨著從 GPT-3 到 GPT-4 的擴充套件,我們過渡到現代體制:必須為下一個模型構建一個全新的(大得多的)叢集。
  • 然而,急劇的增長仍在繼續。

總體而言,Epoch AI 估計表明,GPT-4 訓練使用的原始計算量比 GPT-2 多約 3,000 倍至 10,000 倍。

總體而言,這只是長期趨勢的延續。在過去十五年裡,主要是由於投資的廣泛擴大(以及以 GPU 和 TPU 的形式專門用於 AI 工作負載的晶片),用於前沿 AI 系統的訓練計算以每年約 0.5 OOM 的速度增長。

到 2027 年底,額外的 2 個計算 OOM(價值數百億美元的叢集)似乎很有可能實現;甚至接近 +3 個計算 OOM(1000 億美元以上)的叢集似乎也是可行的

演算法效率
雖然對計算的大規模投資引起了所有人的關注,但演算法的進步可能也是同樣重要的進步驅動力(並且被嚴重低估了)。

要了解演算法進步有多大的作用,請看下面的例子:在短短兩年內,數學基準(高中數學競賽)的準確率下降到約 50% 。 (相比之下,一位不太喜歡數學的電腦科學博士生的成績為 40%,所以這已經相當不錯了。) 在不到兩年的時間裡,推理效率提高了近 3 個 OOM,即 1,000 倍。

雖然這些數字只是用於推理效率,但它們清楚地表明,演算法上存在大量可能和正在發生的進步。 

在本文中,我將區分兩種演算法進展。
在這裡,我將首先介紹“正規化內”演算法改進:

  • 這些改進僅僅導致更好的基礎模型,並且直接充當計算效率或計算倍增器。

我們擁有 ImageNet 的最佳資料(其中演算法研究大多已公開,並且我們擁有可追溯至十年前的資料):

  • 在 2012 年至 2021 年的 9 年間,我們一直將其計算效率提高約 ~0.5 OOM/年。
  • 這是一件大事:這意味著 4 年後,我們可以用大約 100 倍更少的計算量實現相同的效能(同時,在相同的計算量下獲得更高的效能!)。

綜合起來,公開資訊表明:

  • 從 GPT-2 到 GPT-4 的飛躍包括 1-2 個 OOM 的演算法效率提升。
  • 在 GPT-4 之後的 4 年裡,我們預計這一趨勢將會持續下去:平均每年的計算效率為 0.5 OOM,即到 2027 年與 GPT-4 相比將提高約 2 OOM。

雖然隨著我們摘取唾手可得的果實,計算效率將變得越來越難找到,但人工智慧實驗室在尋找新的演算法改進方面的資金和人才投資正在迅速增長。

總結目前的趨勢:

  • 有效計算OOM的變化率可能會在本世紀末放緩。
  • 擴大支出:用於大型培訓的GDP份額正在迅速增加,但一旦實現萬億美元的培訓,進一步的支出可能會以接近每年2%的GDP增長率增加。
  • 硬體收益:人工智慧計算能力的增長速度一直快於摩爾定律,但一旦一次性收益完成,進展將回到硬體改進的基線速度。
  • 演算法進展:到2020年,世界上最聰明的技術人才中很大一部分可能會從事人工智慧研發,而且很多容易摘到的水果都已經被摘走了,因此演算法的進展可能會放緩。

.
未來預測:
  • AGI到達的模態年是在2020年代後期,即使你認為中位數在那之後。
  • 有效計算OOM的變化率可能會在本世紀末放緩。
  • 到2025/26年,人工智慧模型將超過許多大學畢業生。到2020年,他們將比你我更聰明,我們將擁有超級智慧。

.
國家安全與競爭力:
  • 美國必須贏得超級智慧競賽,因為中國第一將是災難性的。
  • 安全性很重要,但仍然是可處理的

.
奇點:
  • 數以億計的AGI可以自動化AI研究,將十年的演算法進展壓縮到不到一年。
  • 這將迅速導致巨大的超人AI系統,具有巨大的力量和危險

忘掉科幻小說,數一數 OOM:這是我們應該期待的。AGI 不再是一個遙不可及的幻想。簡單的深度學習技術的擴充套件已經奏效,模型只是想學習,到 2027 年底,我們將再做 100,000 倍以上的擴充套件。用不了多久,它們就會比我們聰明。 

相關文章