2021年是巨大AI模型年 - technologyreview

banq發表於2021-12-22

當 OpenAI在 2020 年 6 月釋出 GPT-3 時,神經網路對語言的明顯把握是不可思議的。它可以生成令人信服的句子,與人類交談,甚至自動完成程式碼。但 GPT-3 的影響在 2021 年變得更加明顯。 今年帶來了由多家科技公司和頂級 AI 實驗室構建的大型 AI 模型的激增,許多模型在規模和能力上都超過了 GPT-3 本身。它們能有多大,成本是多少? 

GPT-3 吸引了全世界的注意力,不僅因為它可以做什麼,還因為它是如何做到的。效能的驚人飛躍,尤其是 GPT-3 對未經專門訓練的語言任務進行泛化的能力,並不是來自更好的演算法,而是更大規模的絕對尺寸。 

AI需要一個新想法,但只是通過”大規模“實現了這一目標.

 

巨大模型 

模型很大意味著什麼?模型(一個經過訓練的神經網路)的大小是通過它擁有的引數數量來衡量的。這些是網路中的值,在訓練過程中一次又一次地調整,然後用於進行模型的預測。粗略地說,模型的引數越多,它從訓練資料中吸收的資訊就越多,它對新資料的預測就越準確。

GPT-3 擁有 1750 億個引數,是其前身 GPT-2 的 10 倍。但 GPT-3 與 2021 級相比相形見絀。 美國初創公司 AI21 Labs 於 9 月推出的商用大型語言模型 Jurassic-1 以 1780 億個引數領先 GPT-3。DeepMind 12 月釋出的新模型 Gopher 有 2800 億個引數。威震天-圖靈 NLG 有 5300 億。谷歌的 Switch-Transformer 和 GLaM 模型分別有 1 個和 1.2 萬億個引數。 

這種趨勢不僅僅發生在美國。今年,中國科技巨頭華為構建了一個名為盤古的 2000 億引數語言模型。另一家中國公司浪潮建立了元 1.0,一個 2450 億引數的模型。百度和深圳研究所鵬程實驗室宣佈了 PCL-BAIDU Wenxin,這是一個擁有 2800 億引數的模型,百度已經在各種應用中使用,包括網際網路搜尋、新聞提要和智慧揚聲器。而北京人工智慧研究院釋出了武道2.0,擁有1.75萬億個引數。 

與此同時,韓國網際網路搜尋公司 Naver 宣佈了一個名為 HyperCLOVA 的模型,有 2040 億個引數。 

這些中的每一個都是一項顯著的工程壯舉。

首先,訓練一個具有超過 1000 億個引數的模型是一個複雜的管道問題:數百個獨立的 GPU——訓練深度神經網路的首選硬體——必須連線和同步,訓練資料必須分成塊和在正確的時間以正確的順序在它們之間分配。 

大型語言模型已成為展示公司技術實力的聲望專案。然而,這些新模型中很少有人能將研究向前推進,而不是重複證明擴大規模會產生良好結果。 

 

創新

  • 經過訓練後,Google 的 Switch-Transformer 和 GLaM 會使用它們的一小部分引數進行預測,因此它們可以節省計算能力。
  • PCL-Baidu Wenxin 將 GPT-3 風格的模型與知識圖譜相結合,這是一種在老派符號 AI 中用於儲存事實的技術。
  • 與 Gopher 一起,DeepMind 釋出了 RETRO,這是一種只有 70 億個引數的語言模型,它在生成文字時通過交叉引用文件資料庫與其他 25 倍的引數進行競爭。這使得 RETRO 的培訓成本低於其巨大的競爭對手。 

 

然而,儘管取得了令人印象深刻的結果,研究人員仍然不明白為什麼增加引數數量會導致更好的效能。他們也沒有修復這些模型學習和重複的有毒語言和錯誤資訊。正如最初的 GPT-3 團隊在一篇描述該技術論文中承認的那樣 :“網際網路訓練的模型具有網際網路規模的偏差。” 

儘管今年在構建新語言模型方面付出了很多努力,但 AI 仍然停留在 GPT-3 的陰影中。在 10 或 20 年內,大型模型將成為常態!

 

相關文章