2021年是巨大AI模型年 - technologyreview

banq發表於2021-12-22

當 OpenAI在 2020 年 6 月釋出 GPT-3 時，神經網路對語言的明顯把握是不可思議的。它可以生成令人信服的句子，與人類交談，甚至自動完成程式碼。但 GPT-3 的影響在 2021 年變得更加明顯。今年帶來了由多家科技公司和頂級 AI 實驗室構建的大型 AI 模型的激增，許多模型在規模和能力上都超過了 GPT-3 本身。它們能有多大，成本是多少？

GPT-3 吸引了全世界的注意力，不僅因為它可以做什麼，還因為它是如何做到的。效能的驚人飛躍，尤其是 GPT-3 對未經專門訓練的語言任務進行泛化的能力，並不是來自更好的演算法，而是更大規模的絕對尺寸。

AI需要一個新想法，但只是通過”大規模“實現了這一目標.

巨大模型

模型很大意味著什麼？模型（一個經過訓練的神經網路）的大小是通過它擁有的引數數量來衡量的。這些是網路中的值，在訓練過程中一次又一次地調整，然後用於進行模型的預測。粗略地說，模型的引數越多，它從訓練資料中吸收的資訊就越多，它對新資料的預測就越準確。

GPT-3 擁有 1750 億個引數，是其前身 GPT-2 的 10 倍。但 GPT-3 與 2021 級相比相形見絀。美國初創公司 AI21 Labs 於 9 月推出的商用大型語言模型 Jurassic-1 以 1780 億個引數領先 GPT-3。DeepMind 12 月釋出的新模型 Gopher 有 2800 億個引數。威震天-圖靈 NLG 有 5300 億。谷歌的 Switch-Transformer 和 GLaM 模型分別有 1 個和 1.2 萬億個引數。

這種趨勢不僅僅發生在美國。今年，中國科技巨頭華為構建了一個名為盤古的 2000 億引數語言模型。另一家中國公司浪潮建立了元 1.0，一個 2450 億引數的模型。百度和深圳研究所鵬程實驗室宣佈了 PCL-BAIDU Wenxin，這是一個擁有 2800 億引數的模型，百度已經在各種應用中使用，包括網際網路搜尋、新聞提要和智慧揚聲器。而北京人工智慧研究院釋出了武道2.0，擁有1.75萬億個引數。

與此同時，韓國網際網路搜尋公司 Naver 宣佈了一個名為 HyperCLOVA 的模型，有 2040 億個引數。

這些中的每一個都是一項顯著的工程壯舉。

首先，訓練一個具有超過 1000 億個引數的模型是一個複雜的管道問題：數百個獨立的 GPU——訓練深度神經網路的首選硬體——必須連線和同步，訓練資料必須分成塊和在正確的時間以正確的順序在它們之間分配。

大型語言模型已成為展示公司技術實力的聲望專案。然而，這些新模型中很少有人能將研究向前推進，而不是重複證明擴大規模會產生良好結果。

創新：

經過訓練後，Google 的 Switch-Transformer 和 GLaM 會使用它們的一小部分引數進行預測，因此它們可以節省計算能力。
PCL-Baidu Wenxin 將 GPT-3 風格的模型與知識圖譜相結合，這是一種在老派符號 AI 中用於儲存事實的技術。
與 Gopher 一起，DeepMind 釋出了 RETRO，這是一種只有 70 億個引數的語言模型，它在生成文字時通過交叉引用文件資料庫與其他 25 倍的引數進行競爭。這使得 RETRO 的培訓成本低於其巨大的競爭對手。

然而，儘管取得了令人印象深刻的結果，研究人員仍然不明白為什麼增加引數數量會導致更好的效能。他們也沒有修復這些模型學習和重複的有毒語言和錯誤資訊。正如最初的 GPT-3 團隊在一篇描述該技術的論文中承認的那樣：“網際網路訓練的模型具有網際網路規模的偏差。”

儘管今年在構建新語言模型方面付出了很多努力，但 AI 仍然停留在 GPT-3 的陰影中。在 10 或 20 年內，大型模型將成為常態！

AI的未來是一個巨大的模型，還是多個specialized小模型
2024-05-28
AI模型Zed
AI三重問：什麼是AI？什麼是AI模型？什麼是AI大模型？
2023-11-01
AI大模型
德勤：用於工作關係的AI是一個尚未開發的巨大機會
2023-11-03
AI
斯蒂芬·平克：AI模型是外星智慧一種形式
2024-06-08
AI模型
一項根本性的新技術LO-shot使AI幾乎無需資料即可學習 - technologyreview
2020-10-19
AIView
吳恩達：AI智慧體工作流今年將有巨大進展，可能超過下一代基礎模型
2024-03-22
吳恩達AI智慧體模型
AI人工智慧對醫療行業有哪些巨大貢獻？
2018-09-09
AI人工智慧行業
滴滴帶AI入局，出行安全又將迎來巨大改變
2019-05-12
AI
AI模型對比
2024-06-21
AI模型
《The Town of Light》：世界是一個巨大的精神病院
2020-01-09
十年後 AI 是什麼樣？
2020-07-15
AI
AI之父：大模型不僅僅是預測下一個符號
2024-05-20
AI大模型符號
一條妙計確保你的AI模型總是有幫助
2019-09-16
AI模型
DeepMind給AI模型做了個IQ測試，結果是這樣的
2019-02-21
AI模型
Uber是如何花費巨大精力實現快取精確失效？
2024-02-24
快取
小程式爆紅專家:對簡單APP是巨大打擊
2018-04-20
APP
大模型對AI研究有害？
2024-04-05
大模型AI
Llama 3：Meta新AI模型
2024-06-10
AI模型
Ai qwen大模型本地部署
2024-06-09
AI大模型
谷歌Transformer再升級——新模型實現效能、速度雙提升，發展潛力巨大
2020-11-06
谷歌ORM模型
2024年2月是AI指數級加速月
2024-03-02
AI
Spring AI（使用Ollama大模型進行AI驗證）
2024-07-19
SpringAI大模型
Meta AI 開源萬物可分割 AI 模型(SAM)
2023-04-11
AI模型
解決Transformer根本缺陷，CoPE論文爆火：所有大模型都能獲得巨大改進
2024-05-31
ORM大模型
0編碼構建AI模型
2019-05-16
AI模型
一鍵部署本地AI大模型
2024-06-07
AI大模型
AI大模型的白堊紀
2022-10-08
AI大模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
麥肯錫：5G的經濟影響可能是巨大的
2020-04-23
專線市場空間巨大，OSU-OTN是最佳承載技術
2021-01-07
聯合國釋出AI報告：自動化和AI對亞洲有巨大影響【附報告下載】
2018-10-10
AI
什麼是大模型？
2024-05-22
大模型
什麼是UE模型？
2022-01-06
模型
2020年旅遊業遭受巨大損失（附原資料表）
2021-04-25
Innodb：Undo 表空間巨大
2019-04-04
AI打遊戲-肆（模型訓練）
2023-09-22
AI遊戲模型
ChatGPT：AI模型框架研究（附下載）
2023-04-03
ChatGPTAI模型框架
OpenAI推出ChatGPT對話式AI模型
2022-12-04
OpenAIChatGPT模型

2021年是巨大AI模型年 - technologyreview

相關文章