2021年是巨大AI模型年 - technologyreview
當 OpenAI在 2020 年 6 月釋出 GPT-3 時,神經網路對語言的明顯把握是不可思議的。它可以生成令人信服的句子,與人類交談,甚至自動完成程式碼。但 GPT-3 的影響在 2021 年變得更加明顯。 今年帶來了由多家科技公司和頂級 AI 實驗室構建的大型 AI 模型的激增,許多模型在規模和能力上都超過了 GPT-3 本身。它們能有多大,成本是多少?
GPT-3 吸引了全世界的注意力,不僅因為它可以做什麼,還因為它是如何做到的。效能的驚人飛躍,尤其是 GPT-3 對未經專門訓練的語言任務進行泛化的能力,並不是來自更好的演算法,而是更大規模的絕對尺寸。
AI需要一個新想法,但只是通過”大規模“實現了這一目標.
巨大模型
模型很大意味著什麼?模型(一個經過訓練的神經網路)的大小是通過它擁有的引數數量來衡量的。這些是網路中的值,在訓練過程中一次又一次地調整,然後用於進行模型的預測。粗略地說,模型的引數越多,它從訓練資料中吸收的資訊就越多,它對新資料的預測就越準確。
GPT-3 擁有 1750 億個引數,是其前身 GPT-2 的 10 倍。但 GPT-3 與 2021 級相比相形見絀。 美國初創公司 AI21 Labs 於 9 月推出的商用大型語言模型 Jurassic-1 以 1780 億個引數領先 GPT-3。DeepMind 12 月釋出的新模型 Gopher 有 2800 億個引數。威震天-圖靈 NLG 有 5300 億。谷歌的 Switch-Transformer 和 GLaM 模型分別有 1 個和 1.2 萬億個引數。
這種趨勢不僅僅發生在美國。今年,中國科技巨頭華為構建了一個名為盤古的 2000 億引數語言模型。另一家中國公司浪潮建立了元 1.0,一個 2450 億引數的模型。百度和深圳研究所鵬程實驗室宣佈了 PCL-BAIDU Wenxin,這是一個擁有 2800 億引數的模型,百度已經在各種應用中使用,包括網際網路搜尋、新聞提要和智慧揚聲器。而北京人工智慧研究院釋出了武道2.0,擁有1.75萬億個引數。
與此同時,韓國網際網路搜尋公司 Naver 宣佈了一個名為 HyperCLOVA 的模型,有 2040 億個引數。
這些中的每一個都是一項顯著的工程壯舉。
首先,訓練一個具有超過 1000 億個引數的模型是一個複雜的管道問題:數百個獨立的 GPU——訓練深度神經網路的首選硬體——必須連線和同步,訓練資料必須分成塊和在正確的時間以正確的順序在它們之間分配。
大型語言模型已成為展示公司技術實力的聲望專案。然而,這些新模型中很少有人能將研究向前推進,而不是重複證明擴大規模會產生良好結果。
創新:
- 經過訓練後,Google 的 Switch-Transformer 和 GLaM 會使用它們的一小部分引數進行預測,因此它們可以節省計算能力。
- PCL-Baidu Wenxin 將 GPT-3 風格的模型與知識圖譜相結合,這是一種在老派符號 AI 中用於儲存事實的技術。
- 與 Gopher 一起,DeepMind 釋出了 RETRO,這是一種只有 70 億個引數的語言模型,它在生成文字時通過交叉引用文件資料庫與其他 25 倍的引數進行競爭。這使得 RETRO 的培訓成本低於其巨大的競爭對手。
然而,儘管取得了令人印象深刻的結果,研究人員仍然不明白為什麼增加引數數量會導致更好的效能。他們也沒有修復這些模型學習和重複的有毒語言和錯誤資訊。正如最初的 GPT-3 團隊在一篇描述該技術的論文中承認的那樣 :“網際網路訓練的模型具有網際網路規模的偏差。”
儘管今年在構建新語言模型方面付出了很多努力,但 AI 仍然停留在 GPT-3 的陰影中。在 10 或 20 年內,大型模型將成為常態!
相關文章
- AI的未來是一個巨大的模型,還是多個specialized小模型AI模型Zed
- AI三重問:什麼是AI?什麼是AI模型?什麼是AI大模型?AI大模型
- 德勤:用於工作關係的AI是一個尚未開發的巨大機會AI
- 斯蒂芬·平克:AI模型是外星智慧一種形式AI模型
- 吳恩達:AI智慧體工作流今年將有巨大進展,可能超過下一代基礎模型吳恩達AI智慧體模型
- AI模型對比AI模型
- 一項根本性的新技術LO-shot使AI幾乎無需資料即可學習 - technologyreviewAIView
- AI人工智慧對醫療行業有哪些巨大貢獻?AI人工智慧行業
- 滴滴帶AI入局,出行安全又將迎來巨大改變AI
- 《The Town of Light》:世界是一個巨大的精神病院
- 十年後 AI 是什麼樣?AI
- AI之父:大模型不僅僅是預測下一個符號AI大模型符號
- 一條妙計確保你的AI模型總是有幫助AI模型
- DeepMind給AI模型做了個IQ測試,結果是這樣的AI模型
- Uber是如何花費巨大精力實現快取精確失效?快取
- 小程式爆紅專家:對簡單APP是巨大打擊APP
- 大模型對AI研究有害?大模型AI
- Llama 3:Meta新AI模型AI模型
- Ai qwen大模型本地部署AI大模型
- 谷歌Transformer再升級——新模型實現效能、速度雙提升,發展潛力巨大谷歌ORM模型
- 2024年2月是AI指數級加速月AI
- Spring AI(使用Ollama大模型進行AI驗證)SpringAI大模型
- Meta AI 開源萬物可分割 AI 模型(SAM)AI模型
- 0編碼構建AI模型AI模型
- 一鍵部署本地AI大模型AI大模型
- AI大模型的白堊紀AI大模型
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 解決Transformer根本缺陷,CoPE論文爆火:所有大模型都能獲得巨大改進ORM大模型
- 聯合國釋出AI報告:自動化和AI對亞洲有巨大影響【附報告下載】AI
- 麥肯錫:5G的經濟影響可能是巨大的
- 專線市場空間巨大,OSU-OTN是最佳承載技術
- 什麼是大模型?大模型
- 什麼是UE模型?模型
- 2020年旅遊業遭受巨大損失(附原資料表)
- Innodb:Undo 表空間巨大
- AI打遊戲-肆(模型訓練)AI遊戲模型
- ChatGPT:AI模型框架研究(附下載)ChatGPTAI模型框架
- OpenAI推出ChatGPT對話式AI模型OpenAIChatGPT模型