李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍

机器之心發表於2024-04-16
如何覆盤大模型技術爆發的這一年?除了直觀的感受,你還需要一份系統的總結。

今天,史丹佛 HAI 研究所釋出了第七個年度的 AI Index 報告,這是關於人工智慧行業現狀的最全面的報告之一。

李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍

訪問地址:https://hai.stanford.edu/news/ai-index-state-ai-13-charts

報告指出,人工智慧的發展正以驚人的速度向前推進,開發人員每月都在製造出越來越強大、越來越複雜的模型。然而,儘管發展速度加快,人工智慧行業在解決人們對人工智慧可解釋性的擔憂以及對其對人們生活影響的日益緊張方面卻進展甚微。

在今年的報告中,史丹佛 HAI 研究所增加了有關負責任人工智慧的擴充套件章節,有關科學和醫學領域人工智慧的新章節,以及對研發、技術效能、經濟、教育、政策和治理、多樣性和公眾輿論的綜述。

圖片

以下是報告的重點內容:

  • 2023 年的進展速度比以往任何一年都要快得多,GPT-4、Gemini 和 Claude 3 等最先進的系統顯示出令人印象深刻的多模態功能,能夠生成流暢的資料多種語言的文字、處理音訊和影像以及解釋網路梗圖。
  • 2023 年新發布的支援生成式 AI 的大型語言模型數量比前一年翻了一番,其中三分之二是開源模型,例如 Meta 的 Llama 2,但效能最佳的是閉源模型,例如 Google 的 Gemini Ultra。
  • 2023 年,工業界繼續主導人工智慧前沿研究。工業界產生了 51 個值得關注的機器學習模型,而學術界僅貢獻了 15 個。2023 年,產學界合作產生了 21 個值得關注的模型,再創新高。
  • 美國領先中國、歐盟和英國,成為頂級人工智慧模型的主要來源地。2023 年,61 個著名的人工智慧模型源自美國機構,遠遠超過歐盟的 21 個和中國的 15 個。
  • Gemini Ultra 是第一個在大規模多工語言理解關鍵基準測試中達到人類水平表現的 LLM。OpenAI 的 GPT-4 也不甘示弱,在 Holistic Evaluation of Language Models 基準上取得了 0.96 的平均勝率得分,該基準將 MMLU 與其他評估結合起來。
  • 不過,人工智慧效能的提高是有代價的,報告發現,前沿人工智慧模型的開發成本正變得越來越高。據說 Gemini Ultra 消耗了價值 1.91 億美元的計算資源,而 GPT-4 的開發成本估計為 7800 萬美元。

企業對生成式 AI 投資猛增

圖 4.3.1 展示了 2013 年至 2023 年全球企業人工智慧投資趨勢,包括併購、少數股權、私募投資和公開發行。全球企業對人工智慧的投資連續第二年下降。

2023 年,總投資下降至 1892 億美元,較 2022 年下降約 20%。然而,在過去十年中,企業對人工智慧相關投資增加了十三倍。

圖片

圖 4.3.3 表明,AI 行業吸引了 252 億美元的投資,幾乎是 2022 年投資的九倍,是 2019 年投資額的約 30 倍。此外,生成式人工智慧佔 2023 年所有人工智慧相關私人投資的四分之一以上。

圖片

假如按區域進行比較,美國在人工智慧私人投資總額方面再次領先世界。2023 年,美國投資額為 672 億美元,大約是第二高國家中國投資額(78 億美元)的 8.7 倍,是英國投資額(38 億美元)的 17.8 倍(圖 4.3.8)。

圖片

谷歌在基礎模型競賽中佔據主導地位

報告顯示,谷歌在 2023 年釋出的基礎模型最多,圖 1.3.16 總結了 2023 年各個機構釋出的各種基礎模型。Google 釋出了最多的模型(18 個),其次是 Meta(11 個)和 Microsoft(9 個)。2023 年釋出基礎模型最多的學術機構是加州大學伯克利分校 (3 個)。

圖片

自 2019 年以來,Google 釋出的基礎模型數量最多,共有 40 個,其次是 OpenAI,有 20 個(圖 1.3.17)。清華大學也脫穎而出,釋出了七個基礎模型,而史丹佛大學是美國領先的學術機構,釋出了五個模型。

圖片

閉源模型優於開源模型

圖 2.11.4 和 2.11.5 將閉源模型與開源模型在選定的基準上進行了對比。在所有選定的基準上,閉源模型的表現均優於開源模型

圖片

圖片

訓練成本

關於基礎模型,一個繞不開的話題是推理成本。儘管人工智慧公司很少透露訓練模型所涉及的費用,但人們普遍認為這些成本已達到數百萬美元,並且還在不斷上升。例如,OpenAI 執行長 Sam Altman 曾提到,GPT-4 的訓練成本超過 1 億美元。

圖 1.3.21 根據雲端計算租賃價格直觀地顯示了與選定 AI 模型相關的訓練成本。下圖表明近年來模型訓練成本大幅增加。例如,2017 年 Transformer 模型訓練成本約為 900 美元。2019 年釋出的 RoBERTa Large 訓練成本約為 160,000 美元。2023 年,OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的訓練成本預計分別約為 7800 萬美元和 1.91 億美元

圖片

圖 1.3.22 顯示了 AI Index 估計的所有 AI 模型的訓練成本。如圖所示,隨著時間的推移,模型訓練成本急劇增加。

圖片

如圖 1.3.23 所示,對計算訓練需求更大的模型需要的訓練成本更多。

圖片

碳足跡

圖 2.13.1 顯示了選定 LLM 在訓練期間釋放的碳(以噸為單位)的比較。例如,Meta 釋出的 Llama 2 70B 模型釋放了約 291.2 噸碳,這比一位旅客從紐約到舊金山的往返航班所釋放的碳排放量高出近 291 倍,大約是普通美國人一年碳排放量的 16 倍。然而,Llama 2 的排放量仍低於 OpenAI GPT-3 訓練期間報告的 502 噸排放量。

圖片

美國在基礎模型方面處於領先位置

2023 年,全球大部分基礎模型源自美國(109 個),其次是中國(20 個)和英國(圖 1.3.18)。自 2019 年以來,美國在大多數基礎模型的研發方面一直處於領先地位(圖 1.3.19)。

圖片

CS 博士畢業生

美國和加拿大電腦科學博士畢業生數量十年來首次顯著增加。2022 年,電腦科學博士畢業生人數達到 2105 人,為 2010 年以來最高(圖 6.1.5)。

圖片

越來越多的 AI 博士畢業生在工業界尋求職業生涯(圖 6.1.7 和圖 6.1.8)。2011 年,工業界(40.9%)和學術界(41.6%)的就業比例大致相同。然而,到 2022 年,與進入學術界的人 (20.0%) 相比,畢業後進入工業界的比例 (70.7%) 明顯更高。過去 5 年,進入政府職位的 AI 博士比例一直保持在相對較低的水平,穩定在 0.7% 左右。

圖片

圖片

考生類別增加

下圖所示 AP CS 考生的種族多樣性正在增加。雖然白人學生仍然是最大的群體,但隨著時間的推移,亞裔、西班牙裔 / 拉美裔等學生參加 AP CS 考試的人數不斷增加(圖 8.3.3)。2022 年,白人學生在考生中所佔比例最大(38.2%),其次是亞裔學生(27.8%)(圖 8.3.3 和圖 8.3.4)。

圖片

圖片

財報電話會議

去年,財富 500 強公司財報電話會議中提及人工智慧的次數顯著增加。2023 年,有 394 場財報電話會議提到了人工智慧(佔所有財富 500 強公司的近 80%),高於 2022 年的 266 場(圖 4.4.25)。自 2018 年以來,財富 500 強財報電話會議中提及人工智慧的次數幾乎增加了一倍。

圖片

涉及的主題非常廣泛,最常被提及的主題是生成式人工智慧,佔所有財報電話會議的 19.7%(圖 4.4.26)。

圖片

成本下降,收入上升

人工智慧不僅僅是企業的流行語:麥肯錫的同一項調查顯示,人工智慧的整合使企業成本下降,收入增加。總體而言,42% 的受訪者表示他們的成本降低了,59% 的受訪者表示收入增加了。

2023 年,不同領域的多項研究表明,人工智慧使工人能夠更快地完成任務,並提高工作質量。其中一項研究考察了使用 Copilot 的程式設計人員,其他研究則考察了顧問、呼叫中心代理和法律專業學生。研究還表明,雖然每個工人都能從中受益,但人工智慧對低技能工人的幫助要大於對高技能工人的幫助。

圖片

企業確實感知到了風險

報告對收入至少在 5 億美元以上的 1000 家公司進行了一次全球調查,以瞭解企業如何看待負責任的人工智慧

結果顯示,隱私和資料管理被認為是全球最大的風險,而公平性(通常以演算法偏見的形式討論)仍未被大多數公司所重視。

一張圖表顯示,企業正在針對其感知到的風險採取行動:各地區的大多數企業都針對相關風險實施了至少一項負責任的人工智慧措施。

圖片

人工智慧還不能在所有事情上擊敗人類……

近年來,人工智慧系統在閱讀理解和視覺推理等一系列任務上的表現都優於人類,如 2015 年的影像分類、2017 年的基礎閱讀理解、2020 年的視覺推理和 2021 年的自然語言推理

但在一些複雜的認知任務中,人類的表現仍然優於人工智慧系統,如視覺常識推理和高階數學問題解決(競賽級數學問題),讓我們明年再看看情況如何。

圖片

制定人工智慧責任規範

當一家人工智慧公司準備釋出一個大模型時,標準做法是根據該領域的流行基準對其進行測試,從而讓社群瞭解模型在技術效能方面是如何相互疊加的。然而,根據負責任的人工智慧基準對模型進行測試的做法並不多見,這些基準主要評估有毒語言輸出(RealToxicityPrompts 和 ToxiGen)、反應中的有害偏差(BOLD 和 BBQ)以及模型的真實程度(TruthfulQA)。這種情況正在開始改變,因為人們越來越意識到,根據這些基準檢查自己的模型是一件負責任的事情。

然而,報告中的一張圖表顯示,一致性還很欠缺:OpenAI、Google 和 Anthropic 在內的領先開發人員主要根據不同的負責任的 AI 基準測試他們的模型。這種做法使得系統地比較頂級人工智慧模型的風險和侷限性的工作變得更加複雜。

圖片

法律對人工智慧的促進和限制

報告指出,在 2016 年至 2023 年期間,有 33 個國家至少透過了一項與人工智慧有關的法律,其中大部分行動發生在美國和歐洲;在此期間,總共透過了 148 項與人工智慧有關的法案。研究者還將法案分為旨在增強國家人工智慧能力的擴張性法律和對人工智慧應用和使用施加限制的限制性法律。

可以發現,雖然許多法案都在繼續促進人工智慧的發展,但限制性立法已成為全球趨勢。

圖片

AI 正讓人們變得緊張

報告的第九章是關於「公眾觀點」的,多倫多大學的一項國際調查顯示,63% 的受訪者知道 ChatGPT。在那些知道的人中,大約有一半的人每週至少使用 ChatGPT 一次。

但公眾對人工智慧的經濟影響持悲觀態度。在 lpsos 的一項調查中,只有 37% 的受訪者認為人工智慧將改善他們的工作。只有 34% 的人認為人工智慧將促進經濟,32% 的人認為它將促進就業市場。

這一指數的民意資料來自一項關於對人工智慧態度的全球調查,31 個國家的 22816 名成年人(年齡在 16 歲至 74 歲之間)參與了調查。

超過半數的受訪者表示,人工智慧讓他們感到緊張,而前一年這一比例為 39%。三分之二的人現在預計人工智慧將在未來幾年內深刻改變他們的日常生活。

圖片

該指數中的其他圖表顯示,不同人群的觀點存在顯著差異,年輕人更傾向於樂觀地看待人工智慧將如何改變他們的生活。

參考連結:https://spectrum.ieee.org/ai-index-2024

相關文章