全面打破GPT-4壟斷、DeepSeek打下訓練成本...2024年大模型領域進展全覆盤

机器之心發表於2025-01-02
2024年,我們居然進步這麼大。

剛剛過去的 2024 年是生成式 AI 大發展的一年,我們見證了 OpenAI Sora 的崛起,大模型服務價格的飛速下降,以及國內開源大模型的奮起直追。這全方位的快速發展讓我們對下一波 AI 的新技術大規模應用充滿了信心。

對於身在 AI 領域的工程師和學者們來說,他們看待這一年的觀點會有不同嗎?

新年伊始,就有人對過去一年裡大模型技術的發展進行了詳盡的總結。本文的作者 Simon Willison 是英國知名獨立研究員和開放原始碼建立者。
圖片
讓我們看看他是怎麼說的。

2024 年,大型語言模型領域發生了很多事情。以下是過去 12 個月我們對該領域的研究成果的回顧,以及我嘗試確定的關鍵主題和關鍵時刻。

2023 年的總結在這裡:https://simonwillison.net/2023/Dec/31/ai-in-2023/

在 2024 年,我們可以看到:

  • GPT-4 壟斷被全面打破
  • 一些 GPT-4 級模型可以在膝上型電腦上執行
  • 由於競爭和最佳化,大模型服務的價格崩盤
  • 多模態視覺已經變得常見,音訊和影片模型開始出現
  • 語音和實時攝像頭模式正從科幻小說變成現實
  • 一個提示詞做出一個 APP,已經很普遍了
  • 對最佳模型的普遍訪問僅持續了短短几個月
  • AI 「智慧體」可能還有點遠
  • 評估真的很重要
  • Apple Intelligence 很糟糕,但 MLX 庫很出色
  • 正在崛起的「推理」模型
  • 目前最好的 LLM 來自中國,訓練成本不到 600 萬美元?
  • 環境影響變好了,但也在變得越來越嚴重
  • 合成訓練資料效果很好
  • LLM 不知何故變得更難用了
  • 知識分佈不均勻
  • LLM 需要更好的批評

GPT-4 壟斷被全面打破

在 2023 年 12 月的評論中,我寫了關於我們還不知道如何構建 GPT-4——OpenAI 提出的領先大模型當時已經有近一年的歷史了,但沒有其他人工智慧實驗室能做出更好的模型。OpenAI 的做法裡面有什麼過人之處嗎?

令人欣慰的是,這種情況在過去十二個月裡完全改變了。現在有 18 個公司、機構在 Chatbot Arena 排行榜上的模型排名高於 2023 年 3 月的原始 GPT-4(排行榜上的 GPT-4-0314)—— 總共有 70 個模型。
圖片
其中最早的是谷歌於 2 月釋出的 Gemini 1.5 Pro。除了產生 GPT-4 級別的輸出外,它還為該領域引入了幾項全新的功能 —— 最值得注意的是其 100 萬(後來是 200 萬)個 token 輸入上下文長度,以及接收影片的能力。

我當時在《The killer app of Gemini Pro 1.5 is video》中寫到了這一點,這讓我在 5 月的谷歌 I/O 開幕主題演講中作為主持人短暫露面。

Gemini 1.5 Pro 還展示了 2024 年的一個關鍵主題:增加上下文長度。去年,大多數模型接收 4096 或 8192 個 token,但 Claude 2.1 是個值得注意的例外,它能接收 20 萬個 token。如今,每個嚴肅的提供商都有一個 10 萬以上的 token 模型,而谷歌的 Gemini 系列最多可以接受 200 萬個 token。

更長的輸入極大地增加了使用 LLM 可以解決的問題範圍:你現在可以投入一整本書並詢問有關其內容的問題。但更重要的是,你可以輸入大量示例程式碼來幫助模型正確解決編碼問題。涉及長輸入的 LLM 用例對我來說比純粹依賴模型權重中已經嵌入的資訊的短提示更有趣。我的許多工具都是使用這種模式構建的。

回到擊敗 GPT-4 的模型:Anthropic 的 Claude 3 系列於 3 月推出,Claude 3 Opus 很快成為我最喜歡的日常大模型。他們在 6 月進一步提高了賭注,推出了 Claude 3.5 Sonnet—— 六個月後,這個模型仍然是我的最愛(儘管它在 10 月 22 日進行了重大升級,令人困惑的是保留了相同的 3.5 版本號。Anthropic 粉絲從那時起就喜歡稱它為 Claude 3.6)。

然後是其餘的大模型。如果你今天瀏覽 Chatbot Arena 排行榜(仍然是獲得基於情緒的模型評估的最有用的地方),你會發現 GPT-4-0314 已經跌至第 70 位左右。擁有得分較高的模型的 18 家組織分別是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、英偉達、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯頓和騰訊。

一些 GPT-4 級模型可以在膝上型電腦上執行

我的個人膝上型電腦是 2023 年的 64GB M2 MacBook Pro。這是一臺功能強大的機器,但它也已經有近兩年的歷史了 —— 而且至關重要的是,我自 2023 年 3 月第一次在電腦本地上執行 LLM 以來,一直在使用的是同一檯膝上型電腦。

去年 3 月,同一檯膝上型電腦幾乎可以執行 GPT-3 類模型,現在已經執行了多個 GPT-4 類模型!我對此的一些註釋:

Qwen2.5-Coder-32B 是一款可以很好地編碼的 LLM,可在我的 Mac 上執行,11 月份,我談到了 Qwen2.5-Coder-32B——Apache 2.0 許可模型。

我現在可以在我的膝上型電腦上執行 GPT-4 類模型,執行 Meta 的 Llama 3.3 70B(12 月釋出)。

這對我來說仍然很令人驚訝。我們原本會想當然地認為具有 GPT-4 功能和輸出質量的模型需要一臺資料中心級伺服器,該伺服器具有一個或多個價值 4 萬美元以上的 GPU。

事實上,這些模型佔用了我 64GB 的記憶體空間,所以我不經常執行它們 —— 執行的時候就不能幹其他的事了。

它們能夠執行的事實證明了 AI 領域在過去一年中取得了令人難以置信的訓練和推理效能提升。事實證明,在模型效率方面,還有很多唾手可得的成果。我預計未來還會有更多。

Meta 的 Llama 3.2 模型值得特別提及。它們可能不是 GPT-4 級別,但在 1B 和 3B 大小下,它們的效能遠遠超出了引數量的水平。我使用免費的 MLC Chat iOS 應用程式在 iPhone 上執行 Llama 3.2 3B,對於其微小(<2GB)的引數量來說,這是一個功能驚人的模型。嘗試啟動它並要求它提供「Netflix 聖誕電影的情節大綱,其中一位資料記者愛上了一位當地的陶瓷師」。這是我得到的結果,每秒 20 個 token 的速度相當可觀:
圖片
它平淡而普通,但我的手機現在可以向 Netflix 推薦平淡而普通的聖誕電影了!

由於競爭和最佳化
大模型服務的價格崩盤

在過去的 12 個月中,透過頂級託管服務的 LLM 執行 token 的成本急劇下降。

2023 年 12 月(這是 OpenAI 定價頁面的網際網路快照),OpenAI 對 GPT-4 收取 30 美元 / 百萬輸入 token,對當時新推出的 GPT-4 Turbo 收取 10 美元 /mTok,對 GPT-3.5 Turbo 收取 1 美元 /mTok。

今天 30 美元 /mTok 可以讓你獲得 OpenAI 最昂貴的模型 o1。GPT-4o 售價 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 售價 0.15 美元 /mTok—— 比 GPT-3.5 便宜近 7 倍,功能強大得多。

其他模型提供商的收費甚至更低。Anthropic 的 Claude 3 Haiku(從 3 月開始,但仍然是他們最便宜的型號)為 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 為 0.075 美元 /mTok,而他們的 Gemini 1.5 Flash 8B 為 0.0375 美元 /mTok—— 比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在我的 llm 定價標籤下跟蹤這些價格變化。

這些價格下降是由兩個因素驅動的:競爭加劇和效率提高。對於每個關心 LLM 對環境影響的人來說,效率真的很重要。這些價格下降與執行提示所消耗的能源量直接相關。

關於大型 AI 資料中心建設對環境的影響,仍然有很多值得擔心的地方,但許多對單個提示的能源成本的擔憂已不再可信。

這裡有一個有趣的簡單計算:使用 Google 最便宜的型號 Gemini 1.5 Flash 8B(10 月釋出)為我個人照片庫中的每 6.8 萬張照片生成簡短描述需要花費多少錢?

每張照片需要 260 個輸入 token 和大約 100 個輸出 token。

  • 260×68,000 = 17,680,000 個輸入 token
  • 17,680,000×0.0375 美元 / 百萬 = 0.66 美元
  • 100×68,000 = 6,800,000 個輸出 token
  • 6,800,000×0.15 美元 / 百萬 = 1.02 美元

處理 68,000 張圖片的總成本為 1.68 美元。這太便宜了,我不得不計算了三次才能確認我做對了。

這些描述有多美好?這是我從一行命令中得到的結果:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
處理在加州科學院照的這張蝴蝶照片:
圖片
輸出內容:

一個淺盤,可能是蜂鳥或蝴蝶餵食器,是紅色的。盤內可見橙色水果片。餵食器中有兩隻蝴蝶,一隻深棕色/黑色蝴蝶,帶有白色/奶油色斑紋。另一隻大號棕色蝴蝶,帶有淺棕色、米色和黑色斑紋,包括明顯的眼斑。較大的棕色蝴蝶似乎正在吃水果。

260 個輸入 token,92 個輸出 token。成本約為 0.0024 美分(不到 400 分之一美分)。效率的提高和價格的降低是我最喜歡的 2024 年趨勢。我希望以極低的能源成本獲得 LLM 的效用,看起來這就是我們得到的。

多模態視覺已經變得常見
音訊和影片模型開始出現

上面的蝴蝶示例說明了 2024 年的另一個關鍵趨勢:多模態 LLM 正在興起。

一年前,其中最引人注目的例子是 GPT-4 Vision,於 2023 年 11 月在 OpenAI 的 DevDay 上釋出。谷歌的多模態 Gemini 1.0 於 2023 年 12 月 7 日釋出,因此它也(剛好)進入了 2023 年的視窗。

2024 年,幾乎每個重要的模型供應商都發布了多模態模型。我們在 3 月看到了 Anthropic 的 Claude 3 系列,4 月看到了 Gemini 1.5 Pro(影像、音訊和影片),然後 9 月各家帶來了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 視覺模型。

10 月份,我們從 OpenAI 獲得了音訊輸入和輸出,11 月份,我們從 Hugging Face 獲得了 SmolVLM,12 月份,我們從 Amazon Nova 獲得了影像和影片模型。

10 月份,我也升級了我的 LLM CLI 工具,以透過附件支援多模態模型。它現在擁有一系列不同視覺模型的外掛。

我認為,抱怨 LLM 改進速度放緩的人往往忽略了這些多模態模型的巨大進步。能夠針對影像(以及音訊和影片)執行提示是一種應用這些模型的迷人新方法。

語音和實時攝像頭模式
正從科幻小說變成現實

新興的音訊和實時影片模式值得特別關注。

與 ChatGPT 對話的功能首次出現在 2023 年 9 月,但當時還沒真正實現:OpenAI 要用旗下的 Whisper 語音轉文字模型和一個新的文字轉語音模型(名為:tts-1)來實現與 ChatGPT 對話,但實際的模型還只能看到文字。

5 月 13 日,OpenAI 春季釋出會推出了 GPT-4o。多模態模型 GPT-4o(o 代表「omni」,是全能的意思)能直接「聽懂」你說的每一句話 —— 接受音訊輸入並輸出令人難以置信的逼真語音,也不再需要 TTS 或 STT 模型在其中轉化。

這個演示中的聲音與斯嘉麗・約翰遜驚人地相似...... 在斯嘉麗投訴之後,這個聲音 Skye 從未在任何正式產品中亮相。

不過,釋出會上那個讓人眼前一亮的 GPT-4o 高階語音功能在產品端上線的計劃一再推遲,這引起了不少討論。

當 2024 年 8 月至 9 月期間,ChatGPT 高階語音模式最終上線時,效果真的驚豔到我了。

我經常在遛狗時使用它,更擬人的語調,讓 AI 生成的內容聽起來更生動。試驗 OpenAI 的音訊 API 也很有趣。

更有趣的是:高階語音模式可以模仿口音!比如,我讓它「假裝你是一隻帶著濃重俄羅斯口音的加利福尼亞棕鵜鶘,但只用西班牙語和我交談」:全面打破GPT-4壟斷、DeepSeek打下訓練成本...2024年大模型領域進展全覆盤
OpenAI 不是唯一一家在搞多模態音訊模型的公司,Google 的 Gemini 也能接收語音輸入,而且 Gemini 應用現在也能像 ChatGPT 一樣說話了。亞馬遜也提前宣佈了他們的 Amazon Nova 會有語音模式,不過得等到 2025 年第一季度才能用上。

Google 在 9 月份釋出的 NotebookLM 把音訊輸出玩出了新花樣 —— 它能生成超級逼真的「播客主持人」對話,不管你給它什麼內容都行。後來他們還加入了自定義指令功能,我當然二話不說就把主持人都變成了鵜鶘:全面打破GPT-4壟斷、DeepSeek打下訓練成本...2024年大模型領域進展全覆盤最新的轉折出現在 12 月(這個月可真是熱鬧),就是實時影片功能。ChatGPT 的語音模式現在讓你可以直接和模型分享攝像頭畫面,實時聊聊你看到的東西。Google Gemini 也推出了類似的預覽功能,這次終於搶在 ChatGPT 前一天釋出了。 全面打破GPT-4壟斷、DeepSeek打下訓練成本...2024年大模型領域進展全覆盤
這些功能才剛出來幾個星期,我覺得它們的影響力還沒完全顯現出來。如果你還沒試過,真的要體驗一下!

Gemini 和 OpenAI 都提供這些功能的 API 介面。OpenAI 最開始用的是比較難搞的 WebSocket API,不過在 12 月他們推出了新的 WebRTC API,用起來簡單多了。現在,要開發一個能和使用者語音對話的網頁應用已經變得超級容易了。

一個提示詞做出一個 APP
已經很普遍了

這在 2023 年就可以透過 GPT-4 實現了,但直到 2024 年它的價值才真正凸顯。

我們早就知道大語言模型在寫程式碼方面有著驚人的能力。如果你給出恰當的提示詞,它們能用 HTML、CSS 和 JavaScript(如果配置好相關環境,還能用上 React 這樣的工具)為你構建一個完整的互動式應用程式 —— 通常只需要一個提示詞就夠了。

Anthropic 在釋出 Claude 3.5 Sonnet 的公告中,順帶介紹了一個突破性的新功能:Claude Artifacts。這個功能起初並沒有引起太大關注,因為它只是在公告中寫了一下。

有了 Artifacts,Claude 可以為你寫一個即時互動式應用,然後讓你直接在 Claude 介面中使用它。

這就是我用 Claude 生成的一個提取網頁 URL 的應用:
圖片
現在 Claude Artifacts 已經成為了我的依靠。很多其他團隊也開發了類似的系統,例如,GitHub 在 10 月份推出了他們的版本:GitHub Spark。Mistral Chat 在 11 月份新增了一個叫 Canvas 的類似功能。

來自 Val Town 的 Steve Krause 基於 Cerebras 構建了一個版本,展示了一個每秒處理 2000 個 token 的大語言模型如何能在不到一秒的時間內對應用進行迭代更新。

到了 12 月,Chatbot Arena 團隊為此類功能推出了一個全新的排行榜,使用者可以用兩個不同的模型構建相同的互動式應用,然後對結果進行投票。
圖片
排行榜前六位

很難找到比這更有說服力的證據,這項功能現在已經成為能在所有主流模型上有效實現的通用功能了。

我自己也在為 Datasette 專案開發類似的功能,目標是讓使用者能夠透過提示來構建和迭代針對自己資料的自定義小部件和資料視覺化。我還透過 uv 找到了一種編寫一次性 Python 程式的類似模式。

這種提示驅動的自定義介面功能非常強大,而且構建起來也很容易(只要你搞定了瀏覽器沙箱的那些棘手細節),我預計在 2025 年會有一大波產品都會推出類似功能。

對最佳模型的普遍訪問僅持續了短短几個月

今年有幾個月的時間,三個最好的可用模型:GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro,都可以被世界上大多數人免費使用。

OpenAI 在 5 月份向所有使用者開放了 GPT-4o 的免費使用許可權,而 Claude 3.5 Sonnet 從 6 月份釋出起就是免費的。

這是一個重大的改變,因為在之前的一年裡,免費使用者主要只能使用 GPT-3.5 級別的模型,這導致新使用者對大語言模型的實際能力形成了很不準確的認識。

不過,這個時代似乎已經結束了,而且很可能是永久性的,標誌是 OpenAI 推出了 ChatGPT Pro。這項每月 200 美元的訂閱服務是訪問他們最強大的新模型(o1 Pro)的唯一途徑。

由於 o1 系列(以及「o 系列」未來的模型)背後的訣竅是投入更多的計算時間來獲得更好的結果,我認為那些能免費就能訪問到最頂級的模型的日子,應該不會再回來了。

AI 「智慧體」可能還有點遠

說實話,AI Agents 這個詞讓我很頭疼。它沒有一個統一、清晰且被廣泛認可的定義。更糟的是,用這個詞的人似乎從來不承認這一點。

如果你告訴我你在開發 AI Agents,這基本上等於什麼都沒說。除非我能讀心,否則我根本不知道,AI Agents 定義有幾十種,你到底在造哪一種?

我看到的 AI Agents 開發者主要有兩類:一類認為 AI Agents 顯然就是替你做事的東西,就像旅行社那樣;另一類人則在想象為大語言模型配備各種工具,讓大模型能夠自主驅動,執行任務。

人們還經常提到「autonomy」這個詞,但同樣也沒說清楚是什麼意思。

(幾個月前我在推特上收集了 211 個定義,我還讓 gemini-exp-1206 試著總結了一下這些定義。)

  • 文件連結:https://lite.datasette.io/?json=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw

不管這個詞到底是什麼意思,AI Agents 總會給人一種「即將成真」的感覺。

撇開術語不談,我對它們的實用性持懷疑態度,原因還是一個老問題:大語言模型很容易「輕信」,它會照單全收你告訴它的一切。

這就暴露出一個關鍵問題:如果一個決策輔助系統連真假都分不清,它還能發揮多大作用?無論是旅行顧問、生活助手,還是研究工具,都會因為這個缺陷而大打折扣。

最近就有一個現成的例子:就在前幾天,谷歌搜尋鬧了個大烏龍。它把粉絲創作網站上一個虛構的《魔法滿屋 2》劇情,當成了真實電影來介紹。

提示注入就是這種「輕信」的必然結果。自 2022 年 9 月以來我們一直在討論這個問題,但 2024 年在解決這個問題上,幾乎沒有什麼進展。

我開始覺得,最流行的 AI Agents 概念其實依賴於通用人工智慧的實現。要讓一個模型能夠抵抗「輕信」,這真是個艱鉅的任務。

評估真的很重要

Anthropic 的 Amanda Askell(負責 Claude 性格塑造的主要工作者)說:

系統提示背後那個無聊但至關重要的秘密就是用測試驅動開發。你不是先寫一個系統提示,然後再想辦法測試它,而是先寫好測試,然後找到一個能透過這些測試的系統提示。

2024 年的經驗告訴我們:在大語言模型應用領域,最重要的核心競爭力是什麼?是一套完善的自動化評估系統。

為什麼這麼說?因為有了它,你就能:搶佔先機,快人一步採用新模型,加速迭代,不斷最佳化產品,確保功能既可靠又實用。

Vercel 的 Malte Ubl 說:

當 @v0 剛推出時,我們非常擔心要用各種預處理和後處理的複雜操作來保護提示。

於是我們徹底轉變思路,給了它充分的發揮空間。但很快就發現:沒有評估標準、沒有模型指導、更沒有使用者體驗的提示,就像拿到一臺沒說明書的 ASML 機器 —— 就算再先進,也無從下手。

我還在探索最適合自己的工作模式。評估的重要性已是共識,但「如何做好評估」這個問題卻仍然缺乏系統性的指導。我一直在透過評估標籤追蹤這方面的進展。我現在用的「鵜鶘騎腳踏車」SVG 基準測試,與那些成熟的評估套件相比,還有很長的路要走。

Apple Intelligence 很糟糕
但 MLX 庫很出色

去年,因為沒有配備 NVIDIA GPU 的 Linux/Windows 機器,我在嘗試新模型的時候遇到了不少阻礙。

從配置上看,64GB 的 Mac 本應該是執行 AI 模型的理想之選 —— CPU 和 GPU 共享記憶體的設計堪稱完美。

但現實很殘酷:當下的 AI 模型在釋出時,基本都是以模型權重和開發庫的形式推出,而這些幾乎只適配 NVIDIA 的 CUDA 平臺。

llama.cpp 生態系統在這方面幫了大忙,但真正的突破是蘋果的 MLX 庫,這是一個「專為 Apple Silicon 設計的陣列框架」。它真的很棒。

蘋果的 mlx-lm Python 支援在我的 Mac 上執行各種 MLX 相容的模型,效能非常出色。Hugging Face 上的 mlx-community 提供了超過 1000 個已轉換為必要格式的模型。

Prince Canuma 開發的優秀且發展迅速的 mlx-vlm 專案也把視覺大語言模型帶到了 Apple Silicon 上。我最近用它執行了 Qwen 的 QvQ。

雖然 MLX 是個改變遊戲規則的東西,但蘋果自己的 Apple Intelligence 功能大多令人失望。我本來非常期待 Apple Intelligence,在我的預測中,我認為蘋果繪專注於做能保護使用者隱私,打造讓使用者清晰明瞭、不會誤解的大語言模型應用。

現在這些功能已經推出,效果相當差。作為一個大語言模型的重度使用者,我知道這些模型能做什麼,而蘋果的大語言模型功能只是提供了一個蒼白的模仿。我們得到的是曲解新聞標題的通知摘要,以及完全沒用的寫作助手工具,不過 emoji 生成器還是挺有意思的。

正在崛起的「推理」模型

2024 年最後一個季度最有趣的進展是一種新型 LLM 的出現,以 OpenAI 的 o1 模型為代表。

要理解這些模型,可以把它們看作是「思維鏈提示」技巧的延伸。這個技巧最早出現在 2022 年 5 月的論文《Large Language Models are Zero-Shot Reasoners》中。

這個技巧主要在說,如果你讓模型在解決問題時「大聲思考」,它往往能得到一些原本想不到的結果。

o1 把這個過程進一步融入到了模型本身。具體細節有點模糊:o1 模型會花費一些「推理 token」來思考問題(使用者看不到這個過程,不過 ChatGPT 介面會顯示一個總結),然後給出最終答案。

這裡最大的創新在於,它開創了一種新的擴充套件模型的方式:不單純地透過增加訓練時的計算量來提升模型效能,而是讓模型在推理時投入更多計算資源來解決更難的問題。

o1 的續作 o3 在 12 月 20 日釋出,o3 在 ARC-AGI 基準測試上取得了驚人成績。不過,從 o3 的鉅額推理成本來看,它可能花掉了超過 100 萬美元的計算成本!

o3 預計將在 1 月份推出。但我覺得很少有人的實際問題需要這麼大的計算開銷,o3 也標誌著 LLM 架構在處理複雜問題時邁出了實質性的一步。

OpenAI 並不是這個領域的「獨角戲」。谷歌在 12 月 19 日也推出了他們的第一個類似產品:gemini-2.0-flash-thinking-exp。

阿里巴巴的 Qwen 團隊在 11 月 28 日釋出了他們的 QwQ 模型,我在自己電腦上就能跑。他們在 12 月 24 日又推出了一個叫 QvQ 的視覺推理模型,我也在本地執行過。

DeepSeek 在 11 月 20 日透過他們的聊天介面提供了 DeepSeek-R1-Lite-Preview 模型試用。

要深入瞭解推理擴充套件,我推薦看看 Arvind Narayanan 和 Sayash Kapoor 寫的《Is AI progress slowing down?》這篇文章。

Anthropic 和 Meta 還沒什麼動靜,不過我賭他們肯定也在開發自己的推理擴充套件模型。Meta 在 12 月發表了一篇相關論文《Training Large Language Models to Reason in a Continuous Latent Space》。

目前最好的 LLM 來自中國
訓練成本不到 600 萬美元?

不完全是,但差不多是。這的確是個吸引眼球的好標題。

今年年底的大新聞是 DeepSeek v3 的釋出,它在聖誕節當天連 README 檔案都沒有就被放到了 Hugging Face 上,第二天就釋出了文件和論文。

DeepSeek v3 是一個龐大的 685B 引數模型,是目前最大的公開授權模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 還要大得多。

基準測試結果表明,它與 Claude 3.5 Sonnet 不相上下。Vibe 基準測試(又稱聊天機器人競技場)目前將其排在第 7 位,僅次於 Gemini 2.0 和 OpenAI 4o/o1 型號。這是迄今為止排名最高的公開授權模型。

DeepSeek v3 真正令人印象深刻的是其訓練成本。該模型在 2,788,000 個 H800 GPU 時內完成了訓練,估計成本為 5,576,000 美元。Llama 3.1 405B 訓練了 30,840,000 個 GPU 小時,是 DeepSeek v3 的 11 倍,但模型的基準效能卻略遜一籌。

美國對中國出口 GPU 的規定似乎激發了一些非常有效的訓練最佳化。

環境影響得到改善

模型(包括託管模型和我可以在本地執行的模型)效率的提高帶來了一個可喜的結果,那就是在過去幾年中,執行 Prompt 的能耗和對環境的影響大大降低了。

與 GPT-3 時代相比,OpenAI 自己的提示詞器收費也降低了 100 倍。我有可靠訊息稱,Google Gemini 和 Amazon Nova(兩家最便宜的模型提供商)都沒有虧本執行提示詞器。

我認為這意味著,作為個人使用者,我們完全不必為絕大多數提示詞消耗的能源感到內疚。與在街上開車,甚至在 YouTube 上看影片相比,其影響可能微乎其微。

同樣,訓練也是如此。DeepSeek v3 的訓練費用不到 600 萬美元,這是一個非常好的跡象,表明訓練成本可以而且應該繼續下降。

對於效率較低的模型,我認為將其能源使用量與商業航班進行比較是非常有用的。最大的 Llama 3 模型的成本約等於從紐約到倫敦的一位數滿載乘客航班。這當然不是一無是處,但一旦經過訓練,該模型就可以供數百萬人使用,而無需額外的訓練成本。

環境影響也變得越來越嚴重

更大的問題在於,未來這些模式所需的基礎設施建設將面臨巨大的競爭壓力。

谷歌、Meta、微軟和亞馬遜等公司都在斥資數十億美元建設新的資料中心,這對電網和環境造成了巨大影響。甚至還有人說要建立新的核電站,但這需要幾十年的時間。

這些基礎設施有必要嗎?DeepSeek v3 的 600 萬美元訓練成本和 LLM 價格的持續暴跌可能暗示了這一點。但是,你是否希望自己成為一名大型科技公司的高管,在幾年後證明自己的觀點是錯誤的情況下,仍然堅持不建設這些基礎設施呢?

一個有趣的比較點是,19 世紀鐵路在世界各地的鋪設方式。修建這些鐵路需要鉅額投資,並對環境造成巨大影響,而且修建的許多線路被證明是不必要的,有時不同公司的多條線路服務於完全相同的路線。

由此產生的泡沫導致了數次金融崩潰,參見維基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英國的鐵路狂熱。它們給我們留下了大量有用的基礎設施,也造成了大量破產和環境破壞。

「泔水」之年

2024 年是「泔水」一詞成為藝術術語的一年。我在 5 月份寫過一篇文章,對 @deepfates 的這條推文進行了擴充套件:

實時觀察「泔水」如何成為一個藝術術語。就像「垃圾郵件」成為不受歡迎電子郵件的專有名詞一樣,「泔水」也將作為人工智慧生成的不受歡迎內容的專有名詞被載入字典。

我把這個定義稍微擴充套件了一下:

「泔水」指的是人工智慧生成的未經請求和審查的內容。

最後,《衛報》和《紐約時報》都引用了我關於泔水的論述。

以下是我在《紐約時報》上說的話:

社會需要簡明扼要的方式來談論現代人工智慧,無論是正面的還是負面的。「忽略那封郵件,它是垃圾郵件 」和「忽略那篇文章,它是泔水」都是有用的教訓。

我喜歡「泔水」這個詞,因為它簡明扼要地概括了我們不應該使用生成式 AI 的一種方式。

「泔水」甚至還入選了 2024 年牛津年度詞彙,但最終輸給了「腦腐」。

合成訓練資料很有效

「模型崩潰」的概念,似乎出人意料地在公眾意識中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了這一現象。2024 年 7 月,《自然》雜誌以更醒目的標題重複了這一現象:在遞迴生成的資料上進行訓練時,人工智慧模型會崩潰。

這個想法很有誘惑力:隨著人工智慧生成的「泔水」充斥網際網路,模型本身也會退化,將以一種導致其不可避免滅亡的方式吸收自己的輸出。

這顯然沒有發生。相反,我們看到人工智慧實驗室越來越多地在合成內容上進行訓練 — 有意識地建立人工資料,以幫助引導他們的模型走向正確的道路。

我所見過的對此最好的描述之一來自 Phi-4 技術報告,其中包括以下內容:

合成資料作為預訓練的重要組成部分正變得越來越普遍,Phi 系列模型也一直強調合成資料的重要性。與其說合成資料是有機資料的廉價替代品,不如說合成資料與有機資料相比有幾個直接優勢。

結構化學習和逐步學習。在有機資料集中,token 之間的關係往往復雜而間接。可能需要許多推理步驟才能將當前標記與下一個 token 聯絡起來,這使得模型很難有效地學習下一個 token 的預測。相比之下,語言模型生成的每個 token 顧名思義都是由前面的標記預測的,這使得模型更容易遵循由此產生的推理模式。

另一種常見的技術是使用較大的模型為較小、較便宜的模型建立訓練資料,越來越多的實驗室都在使用這種技巧。DeepSeek v3 使用了 DeepSeek-R1 建立的「推理」資料。Meta 的 Llama 3.3 70B 微調使用了超過 2500 萬個合成生成的示例。

精心設計進入 LLM 的訓練資料似乎是建立這些模型的關鍵所在。從網路上抓取全部資料並不加區分地將其投入訓練執行的時代已經一去不復返了。

LLM 不知何故變得更難用了

我一直在強調,LLM 是強大的使用者工具,它們是偽裝成菜刀的電鋸。它們看起來簡單易用,給聊天機器人輸入資訊能有多難?但實際上,要充分利用它們並避免它們的許多陷阱,你需要有深厚的理解力和豐富的經驗。

如果說在 2024 年,這個問題變得更加嚴重的話,好訊息是我們已經建立了可以用人類語言與之對話的計算機系統,它們會回答你的問題,而且通常都能答對。這取決於問題的內容、提問的方式,以及問題是否準確地反映在未記錄的秘密訓練集中。

可用系統的數量激增。不同的系統有不同的工具,它們可以用來解決你的問題,比如 Python、JavaScript、網路搜尋、影像生成,甚至資料庫查詢。所以你最好了解這些工具是什麼,它們能做什麼,以及如何判斷 LLM 是否使用了它們。

你知道 ChatGPT 現在有兩種完全不同的 Python 執行方式嗎?

想要構建一個與外部 API 對話的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 標頭。

模型可能變得更強大了,但大多數限制卻沒有改變。OpenAI 的 o1 也許終於能大部分計算「Strawberry」中的 R,但它的能力仍然受限於其作為 LLM 的性質,以及它所執行的線束對它的限制。O1 不能進行網路搜尋,也不能使用 Code Interpreter,但 GPT-4o 卻可以 —— 兩者都在同一個 ChatGPT UI 中。(如果你要求,o1 會假裝做這些事,這是 2023 年初 URL 幻覺 bug 的迴歸)。

我們對此有何對策?幾乎沒有。

大多數使用者都被扔進了深水區。預設的 LLM 聊天 UI 就像是把全新的電腦使用者扔進 Linux 終端,然後指望他們自己能搞定一切。

與此同時,終端使用者對這些裝置的工作原理和功能所形成的不準確的心理模型也越來越常見。我見過很多這樣的例子:有人試圖用 ChatGPT 的截圖來贏得爭論 — 這本來就是一個可笑的命題,因為這些模型本來就不可靠,再加上只要你正確提示,就能讓它們說任何話。

這也有一個反面:很多見多識廣的人已經完全放棄了 LLM,因為他們不明白怎麼會有人能從一個有如此多缺陷的工具中獲益。要想最大限度地利用 LLM,關鍵在於學會如何使用這種既不可靠又強大無比的技術。這是一項絕對不顯而易見的技能!

在這裡,有用的教育內容大有可為,但我們需要做得更好,而不是將其全部外包給那些在推特上狂轟濫炸的人工智慧騙子。

知識分佈不均勻

現在,大多數人都聽說過 ChatGPT。有多少人聽說過 Claude?

積極關注這些內容的人與 99% 不關注這些內容的人之間存在著巨大的知識鴻溝。

變革的速度也無濟於事。就在上個月,我們看到實時介面的普及,你可以將手機攝像頭對準某樣東西,然後用聲音談論它...... 還可以選擇讓它假裝成聖誕老人。大多數自我認證的 nerd 甚至還沒試過這個。

鑑於這項技術對社會的持續及潛在影響,我不認為這種差距的存在是健康的。我希望看到更多的努力來改善這種狀況。

LLM 需要更好的批評

很多人都非常討厭這種東西。在我混跡的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶爾在 Hacker News),即使提出「LLM 很有用」,也足以引發一場大戰。

我明白不喜歡這項技術的理由有很多:環境影響、訓練資料(缺乏)道德、缺乏可靠性、負面應用、對人們工作的潛在影響。

LLM 絕對值得批評。我們需要對這些問題進行討論,找到緩解這些問題的方法,幫助人們學會如何負責任地使用這些工具,使其正面應用大於負面影響。

我喜歡對這些東西持懷疑態度的人。兩年多來,炒作的聲音震耳欲聾,大量的「假冒偽劣商品」和錯誤資訊充斥其中。很多錯誤的決定都是在這種炒作的基礎上做出的。敢於批評是一種美德。

如果我們想讓有決策權的人在如何應用這些工具方面做出正確的決定,我們首先需要承認確實有好的應用,然後幫助解釋如何將這些應用付諸實踐,同時避免許多非實用性的陷阱。

(如果你仍然認為根本沒有什麼好的應用,那我就不知道你為什麼能讀完這篇文章了!)。

我認為,告訴人們整個領域都是環境災難性的剽竊機器,不斷地胡編亂造,無論這代表了多少真理,都是對這些人的傷害。這裡有真正的價值,但實現這種價值並不直觀,需要指導。我們這些瞭解這些東西的人有責任幫助其他人弄明白。

參考內容:
https://simonwillison.net/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet

相關文章