4o-mini只有8B,Claude 3.5 Sonnet有175B,微軟論文「透露」了下頂級模型引數

机器之心發表於2025-01-02
剛剛,X 上的一則推文受到了大家的廣泛討論,瀏覽量迅速增長。原來,OpenAI 釋出的 GPT-4o-mini 居然是一個僅有 8B 引數的模型?
圖片
圖源:https://x.com/Yuchenj_UW/status/1874507299303379428

事情是這樣的。就在前幾天,微軟和華盛頓大學合作完成了一篇論文《MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES 》。
圖片
論文地址:https://arxiv.org/pdf/2412.19260

這篇論文主要介紹了一個用於檢測和糾正臨床記錄中醫療錯誤的公開基準測試 MEDEC1,其包含 3,848 個臨床文字。論文描述了資料建立方法,並評估了近期的 LLMs(例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash)在檢測和糾正需要醫學知識和推理能力的醫療錯誤任務上的表現。

因為要進行實驗,因而在論文實驗部分出現了眾多模型的引數量,如下所示。
圖片
此前,有些模型的引數量都是未知的,也是大家比較好奇的。

此外,在這部分內容底下,微軟還列出了一句宣告「大多數模型引數的數量是估計的」。
圖片
透過這張圖,我們不難發現,除了 GPT-4o-mini,大家還發現了其他模型的大小,比如:

  • Claude 3.5 Sonnet: 175B;
  • GPT-4: 1.76T;
  • GPT-4o: 200B;
  • o1-preview: 300B;
  • o1-mini: 200B。

結果部分也是將模型引數分為多個等級:
圖片
但是在這個推文下面大家討論的非常激烈,主要圍繞微軟對模型大小的估計到底準不準確。

前面我們已經提到,模型引數都是估計出來的。因此有網友表示「就算微軟確實知道,但並不代表微軟 99% 的員工都知道。」「有 98% 的可能性是他們只是微軟僱傭的研究人員,但與有權訪問 OpenAI 的團隊沒有任何聯絡。」
圖片
圖片
「感覺這些數字只是作者的猜測,因為他們沒有解釋他們是如何估計的。」不過這位網友強調的這一點,論文確實說明了引數是估計的。
圖片
還有網友表示這篇論文將 Claude 3.5 Sonnet 估計為 175B 有點扯。
圖片
「Claude 不可能只有 175B,我敢打賭它接近這個數字的兩倍。尤其是自 deepseek-v3 釋出以來,其記憶體大小達到 671B,而 Claude 的表現輕鬆超越了後者。」
圖片
「我敢打賭 4o-mini 是一個 MoE 模型,總共有大約 400 億個引數,可能有 80 億個啟用引數。我發現它比 80 億個引數的模型擁有更多的知識(當詢問事實時),同時速度相當快。」
圖片
還有網友認為這是一個合理的猜測。訊息畢竟出自微軟。
圖片
討論來討論去,最後的結論依然是沒有結論,你怎麼看這篇論文給出的資料呢?

相關文章