大模型的高考數學成績單:及格已經非常好了

机器之心發表於2024-06-11
讓考生頭皮發麻的高考數學,可難倒了頂尖 AI 大模型。
一年一度的高考即將落幕,衷心希望各位考生都超常發揮,考出滿意的好成績!!

和往年一樣,除了讓 AI 大模型寫寫高考作文,我們也選取了六家國內頭部大模型公司的產品與考生們一同參與一場客觀且公平(讓眾多考生頭皮發麻)的高考數學考試(新課標 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小應(百川 4)以及通義千問 2.5。

先來瞧一瞧這份「大模型成績單」:

圖片

令人驚訝的是,在這次模擬考試中,大模型(產品)的表現並未達到預期,甚至出現了幾乎全部不及格的情況,只有智譜最新發布的 GLM-4-0520 模型超過了及格線。

對大模型產品來說,高考語文作文可以直接測試它們的創造性寫作技巧,包括構思、組織和表達觀點的能力。

而在數學考試測試中,除了基本的計算能力、對數學知識的掌握,更能體現大模型在邏輯推理、抽象思維和問題解決方面的高階能力。大模型必須理解並運用數學概念、公式和定理,這要求它具備深厚的數學知識基礎。同時,邏輯推理能力是解答數學題目的關鍵,大模型需要透過嚴密的邏輯推導來解決問題。

具體測試環節:

我們將評測的重點放在了高考數學的前 14 個客觀題上,這些題目覆蓋了基礎的數學知識和計算能力,滿分為 73 分。在測試時,我們將題目直接輸入產品,不做 System Prompt 引導,直接輸出結果;同時也沒有觸發搜尋,沒有來自外界的干擾。

分數計算方法依照高考真實判分原則:

  • 單選題 8 道,每道 5 分,選項正確計分,錯誤不得分;
  • 多選題 3 道,每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;
  • 填空題,3 道,每道 5 分,填空正確計分,錯誤不得分。

圖片

圖|8 個模型對 14 道數學題的回答結果,綠色為正確、紅色為錯誤、黃色為部分正確

具體而言,在滿分 73 分、及格線為 43.8 分(60%)的情況下,六家大模型產品的分數結果分別為:GLM-4-0520 (63 分) > 智譜清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通義千問 2.5 (29 分)

多說一句,每年的第 8 道單選題往往是高考數學卷中最難的一道題,被測試的大模型都 “全軍覆滅” 了

完整測試結果如下:

單選題一

6個模型回答正確,1個回答錯誤)

GPT-4o:正確

圖片

通義千問 2.5:正確

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:正確

圖片

文心 4:錯誤

圖片

百川 4:正確

圖片

單選題二

(3個模型回答正確,4個回答錯誤)

GPT-4o:錯誤

圖片

通義千問 2.5:正確

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:錯誤

圖片

文心 4:錯誤

圖片

百川 4:錯誤

圖片

單選題三

(全部回答正確)

GPT-4o:正確圖片
通義千問 2.5:正確

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:正確

圖片

文心 4:正確

圖片

百川 4:正確

圖片

單選題四

(全部回答正確)

GPT-4o:正確

圖片

通義千問 2.5:正確

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:正確

圖片

文心 4:正確

圖片

百川 4:正確

圖片

單選題五

(6個模型回答正確,一個無響應)

GPT-4o:正確

圖片

通義千問 2.5:無響應,最終提示系統超時

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:正確

圖片

文心 4:正確

圖片

百川 4:正確

圖片

單選題六

(6個模型回答正確,一個回答錯誤)

GPT-4o:錯誤

圖片

通義千問:正確

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:正確

圖片

文心 4:正確

圖片

百川 4:正確

圖片

單選題七

(6個模型回答正確,一個回答錯誤)

GPT-4o:正確

圖片

通義千問 2.5:錯誤

圖片

GLM-4-0520:正確

圖片

智譜清言:正確

圖片

豆包:正確

圖片

文心 4:正確

圖片

百川 4:正確

圖片

單選題八
(7個模型無一得出正確答案)

GPT-4o:錯誤

圖片

通義千問2.5:錯誤

圖片

GLM-4-0520:錯誤

圖片

智譜清言:錯誤

圖片

豆包:錯誤

圖片

文心 4:錯誤

圖片

百川 4:錯誤

圖片

多選題一

(3個回答正確,2個部分正確,2個錯誤)

GPT-4o:正確

圖片

通義千問 2.5:錯誤

圖片

GLM-4-0520:正確

圖片

智譜清言:部分正確

圖片

豆包:正確

圖片

文心 4:部分正確

圖片

百川 4:錯誤

圖片

多選題二
2個模型回答部分正確,5個回答錯誤

GPT-4o:錯誤
圖片
通義千問 2.5:錯誤

圖片

GLM-4-0520:部分正確

圖片

智譜清言:部分正確

圖片

豆包:錯誤

圖片

文心 4:錯誤

圖片

百川 4:錯誤

圖片

多選題三
5個模型回答部分正確,2個回答錯誤

GPT-4o:錯誤

圖片

通義千問 2.5:部分正確

圖片

GLM-4-0520:部分正確

圖片

智譜清言:部分正確

圖片

豆包:部分正確

圖片

文心 4:部分正確

圖片

百川 4:錯誤

圖片

填空題一
2個模型回答正確,5個回答錯誤

GPT-4o:正確

圖片

通義千問 2.5:錯誤

圖片

GLM-4-0520:正確

圖片

智譜清言:錯誤

圖片

豆包:錯誤

圖片

文心 4:錯誤

圖片

百川 4:錯誤

圖片

填空題二
1個模型回答正確,6個回答錯誤

GPT-4o:錯誤

圖片

通義千問 2.5:錯誤

圖片

GLM-4-0520:正確

圖片

智譜清言:錯誤

圖片

豆包:錯誤

圖片

文心 4:錯誤

圖片

百川 4:錯誤

圖片

填空題三
2個模型回答正確,5個回答錯誤

GPT-4o:正確

圖片

通義千問 2.5:錯誤

圖片

GLM-4-0520:正確

圖片

智譜清言:錯誤

圖片

豆包:錯誤

圖片

文心 4:錯誤

圖片

百川 4:錯誤

圖片

相關文章