大模型的高考數學成績單:及格已經非常好了
机器之心發表於2024-06-11
讓考生頭皮發麻的高考數學,可難倒了頂尖 AI 大模型。
一年一度的高考即將落幕,衷心希望各位考生都超常發揮,考出滿意的好成績!!和往年一樣,除了讓 AI 大模型寫寫高考作文,我們也選取了六家國內頭部大模型公司的產品與考生們一同參與一場客觀且公平(讓眾多考生頭皮發麻)的高考數學考試(新課標 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小應(百川 4)以及通義千問 2.5。令人驚訝的是,在這次模擬考試中,大模型(產品)的表現並未達到預期,甚至出現了幾乎全部不及格的情況,只有智譜最新發布的 GLM-4-0520 模型超過了及格線。對大模型產品來說,高考語文作文可以直接測試它們的創造性寫作技巧,包括構思、組織和表達觀點的能力。而在數學考試測試中,除了基本的計算能力、對數學知識的掌握,更能體現大模型在邏輯推理、抽象思維和問題解決方面的高階能力。大模型必須理解並運用數學概念、公式和定理,這要求它具備深厚的數學知識基礎。同時,邏輯推理能力是解答數學題目的關鍵,大模型需要透過嚴密的邏輯推導來解決問題。我們將評測的重點放在了高考數學的前 14 個客觀題上,這些題目覆蓋了基礎的數學知識和計算能力,滿分為 73 分。在測試時,我們將題目直接輸入產品,不做 System Prompt 引導,直接輸出結果;同時也沒有觸發搜尋,沒有來自外界的干擾。- 單選題 8 道,每道 5 分,選項正確計分,錯誤不得分;
- 多選題 3 道,每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;
- 填空題,3 道,每道 5 分,填空正確計分,錯誤不得分。
圖|8 個模型對 14 道數學題的回答結果,綠色為正確、紅色為錯誤、黃色為部分正確具體而言,在滿分 73 分、及格線為 43.8 分(60%)的情況下,六家大模型產品的分數結果分別為:GLM-4-0520 (63 分) > 智譜清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通義千問 2.5 (29 分)。多說一句,每年的第 8 道單選題往往是高考數學卷中最難的一道題,被測試的大模型都 “全軍覆滅” 了。(6個模型回答正確,1個回答錯誤)
GPT-4o:正確相關文章
- 成績單:Windows 7 - XP模式成績不及格
2009-05-07
Windows模式 - IT大佬高考成績單:李彥巨集是狀元 馬雲數學僅1分
2015-06-08
- 華瑞IT學校:成績不好,不想高考學什麼好?
2021-08-25
- 將大模型能力融入 7 大產品,百度智慧雲交出「企業大模型應用成績單」
2024-03-27
大模型 - 數字中國已經成為中國數字經濟的時代符號
2015-12-20
符號 - AI大模型已經出現不可預測的能力
2023-04-03
AI大模型 - 3、查詢平均成績大於等於60分的同學的學生編號和學生姓名和平均成績
2020-10-05
- 財務RPA:你的發票已經處理好了
2021-11-26
- DT財經:亞馬遜黑五成績單中的中國海淘黨真相
2015-12-10
亞馬遜 - 學生成績錄入系統,需要判斷成績格式合格,使用throw彈出,最後並列印全班成績單
2020-11-28
- Fedora 31 已經為 Python 3.8 做好了準備
2019-02-15
Python - 學位證書文憑學歷認證Q/微29304199修改GPA成績倫敦政治經濟學院畢業證成績單LSE畢業證成績單英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公
2019-10-06
- 豆包大模型披露評測成績,較上一代“雲雀”提升19%
2024-05-24
大模型 - 2020年,拳頭遊戲已經在幕後擺好了一盤大棋
2019-11-12
遊戲 - 電子遊戲已經成為一種新的文學形式
2020-01-10
遊戲 - 經典教師 學生 成績sql面試題再次來襲2
2019-08-26
SQL面試題 - 國產大模型參加高考,同寫2024年高考作文,及格分(通義千問、Kimi、智譜清言、Gemini Advanced、Claude-3-Sonnet、GPT-4o)
2024-06-07
大模型GPT - 2024數學高考壓軸題
2024-06-22
- 消失的數字;及格點數目分析
2013-08-28
- 高考數學常用數學思想:函式與方程思想,在數列中的應用
2017-11-16
函式 - 17歲中專生薑萍數學競賽成績可信嗎?
2024-06-22
- 星環科技孫元浩:語料已經是大模型最大的挑戰
2024-06-16
大模型 - 學位證書文憑學歷認證Q/微29304199修改GPA成績倫敦大學瑪麗皇后學院畢業證成績單QMUL畢業證成績單offer英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公正
2019-10-06
- 這個大模型,真的治好了我的論文閱讀障礙
2024-08-12
大模型 - 微信曬3年成績單叫板阿里
2015-08-31
阿里 - 德國經濟研究院:研究發現音樂或能提高學習成績
2014-10-31
- 學位證書文憑學歷認證Q/微29304199修改GPA成績杜倫大學文憑畢業證成績單Durham畢業證成績單offer英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公正
2019-10-06
- 學位證書文憑學歷認證Q/微29304199修改GPA成績利茲大學文憑畢業證成績單Leeds畢業證成績單offer英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公正
2019-10-06
- 華瑞IT學校:高考失敗,卻成為高薪白領
2021-06-30
高薪 - 準備好了嗎?人工智慧已經到來!–(附報告下載)
2016-10-21
人工智慧 - 掌握聰明的學習方法,才能獲得好成績
2018-10-18
- 關於我學習成績的幾個小故事
2016-06-14
- 美國國家經濟研究局:研究發現顏值與學習成績成正比
2019-10-29
- 25張不可思議的數學知識動圖,早點看到這數學動圖,我數學及格了
2018-11-16
- 《Nature Communications》:分析顯示男女數學成績幾乎沒有差異
2018-09-27
- 學位證書文憑學歷認證Q/微29304199修改GPA成績北安普頓大學文憑畢業證成績單UoN畢業證成績單offer英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公正
2019-10-12
- 學位證書文憑學歷認證Q/微29304199修改GPA成績諾丁漢特倫特大學文憑畢業證成績單NTU畢業證成績單offer英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公正
2019-10-12
- 學位證書文憑學歷認證Q/微29304199修改GPA成績諾森比亞大學文憑畢業證成績單NU畢業證成績單offer英國大學學歷,雅思託福成績單,在讀證明/留信網認證/使館認證公正
2019-10-12