9.11和9.9誰大?我們實測15個大模型,超半數翻車

机器之能發表於2024-07-18

機器之能報導

編輯:楊文

大模型們還是搞不定簡單的數學題。

這幾天,一個測試大模型「腦瓜」靈不靈光的提示詞火了 ——

9.11 和 9.9 哪個大?

這道連小學生都能一口答對的數學題,卻難倒一片大模型界的「英雄好漢」。

事情是這樣的。

Scale AI 的高階提示工程師 Riley Goodside 拿「9.11 and 9.9——which is bigger?」這個提示詞來問 GPT-4o,卻得到「前者更大」的回答。其他大模型也紛紛翻車。

7 月 17 日,我們拿國內 12 款大模型,外加國外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 進行了集中評測。以下是評測結果:

圖片

接下來,我們就看一下詳細的的測評過程。

-1-

GPT-4o

GPT-4o 翻車翻得相當徹底。

我們先用英文提示詞問了一遍 GPT-4o,它仍然認為 9.11 大於 9.9,然後我們分別用中英文問它二者相差多少,全部回答錯誤。

圖片


圖片

-2-

Claude-3.5-Sonnet

我們用同樣的套路問了 Claude-3.5-Sonnet,可不管如何問,它都在錯誤的道路上矇眼狂奔。其中,在比較小數部分時,它明明知道 0.9 比 0.11 大,但最後仍得出錯誤結論。

圖片


圖片

-3-

Gemini

谷歌 Gemini 也強不到哪裡去,用英文問了兩遍二者誰大,第一次它給出了正確答案,但第二次就認為相同整數的情況下,小數位數越多表示數字越大。

我們用中文問了一遍,谷歌 Gemini 結合實際生活具體場景比較大小,例如,從時間角度來看,9.11 通常是指 9・11 事件,而 9.9 則通常指 9 點 9 分,因此 9.11 比 9.9 意義更大。

當問到二者相差多少時,Gemini 得出了負數。

圖片


圖片


圖片


圖片


圖片

-4-

百度文心一言

面對 9.11 和 9.9 誰大時,文心 3.5 回答正確;當我們問它二者相差多少時,它繞了一大圈,終於給了正確結論。

圖片


圖片

-5-

阿里通義千問

阿里通義千問全部答對。

圖片


圖片

-6-

位元組豆包

我們問 9.11 和 9.9 誰大,豆包分析得頭頭是道,還能將其置於日常生活場景中。例如,跑步比賽選手用時 9.11 秒和 9.9 秒,意味著 9.11 秒速度更快;從價格的角度來看,9.9 元的商品更貴。不過,一到結論它就回答錯誤。

至於二者相差多少,豆包倒是回答正確。

圖片


圖片

-7-

騰訊元寶

騰訊元寶面對這道題目時則觸發了搜尋功能,引用了 7 篇資料作為參考,最終回答正確。

然而,9.11 和 9.9 相差多少,元寶等式列對了,就是算數竟算出小數點後 16 位。

圖片


圖片

-8-

智譜清言

智譜清言錯誤地認為兩位小數表示的數值比一位小數要大,導致回答錯誤。問到二者相差多少時,它算出個負數。

它還不忘說一句「很多 AI 模型出錯可能是因為在處理數字和小數點時的演算法缺陷」。

圖片


圖片

-9-

月之暗面 - Kimi

Kimi 這把也歇菜了,不僅分不清誰大,還把 9.11-9.9 算出 0.21。

圖片


圖片


-10-

科大訊飛星火

訊飛星火答對了。

圖片


圖片

-11-

百川智慧 - 百小應

百小應錯誤地認為 9.11 更大,不過算二者差值算對了。

圖片


圖片

-12-

階躍星辰 - 躍問

躍問在一開始的分析中沒問題,但後來把自己繞暈了,搞了個「反轉結論」,導致最終答案錯誤。

當我們再次問它為什麼時,它恍然大明白,糾正了錯誤,並正確算出二者的差值。

圖片


圖片

-13-

商湯 - 商量

兩個問題回答錯誤。

圖片


圖片

-14-

崑崙萬維 - 天工

回答正確。

圖片


圖片

-15-

零一萬物 - 萬知

兩個問題回答錯誤。

圖片


圖片

大模型們為何連簡單的數學常識題都搞不定呢?我們採訪了通義實驗室產品經理王曉明。

據王曉明介紹,大模型基於 Transformer 架構實現,本質是做 next token prediction,而非直接進行算術計算,因此在處理比大小等簡單數學題目時,依賴於預測模型的成功率。

此外,在處理類似「9.11 比 9.9 大」的場景時,大模型通常會透過分詞器 tokenizer 進行處理。分詞器在解析這類表達時,可能會把數字辨認為日期或版本號進行比較,最終導致回答錯誤。這種處理方式是由分詞器的特定演算法和機制決定的。

在實測過程中,我們還發現,不少大模型在首次回答時可能會提供錯誤答案。然而,當進行第二輪提問時,這些模型往往能夠給出正確答案。

針對這一問題,王曉明認為主要由三個原因造成。

一是由於預測過程具有一定的隨機性,導致第二輪相較於第一輪更加準確。

二是大模型具備較強的上下文理解能力,它們能夠根據之前的回答和訂正資訊,重新生成更準確的答案。

三是提問者的引導方式也會影響大模型的回答結果,例如使用限定詞、提供清晰語境以及指導模型遵循特定指令等方法均有助於提高得到正確答案的機率。

他還表示,提高大模型數學能力的核心在於提供高質量的資料支援,特別是在數學計算和邏輯推理方面。例如,通義千問針對這類場景,有針對性地加入高質量資料進行訓練,使得面對此類問題時保持較高準確率

以後我們會帶來更多AI大模型、AI應用的一手評測,也歡迎大家進群交流。


圖片

相關文章