AI偏科的毛病「治」得咋樣了?我們實測了6款大模型

AI好好用發表於2024-12-02

AI好好用報導

編輯:楊文
省流版結論:有進步,但聯絡實際的題目還是歇菜。

生活會欺騙你,但數學不會,數學不會就是不會。

這個段子,在大模型身上同樣成立。

9.9 和 9.11 哪個大、strawberry 有幾個 r,如此簡單的題目曾難倒一群大模型。

本著哪裡薄弱補哪裡的原則,大模型們近來「卷」起了數學推理。

先是 Kimi 網頁端上線了首個數學模型 k0-math ,直接對標 OpenAI 的 o1-mini 和 o1-preview。

圖片

據 Kimi 官方介紹,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。

沒隔幾天,崑崙萬維和阿里均推出了自家 o1 模型。

其中,崑崙萬維表示其 Skywork o1 系列模型,在各項數學指標上實現顯著提升。

而阿里聲稱最新的 QwQ-32B-preview 在 GPQA 上擊敗了 o1-mini。

半個月前,夸克釋出 AI 搜題功能,其背後的「靈知」學習大模型,號稱在考研數學題上的正確率和得分率可以比肩 o1 模型。

還有一直跟數學「死磕」的學而思,推出的九章大模型一度成為家長輔導孩子的「利器」。

接下來,我們就測評一下這些大模型的真實數學水平。

對標選手 ——

OpenAI 的 o1-mini、o1-preview

踢館選手 ——

月之暗面 Kimi 的 k0-math:

在 Kimi Web 版的側邊欄,找到 👓 圖示,點選進入。

學而思九章大模型:

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview:

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克靈知大模型:

可在夸克 App 或夸克 PC 端,點選「AI 搜題」呼叫。


-1-

小學數學題

別看不起小學數學題。

小學數學多神題,大模型也最容易栽跟頭。




小明 120 元買了一隻雞,130 元賣出去,150 元再買回來,160 元又賣出去,問:一共賺了多少錢?
答案:20 元。

o1-mini:

圖片

o1-preview:

圖片

Kimi 的 k0-math:

圖片

學而思九章大模型:

圖片

夸克靈知大模型:

圖片

阿里 QwQ-32B-preview:

圖片

總結:

圖片





一個西瓜進價 20 元,賣了 40 元,老闆收了 100 元假幣,問老闆虧了多少錢?
答案:虧 80 元。

o1-mini:

圖片

o1-preview:

圖片

Kimi 的 k0-math:

圖片

學而思九章大模型:

圖片

夸克靈知大模型:

圖片

阿里 QwQ-32B-preview:

圖片

總結:

圖片





一段長 100 米的鐵路,用 10 米長的鐵軌鋪,要多少根鐵軌?
答案:20 根。一條火車軌道的鐵軌有兩條,所以要用到 20 根。這道題不僅考驗數學能力,同時還要能結合實際生活。

o1-mini:

圖片

o1-preview:

圖片

Kimi 的 k0-math:

圖片

學而思九章大模型:

圖片

夸克靈知大模型:

圖片

阿里 QwQ-32B-preview:

圖片

總結:

圖片


-2-

初中數學題




某工程隊承接一隧道工程,在挖掘一條 1000 米長的隧道時,為了儘快完成,實際施工時每天挖掘的長度是原計劃的 2 倍,結果提前了 50 天完成了其中 800 米的隧道挖掘任務。求實際每天挖掘多少米?
答案:實際每天挖掘 16 米。

o1-mini:

圖片

o1-preview:

圖片

Kimi 的 k0-math:

圖片

學而思九章大模型:

圖片

夸克靈知大模型:

圖片

阿里 QwQ-32B-preview:

圖片

總結:

圖片

-3-

高中數學題

圖片

答案選:B

由於 Kimi、o1-mini、o1-preview、QwQ-32B-preview 無法上傳圖片,而題目中數學符號又難以輸入,所以我們截圖後,用 Kimi 常規版將其轉為 LaTeX 格式:
























 \item 已知函式為 $f (x) = \left\{
        \begin {array}{ll}
            -x^2 - 2ax - a, & x < 0 \\
            e^x + \ln (x + 1), & x \geq 0
        \end {array}
    \right.$,在 $\mathbb {R}$ 上單調遞增,則 $a$ 取值的範圍是 ()
    \begin {enumerate}
        \item A. $(-\infty, 0]$
        \item B. $[-1, 0]$
        \item C. $[-1, 1]$
        \item D. $[0, +\infty)$
    \end {enumerate}

o1-mini:

圖片

o1-preview:

圖片

Kimi 的 k0-math:

圖片

學而思九章大模型:

圖片

夸克靈知大模型:

由於該題目已在夸克的題庫中,因此無法呼叫靈知大模型,以下為夸克常規搜題的結果。

圖片

阿里 QwQ-32B-preview:

圖片

總結:

圖片

從最終測試結果來看,經過幾個月來的進化,國產大模型在數學方面確實有了很大的進步。

在常規數學題上,o1-mini 和 o1-preview 頻頻翻車,反倒是國產大模型發揮穩定。

不過,對於聯絡生活實際的題目,大模型們仍搞不定。比如計算鐵軌那道題,國內外大模型們「全軍覆沒」。

此外,在做數學題時,這些大模型們的「腦回路」並不太一樣。

相較而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做題時更加謹慎,它們得出答案後,會不斷驗證,並思考其他可能漏掉的情況。

學而思九章大模型則是先分析題目,然後解題並進行知識歸納,同時還提供了答案置信度。

夸克AI搜題的一大特色在於同一道題目提供多種解題思路,並可透過對話進一步請教相關知識點。

以後我們會帶來更多AI大模型評測,也歡迎大家進群交流。

相關文章