AI好好用報導
省流版結論:有進步,但聯絡實際的題目還是歇菜。
生活會欺騙你,但數學不會,數學不會就是不會。
這個段子,在大模型身上同樣成立。
9.9 和 9.11 哪個大、strawberry 有幾個 r,如此簡單的題目曾難倒一群大模型。
本著哪裡薄弱補哪裡的原則,大模型們近來「卷」起了數學推理。
先是 Kimi 網頁端上線了首個數學模型 k0-math ,直接對標 OpenAI 的 o1-mini 和 o1-preview。
據 Kimi 官方介紹,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。
沒隔幾天,崑崙萬維和阿里均推出了自家 o1 模型。
其中,崑崙萬維表示其 Skywork o1 系列模型,在各項數學指標上實現顯著提升。
而阿里聲稱最新的 QwQ-32B-preview 在 GPQA 上擊敗了 o1-mini。
半個月前,夸克釋出 AI 搜題功能,其背後的「靈知」學習大模型,號稱在考研數學題上的正確率和得分率可以比肩 o1 模型。
還有一直跟數學「死磕」的學而思,推出的九章大模型一度成為家長輔導孩子的「利器」。
接下來,我們就測評一下這些大模型的真實數學水平。
對標選手 ——
OpenAI 的 o1-mini、o1-preview
踢館選手 ——
月之暗面 Kimi 的 k0-math:
在 Kimi Web 版的側邊欄,找到 👓 圖示,點選進入。
學而思九章大模型:
https://playground.xes1v1.cn/MathGPT
阿里 QwQ-32B-preview:
https://huggingface.co/spaces/Qwen/QwQ-32B-preview
夸克靈知大模型:
可在夸克 App 或夸克 PC 端,點選「AI 搜題」呼叫。
-1-
小學數學題
別看不起小學數學題。
小學數學多神題,大模型也最容易栽跟頭。
小明 120 元買了一隻雞,130 元賣出去,150 元再買回來,160 元又賣出去,問:一共賺了多少錢?
答案:20 元。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
一個西瓜進價 20 元,賣了 40 元,老闆收了 100 元假幣,問老闆虧了多少錢?
答案:虧 80 元。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
一段長 100 米的鐵路,用 10 米長的鐵軌鋪,要多少根鐵軌?
答案:20 根。一條火車軌道的鐵軌有兩條,所以要用到 20 根。這道題不僅考驗數學能力,同時還要能結合實際生活。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
-2-
初中數學題
某工程隊承接一隧道工程,在挖掘一條 1000 米長的隧道時,為了儘快完成,實際施工時每天挖掘的長度是原計劃的 2 倍,結果提前了 50 天完成了其中 800 米的隧道挖掘任務。求實際每天挖掘多少米?
答案:實際每天挖掘 16 米。
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
阿里 QwQ-32B-preview:
總結:
-3-
高中數學題
答案選:B
由於 Kimi、o1-mini、o1-preview、QwQ-32B-preview 無法上傳圖片,而題目中數學符號又難以輸入,所以我們截圖後,用 Kimi 常規版將其轉為 LaTeX 格式:
\item 已知函式為 $f (x) = \left\{
\begin {array}{ll}
-x^2 - 2ax - a, & x < 0 \\
e^x + \ln (x + 1), & x \geq 0
\end {array}
\right.$,在 $\mathbb {R}$ 上單調遞增,則 $a$ 取值的範圍是 ()
\begin {enumerate}
\item A. $(-\infty, 0]$
\item B. $[-1, 0]$
\item C. $[-1, 1]$
\item D. $[0, +\infty)$
\end {enumerate}
o1-mini:
o1-preview:
Kimi 的 k0-math:
學而思九章大模型:
夸克靈知大模型:
由於該題目已在夸克的題庫中,因此無法呼叫靈知大模型,以下為夸克常規搜題的結果。
阿里 QwQ-32B-preview:
總結:
從最終測試結果來看,經過幾個月來的進化,國產大模型在數學方面確實有了很大的進步。
在常規數學題上,o1-mini 和 o1-preview 頻頻翻車,反倒是國產大模型發揮穩定。
不過,對於聯絡生活實際的題目,大模型們仍搞不定。比如計算鐵軌那道題,國內外大模型們「全軍覆沒」。
此外,在做數學題時,這些大模型們的「腦回路」並不太一樣。
相較而言,Kimi 的 k0-math 和阿里 QwQ-32B-preview 做題時更加謹慎,它們得出答案後,會不斷驗證,並思考其他可能漏掉的情況。
學而思九章大模型則是先分析題目,然後解題並進行知識歸納,同時還提供了答案置信度。
夸克AI搜題的一大特色在於同一道題目提供多種解題思路,並可透過對話進一步請教相關知識點。