DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

naojiti發表於2019-04-14

原文網址 : http://blog.itpub.net/31561483/viewspace-2641350/

在這個春光明媚的週末，一部分成年人卻不得不在人間歷劫——輔導孩子寫作業!其中，又以數學這門學科的殺傷力最為強大。

為了挽救在“拋家棄子”邊緣瘋狂試探的家長們，不少K12教育平臺也開始與時俱進，相繼將人工智慧加入了數學輔導豪華服務套餐。

在各種新聞中，AI數學老師的畫風往往是這樣的：

羞辱學渣——只用10分鐘作答2017高考數學全國II卷，拿下100分(總分150分)， “蒙題”都沒這麼快;

碾壓學霸——在日本的大學入學標準考試、SAT等各國“高考”中拿到了超過平均分的成績，向狀元挺近;

取代人類教師——可以依據人為輸入的打分條件，對照答案，在瞬間判斷正誤。效率比人類判卷老師高出好幾個指數級不說，失誤率也更低。

想必令不少家長都心動了吧。在這裡，我們要掃興地說出一個真相——即使是目前最先進的人工智慧系統，數學水平恐怕連高中生都比不上。

DeepMind親自打臉：AI是個數學渣?

這年頭，靠AI判卷打分已經不是什麼新鮮事了，給張標準答案小學生都能幹。但靠AI教做數學題，就很有技術含量了，考驗的則是閱讀、推理、計算、邏輯等等綜合能力，最起碼也得是個“新西方”名師上陣吧。

如果用後者的課時費，請小學生來幫輔導作業，顯然大家都會認為是開玩笑。但要是把小學生換成AI，反而令家長們“不明覺厲”喜掏腰包了。

不過，DeepMind的最新研究結果表明，即使是目前最先進的AI系統，做起數學題來連普通高中生都比不過，是不是有點幻滅?

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

事情是這樣的，DeepMind參考英國16歲學齡兒童的數學考試，為AI(深度神經網路)打造了一個包含200萬道題目的題庫，涵蓋了算術、代數、概率、微積分等各種題型，並派出了迴圈神經網路 (RNN) 和Transformer兩位當下效能最先進的模型參與測試。

結果發現，除了四捨五入、加減法、比較大小、數字排序等等簡單問題之外，在一些涉及因式分解、混合計算之類的高階題目上，AI的表現都不如人類高中生，連及格線都沒達到。

到底咋回事，看看它們是怎麼做題的就知道了。

LSTM和Transformer架構都包含一個編碼器和解碼器。不過在具體運算邏輯上，LSTM會將問題編碼為一系列由鍵和數值代表的具體位置(41+132)，然後解碼器將下一個字元預測並對映出來(173)。

由於有注意力機制的參與，LSTM能夠預先處理一些邏輯上需要先完成的物件，比如知道在計算8 /(1 + 3)時，應該先算出(1 + 3)，這已經有點接近人類進行運算時的推理步驟了。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

Transformer的不同之處在於，它的編碼器能夠把數學題轉換成一個長度相同的序列，然後通過注意力機制與位置完全連線的層嵌入任意數學表示式，然後進行轉換。

這樣做的好處是，Transformer能夠使用相同數量的引數進行更多的計算(改變嵌入函式就可以了)，同時擁有了連續的“內部記憶”，在處理包含多層級、關聯性的混合運算時更有優勢，能夠在更長的序列上給出正確答案。

計算方式搞清楚了，那麼兩位模型的最終成績如何呢?

答案是，非常慘。Transformer模型只答對了14/40個問題，也就相當於E級水平。相比之下LSTM的分數就更慘不忍睹了，放在人類學生身上絕對是要被叫家長的節奏。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

(各個模型處理的引數規模和平均正確率)

AI學數學，到底難在哪兒?

一度在計算能力、決策效率上被AI按在地板上摩擦的人類，總算在數學上挽尊了，DeepMind可算也打臉一次AI了。不過，沾沾自喜不是重點，重點是如果要為AI建立一本數學錯題集的話，這次實驗究竟有哪些值得被記住和補上的短板：

其一是記性太差。

儘管研究人員引入了LTSM和transformer，這是兩個在處理機器翻譯等序列問題時表現優異的拳頭選手，但依然抵不住數學問題的複雜性和語言多樣性的壓力。在一些需要中間值計算的模組中，比如因式分解、多項式函式等等，系統在進行“思考”時記憶力明顯不夠用，符號的遷移性和知識的擴充套件性也因此大受影響，直接影響了結果的準確性。

比如Transformer在計算單純的加減法或乘除法時，準確率高達90%，一旦加減乘除混合在一起，它就有點搞不清先後順序了，正確率就下降到只有50%。這表現連計算器都比不上，說明一旦要拼記性、背函式，機器就比不上人類了。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

另外，有算力，沒知識。

人類在解決數學問題時，應用到的不只有計算能力，還有各種各樣的認知技能。比如理解題幹，需要將文字或圖示轉換為算術運算子;確定解題思路，需要進行推理，從已知的公理中找到最佳策略;具體的運算過程中，必須利用工作記憶來完成運算;保持成績的穩定性，就需要將已學到的知識和規則遷移到同一型別的問題中去……

顯然，神經網路還沒有辦法在“舉一反三”的能力上與人類一較高下，它只能處理一些內部儲存的問題，無法超越已有的環境去理解新的東西。具體到各個實驗專案中，知識遷移能力越強的模型，在統一資料集上的數學成績也就越好。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

這些短板歸根結底，是由數學問題和工程效率的矛盾所導致的。

數學的本質是演繹證明，往往需要架設問題並根據已知抽象出新概念，根據需要提出新的公理體系。這是一個基於推斷的極其複雜的“規則遊戲”。

而機器的計算模式則是遍歷型、經驗型的，即通過大規模資料來窮盡所有可能。

用DeepMind研究人員的話來說，數學包含了一個“自洽的宇宙”(self-consistent universe)，“簡單的AI系統”想要挑戰數學命題，顯然不太可能。

以“博雷爾-確定性”(Borel-determinacy)為例，雖然只是一個二階算術命題，但其證明卻需要用到無窮階的算術。想要解決此類問題，就必須把AI系統設計得足夠寬泛，以至於能包容絕大部分數學運算。這時的規則量級與複雜性，就不是圍棋這種程度可比的了，而可能是在1T個2^中尋找一個最優決策。這時候AI的對手就不是數學，而是資源、金錢與時間了。

AI解題：到底應該懷抱怎樣的理想期待

說了這麼多，用數學水平作為AI的“智商鑑定器”顯然有失偏頗，AI也不可能幫助人類解決那些數學領域的未解之謎。既然如此，讓AI學數學的意義到底是什麼?或許我們必須重新理解二者的關係。

從當前背景來看，提高AI的數學能力大概有兩方面的積極作用：

一個是技術層面的，人工智慧本質上就是一個將數學、演算法和工程實踐緊密結合的領域，對數學的探索有利於推動AI技術的全面進步。

舉個例子，早在1964年，就有科學家試圖讓計算機做數學題了，當時提出的STUDENT(Bobrow 1964)系統，就是輸入一段規定好描述方式的數學題，然後把自然語言(linguistic form)通過模式匹配對映到對應的函式關係表達。就像把“籠子裡有一隻雞和一隻兔，問籠子裡一共有幾隻動物”轉換成“1+1=?”。這說明，數學要取得好成績，先得自然語言閱讀理解能力過關。

舉個例子，就因為沒有辦法將複雜的題目轉換成規範化的數學語言，國立情報學研究所不得不在2016年放棄讓人工智慧系統Torobo-kun參加東京大學入學考試，2017年中國的“高考機器人” (863計劃中的類人智慧專案)在對戰真人(43名高三文科班學生)時，也以低於人類平均分的成績落敗。

除了文字題幹之外，有的題目還會涉及語音識別、影像識別(看圖解題)等技術能力。換句話說，想要搞定數學題，語文課、邏輯課，一科都不能偏!

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

另一個可能受益的則是社會層面的，針對數學的研究成果，能夠有效提升各個人工智慧系統在理科解題上的弱勢，直接提高知識引擎的效能與效率。

尤其是現在包括綜合搜尋、XX搜題等在內的各類知識問答平臺，已經成為為人們答疑解惑的主要工具。數學解題系統更成了K12教育爭先恐後推出的“殺手鐗”。但想要提供高品質的數學搜尋服務，比如輸入數學題，就能精準還原出數學模型、解題步驟以及答案，並不是一件簡單的事。

前面我們也說過，數學問題並不僅僅只考驗計算能力，還涉及泛化知識庫的大量規則，比下圍棋的黑白子規則可複雜多了，有時還要面對價值觀、意識形態、藝術等很多不可量化的東西。平臺們預先內建的數學知識模型在越來越數字化的學習方式面前，搜不到、不匹配、答案“略”，甚至直接用習題冊答案湊數的情況，也已經屢見不鮮。

更有甚至，一旦使用者輸入的問題不符合預定義的模式匹配規則，可能機器就會開始“誤人子弟”瞎答了。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

如果解題類應用的數學水平始終在及格方面徘徊，連看懂題和正確率都無法保證，還怎麼能指望AI系統從學生們的答卷中分析出失分原因並指導其進一步學習呢呢??所謂的靠它降低學習門檻、實現教育普惠和公平，顯然也只能停留在幻想層面。

提升AI模型的數學能力，進而增強搜題模型的整體效能，對於眾多網際網路教育平臺和家長考生們來說，意義自然是重大的。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

同時，數學本身也是學習(包括機器學習)的起點。

儘管大多數數學問題無法直接被應用，但在尋求驗證和推理的過程中，往往會誕生的更強大的推理模型，為更高的機器智慧打下堅實的基礎。

舉個例子，MIT 於2014年在ACL上提出了一種基於統計學習的方法KAZB，根據公式的標註把數學題歸類成不同的題型，抽取題目中不同層次的特徵，來自動判斷題型。

該方法的缺點則是系統沒有辦法識別出訓練集之外的題型。為了解決這個問題，百度和微軟的研究團隊分別進行了優化和改進，實現了10%左右的效能提升。

換句話說，提高神經網路的數學能力，雖然不是全部，但卻能夠為機器推理能力打下堅實的基礎。這就像人類小孩學習“雞兔同籠”一樣，不是真的為了方便在成年後數清楚雞和兔子，而是在這個過程中逐漸學會用一種新的思維模式去理解和認知世界。

或許等到那一天，我們需要擔心的就不是機器會做錯題，而是人類將無題可做了……

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561483/viewspace-2641350/，如需轉載，請註明出處，否則將追究法律責任。

DeepMind給AI模型做了個IQ測試，結果是這樣的
2019-02-21
AI模型
DeepMind讓AI組隊踢足球學會“合作”，並開源訓練環境
2019-02-22
AI
神經網路也能解數學題，DeepMind釋出千萬數學題海資料集
2019-04-04
神經網路
大模型是否有推理能力？DeepMind數月前的論文讓AI社群吵起來了
2024-10-22
大模型AI
機器學習框架安全依舊堪憂：360 AI安全研究院（AIVUL團隊）曝光Google Tensorflow 24個漏洞
2020-09-28
機器學習框架AIGo
10萬人簡歷只賣40塊，洩密的前程無憂“前程堪憂”
2020-11-21
一道數學題的解法
2020-10-24
組合數學水題 $19$ 道
2024-08-17
京東金融科技學堂開班，AI 在金融雲上有了新成果
2018-03-30
AI
sum() 函式效能堪憂，列表降維有何良方？
2019-04-27
函式
如何讓AI理解數學？Facebook神經網路透過「語言翻譯」求解數學難題
2020-07-01
AI神經網路
華為雲天籌AI求解器：智慧世界是道迷人的數學題
2021-11-04
AI
一道求餘數小學數學題的解法
2020-03-14
蘋果推新AI：ReALM
2024-04-04
蘋果AI
一道小學數學題的解決
2020-02-02
強化學習讓大模型自動糾錯，數學、程式設計效能暴漲，DeepMind新作
2024-09-21
強化學習大模型程式設計
想去Google做AI？面試題在手，全程無憂！
2018-04-11
GoAI面試題
脈脈釋出年度僱主評選結果，AI賦能讓企業招聘展現新動向
2018-12-03
AI
百度出席AI頂會IJCAI2020，學術創新成果全球領先
2021-01-19
AI
受限App Store嚴規，雲遊戲在iPhone上前景堪憂
2020-03-30
APP遊戲iPhone
AI安防的狂歡：挖掘新故事、暴露舊隱憂
2020-05-27
AI
小米AI團隊新成果，AutoML完爆超解析度
2019-02-19
AITOML
數倉sql場景：迭代求結果問題
2024-08-02
SQL
搞定ReentrantReadWriteLock 幾道小小數學題就夠了
2020-06-24
AI首次解決量子物理學難題，DeepMind精確計算量子激發態，登Science
2024-08-23
AI
“寓教於樂”，DeepMind新研究讓機器人從0開始學習複雜精細動作
2018-03-02
機器人
一個月被罰兩次，寧波銀行貸款管理堪憂
2022-04-26
2024屆新題型數學模擬選題
2024-11-26
蘋果、微軟等巨頭107道機器學習面試題
2019-05-08
蘋果微軟機器學習面試題
如何讓AI具有通用能力？新研究：讓它睡覺
2022-11-25
AI
API 介面安全堪憂綠盟科技教你如何進行鍼對性防護
2020-03-23
API
谷歌雲遊戲堪憂？ Stadia獨佔遊戲一款也沒有
2019-06-12
谷歌遊戲
AutoML：未來“讓 AI 學習設計 AI”
2020-02-12
TOMLAI
人類模仿AI新賽道，AI：論瘋癲，你是我爹
2024-07-16
AI
95 後美女激戰 AI，結果亮了……
2019-02-28
AI
ElasticSearch7.3學習(二十六)----搜尋（Search）引數總結、結果跳躍（bouncing results）問題解析
2022-05-18
Elasticsearch
好題——數學與資料結構
2024-05-01
資料結構
【Warrior刷題筆記】劍指offer 6 24 35. 三道題，讓你學會連結串列遞迴迭代輔助棧
2022-01-05
筆記遞迴

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

相關文章