關於AI數學和科學標準化測試的綜述

機器之心分析師發表於2018-07-24

研究表明,圖靈測試不能充分地衡量人工智慧是否具有智慧。實際上,已經有一些研究者聲稱已經開發出了能通過圖靈測試的人工智慧,比如聊天程式 Eugene Goostman,但這些程式的智慧水平還遠沒達到人們的期望。為了更好地衡量人工智慧,有研究者提出使用數學和科學標準化測驗來考核人工智慧。研究者 Arindam Bhattacharya 的論文《A Survey of Question Answering for Math and Science Problem》對這方面的研究進展進行了總結。機器之心技術分析師對該論文進行了解讀,本文為解讀的中文版。

論文:https://arxiv.org/abs/1705.04530

這篇論文非常有意思,因為它提供了一個思考人工智慧的新角度。研究已經證明,圖靈測試在衡量人工智慧方面是不完備的,標準化的數學和科學測驗現已被接受作為一種衡量人工智慧的方法。這篇論文的目標是概述讓機器智慧足以通過標準化數學和科學測驗的方法。

1 引言

這篇論文首先指出,對於人類而言,我們常常通過人們針對相關問題給出的答案評價他們。但我們卻不能使用同樣的標準來評價機器。阿蘭·圖靈在 1950 年提出的圖靈測試 [1] 是通過機器能否表現出與人類不可區分的對話行為來評價機器。而現在,Clark 和 Etzioni [2] 已經提出使用數學和科學的標準化測驗來作為評價機器智慧的合適方法。這篇論文向我們簡要介紹了訓練機器求解數學和科學問題的方法。

相關文章