DeepMind給AI模型做了個IQ測試,結果是這樣的

AI前線發表於2019-02-21

DeepMind給AI模型做了個IQ測試,結果是這樣的

策劃編輯 | Debra
作者 | DeepMind
編譯 & 編輯 | Debra
AI 前線導讀:雖然神經網路模型在解決機器學習各類固有問題方面不斷交出良好的答卷,但事實證明,其對抽象概念進行推理的能力仍然偏弱。在此前嘗試解決通用學習系統這一重要功能需求的基礎之上,DeepMind 的最新論文提出了一種在學習機器中衡量抽象推理能力的新方法——模仿人類的 IQ 測試,給 AI 模型來一次“智商檢測”; 同時提出了關於泛化本質的一些重要見解。那麼,結果究竟如何呢?

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)

為什麼抽象推理對於通用智慧如此重要?想想著名的阿基米德“尤里卡”時刻(古希臘語“我知道了”,源自學者阿基米德發現浮力理論時表達喜悅脫口而出的話):他注意到物體體積等於其所排開的水的體積,並在概念層面形成了對體積的理解,進而推斷出其他不規則形狀物體的體積測量方法。

我們希望人工智慧擁有類似的能力。雖然目前的系統已經能夠在複雜的戰略遊戲中擊敗世界冠軍,但卻往往在其他看似簡單的任務中折戟——特別是那些需要在新環境中發現並重新應用抽象概念的場景下。例如,即使是最強大的 AI 模型,也無法在僅瞭解如何計算三角形面向的前提下,自行推理出如何對方形及其它圖形進行面積計算。

因此,要構建更好、更智慧的系統,瞭解神經網路目前的抽象概念處理方式以及改進空間就變得非常重要。為了達成這一目標,我們借鑑了人類 IQ 測試中的抽象能力衡量方法。

建立抽象推理資料集



DeepMind給AI模型做了個IQ測試,結果是這樣的

這項演示說明了模型的推理能力,其過程非常有趣,大家可以點選連結親自動手嘗試:

演示連結:https://deepmind.com/blog/measuring-abstract-reasoning/

DeepMind給AI模型做了個IQ測試,結果是這樣的

在(a)中,暗含的基礎抽象規則是每一列的圖形數量呈算術級增長。 在(b)中,規則是每一行中形狀的位置存在 XOR(邏輯異或)關係(方框 3 = XOR(方框 2 – 方框 1))。其他特徵(如形狀型別)則不屬於需要考慮的因素。兩者的正確答案均為 A。

標準的人類智商測試通常要求測試者通過他們日常學習到的經驗原則來解釋簡單的感知視覺場景。例如,人類測試者可能已經在生活中通過觀察植物或建築物施工瞭解到“增長”的概念,通過數學課或銀行賬戶裡的利息增加來學習加法(某些屬性可以相加的概念)。此後,他們可以在測試中應用這一概念,用於推斷形狀的數量、大小,甚至發現顏色的持續加深趨勢。

我們還沒有能力在機器學習代理的訓練過程中引入“日常生活體驗”之類的訓練方法,這意味著我們無法簡單地衡量它們將知識從現實世界轉換為視覺推理測試的能力。儘管如此,我們仍然可以建立一項可以充分利用人類視覺推理測試的試驗。我們的目的不是研究從日常生活到視覺推理問題的知識轉移(如在人類測試中),而是研究從一組受控的視覺推理問題到另一組視覺推理問題的知識遷移。

為實現這一目標,我們構建了一個用於建立矩陣問題的生成器,它涉及一些抽象因素,包括“漸進”關係以及“顏色”和“大小”等屬性。雖然問題生成器 中使用了少量底層背景因素,但其仍然能夠生成大量獨特的問題。

接下來,我們控制生成器可用的因素或組合,從而建立用於模型訓練及測試的不同問題集,藉以測量我們的模型對測試及問題的泛化能力。例如,我們建立出一組訓練集,其僅在應用於線條顏色時才會產生漸變效果 ; 而另一個訓練集則集中測試形狀問題。如果模型在該測試集上表現良好,就證明其擁有對“增長”這一抽象概念的推理及應用能力。換言之,即使在之前從未接觸過“增長”概念,其仍然能夠準確把握這一規律。

證明抽象推理的可實現性

在機器學習評估中得到廣泛應用的泛化方案當中,我們訓練和測試的資料是從相同的基礎分佈中取樣獲得的,其結果顯示測試的所有網路都表現出較小的泛化誤差,其中一些準確率達到 75%以上。效能最佳的網路明確計算出不同影像方框之間的關係,同時以並行方式評估了每項潛在答案的適用性。我們將此架構稱為 Wild Relation Network(WReN)。



DeepMind給AI模型做了個IQ測試,結果是這樣的

在需要以此前接觸過的屬性值為基礎,利用屬性值“插值”進行推理時 ; 以及在模型不熟悉的組合中應用已知抽象關係時,模型的泛化能力非常好。然而,同樣的網路在“外向泛化”方案中的表現則不盡人意,這主要是因為測試集中的屬性值與訓練期間的屬性值並不在同一範圍內。例如,當訓練期間涉及深色物體,但測試期間僅涉及淺色物體時,神經網路就會表現得無所適從。當訓練模型將先前理解的關係(例如圖形數量的增長)應用於新屬性(例如大小)時,其泛化效能同樣較差。

最後,我們觀察到,當訓練模型不僅需要預測正確的答案,同時需要提供得出預測答案的“原因”(即在解決該難題時需要考慮的特定關係及屬性)時,其泛化能力將得到改善。有趣的是,下表左右兩列的資料表明,模型的準確性與其對矩陣背後正確關係的推理能力密切相關:當解釋正確時,模型選擇正確答案的比例達 87%,但是當其解釋錯誤時準確率只有 32%。這表明,當模型正確推理出任務背後的抽象概念時,其往往可以獲得更好的效能水平。

DeepMind給AI模型做了個IQ測試,結果是這樣的

所有模型的效能(左),以及 WReN 模型的泛化效能(右),泛化根據β= 0 的泛化誤差排序。(Diff:測試與驗證效能之間的差異)

一種更為微妙的泛化方法

近期發表的文獻大多關注基於神經網路的方法在解決機器學習問題時的優點和缺點,而結論也通常體現為效能與泛化能力的欠缺。我們的研究結果表明,關於泛化的普遍結論可能並無太多實際意義:我們測試的神經網路在某些泛化方案中表現良好,而在其他方案中則表現很差。其成功與否取決於一系列因素,包括所用模型的架構、模型是否經過訓練,及其為所選答案給出的可解釋“理由”。總體而言,系統在面對超出其經驗積累的輸入屬性、或處理完全不熟悉的屬性時,大多表現不佳;而通過此次研究,我們為這一關鍵研究領域的未來工作指出了明確的前進方向。

在本研究的下一階段,我們將探索泛化改進策略(例如元學習),並將進一步探討是否及如何使用豐富多樣但又普遍適用的歸納 bias。我們還希望通過 Raven-style 矩陣的處理過程更深入地理解 WReN 模型所學習到的解決思路。

作者介紹

David G. T. Barrett ,Felix Hill ,Adam Santoro ,Ari Morcos,Timothy Lillicrap

GitHub 地址:

https://github.com/deepmind/abstract-reasoning-matrices

參考論文:

http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf

附錄:

http://proceedings.mlr.press/v80/santoro18a/santoro18a-supp.pdf

原文連結:

https://deepmind.com/blog/measuring-abstract-reasoning/

相關文章