Marcus再懟深度學習:不和符號計算相結合,可能無法進步!

路雪發表於2018-11-05

Marcus再懟深度學習:不和符號計算相結合,可能無法進步!

過去

長期以來,許多研究人員一直擔心神經網路能否有效地泛化,從而捕獲語言的豐富性。從 20 世紀 90 年代開始,這成為我工作的一個主要課題,在我之前,Fodor、Pylyshyn、Pinker 和 Prince 1988 年在《Cognition》中提出了與之密切相關的觀點。Brenden Lake 和他的合作者在今年早些時候也提出了類似的觀點。

舉個例子,我在一月份寫了一篇關於這個話題的文章

當可用的培訓資料數量有限,或測試集與培訓集有很大區別,又或者樣本空間非常大且有很多全新資料時,深度學習系統的效能就不那麼好了。而在現實世界的諸多約束下,有些問題根本不能被看作是分類問題。例如,開放式的自然語言理解不應該被認為是不同的大型有限句子集之間的分類器對映,而是可能無限範圍的輸入句子和同等規模的含義之間的對映,而這其中很多樣本是之前沒有遇到過的。

現在

近日,Yoshua Bengio 和他的實驗室成員寫了一篇與此相關的論文(http://export.arxiv.org/abs/1810.08272),證明了神經網路社群內部(認知科學研究社群的一群門外漢(包括我自己))長期以來的觀點:如今的深度學習技術並不能真正處理語言的複雜性。

這篇論文的摘要中有一句這樣的表述:

我們提出了強有力的證據,證明了當前的深度學習方法在學習一門合成性(compositional)語言時,樣本效率存在不足。

這是當前機器學習文獻中存在的一個非常普遍而且十分重要的問題,但之前的文獻對此沒有任何討論。這並不是好現象:我們曾經用一個詞來形容它——「非學術性」,意思是你按照早期先行者的方向繼續研究下去,並假裝你的工作是原創的。這並不是一個很好的詞。但它在這裡很適用。

無論如何,我很高興 Bengio 實驗室和我長期以來對此的觀點一致,我在一篇 Twitter 中寫道:

關於深度學習及其侷限性的重要新聞:Yoshua Bengio 的實驗室證實了 Marcus 在 2001 年和 2018 年提出的一個關鍵結論:深度學習在資料處理方面不夠有效,無法應對語言的合成性本質。

和往常一樣,我的言論引起了深度學習社群中許多人的反感。作為回應,Bengio 寫道(他第二天在 Facebook 上釋出了一條帖子,這引起了我的注意):

這裡的結論似乎有些混亂。根據實驗,我們發現目前的深度學習+強化學習在學習理解合成語言的樣本複雜度方面還不盡如人意。但這與 Gary 的結論大不相同,因為我們相信我們可以繼續取得進步,並在現有的深度學習強化學習的基礎上進行擴充套件。Gary 明確地表明瞭「深度學習在資料處理方面不夠有效,無法應對語言的合成性本質」這樣的負面觀點,而我們認為當前的深度學習技術可以被增強,從而更好地應對合成性,這是我們進行(向具有相同底層因果機制的新資料分佈)系統泛化所必需的。這正是我們正在進行的研究,相關的論述可以在 arXiv 上檢視我們之前的論文。

實際上,Bengio 說的是我們還沒有達到所需要的水平。

也許是這樣,也許不是。或許深度學習本身永遠無法做到真正處理語言的複雜性。我們至少要考慮到存在這種可能。

20 年前,我基於反向傳播的工作原理非常嚴謹地首次提出該觀點(http://www.psych.nyu.edu/gary/marcusArticles/marcus%201998%20cogpsych.pdf)。然後立即出現了很多關於未知機制和未來的成功的承諾。

這些承諾至今仍未兌現。我們用了 20 年的時間以及數十億美元進行研究後,深度學習在語言的合成性方面仍然沒有取得任何顯著進展。

在過去 20 年裡唯一真正改變的是:神經網路社群終於開始注意到這個問題。

未來

實際上 Bengio 和我在很多方面都有共識。我們都認為現有的模型不會成功。我們都同意深度學習必須要被增強。

真正的問題是,增強究竟是什麼意思。

Bengio 可以自由地闡述他的觀點。

在我看來,正如我過去 20 年所預測的那樣:深度學習必須透過一些借鑑自經典符號系統的操作得到增強,也就是說我們需要充分利用了經典人工智慧技術(允許顯式地表示層次結構和抽象規則)的混合模型,並將其同深度學習的優勢相結合。

許多(並非所有)神經網路的支持者試圖避免在他們的網路中新增這樣的東西。這並不是不可能的;這是所謂的正統觀念的問題。當然,僅靠深度學習目前還無法解決這個問題。也許是時候試試別的方法了。

我不認為深度學習無法在自然理解中發揮作用,只是深度學習本身並不能成功。我認為 Yann LeCun 等人一直在誤導大家。

我的預測仍然是:如果沒有固有的合成工具來表示規則和結構化表徵(根據我在 2001 年出版的「The Algebraic Mind」一書中提出的觀點),我們將看不到語言理解神經網路模型的進展。

只要深度學習社群不再毫無必要地把自己定義為經典人工智慧(符號系統)的對立面,我們也許將看到進展。

原文連結:https://medium.com/@GaryMarcus/bengio-v-marcus-and-the-past-present-and-future-of-neural-network-models-of-language-b4f795ff352b

相關文章