CCAI 2020 | 探秘AI的未來:對話Yolanda Gil

AIBigbull2050發表於2020-08-12
2020-08-02 19:34:45

CCAI 2020 | Yoshua Bengio:從深度學習到意識

CCAI 2020年8月29日-30日

2020年中國人工智慧大會(Chinese Congress on Artificial Intelligence 2020,簡稱“CCAI 2020”)將於8月29日-30日在南京召開。CCAI 2020以“智周萬物”為主題,探討人工智慧作為引領未來的戰略性技術,如何以周知萬物的學術境界賦能未來,帶動時代發展,實現互聯世界的遠大理想。

加拿大蒙特利爾大學教授,2018年圖靈獎獲得者,蒙特利爾學習演算法研究所(Mila)主管Yoshua Bengio將出席本次大會作主題演講。

Yoshua Bengio:蒙特利爾大學電腦科學與運籌學系教授,蒙特利爾學習演算法研究所(Mila)的負責人。2018年ACM圖靈獎獲得者。被公認為是全球領先的人工智慧專家和深度學習的先驅。

Yoshua Bengio教授是深度學習的創始人之一,他於2018年與Geoffrey Hinton和Yann LeCun共同獲得了圖靈獎。Yoshua Bengio在NeurIPS 2019上接受了MIT助理教授韓松的採訪,分享了有關深度學習的深入見解,其中特別強調了當前深度學習從無意識到有意識的趨勢。他還討論瞭如何透過提高計算效率來減輕AI研究的碳足跡,並敦促年輕的研究人員應該設立宏偉的長期目標,並與同行進行開放的交流。

CCAI 2020 | Yoshua Bengio:從深度學習到意識

深度學習之旅

韓松:您已經從事深度學習領域研究數十年了,能否與我們分享您的學術經歷和目標,以及這個領域的發展狀況?

Yoshua Bengio:科學家、研究人員和思想之間的關係是非常令人激動的。因此,我一直對自己的研究充滿熱情。說實話,在許多年前,我就愛上了一種“驚人的假設”:我們的智慧可以被幾條簡單的原理解釋清楚。那在1985年左右,我也就從那時開始閱讀神經網路相關的論文。

Geoffrey Hinton的團隊發表的論文給我的印象最為深刻。我當時就感覺,這就是我想要做的,這種感覺從那時開始就一直持續著。當我在80年代末開始研究這個領域時,幾乎沒有人同時在做這件事。但是這個領域在當時很熱門,很多人都準備加入研究行列。我在91年取得了博士學位。但是在90年代,隨著其他機器學習方法的風靡,人們對神經網路的興趣逐漸下降。因此,很長一段時間以來,正是這種激情讓我致力於這一領域的研究。

我曾試圖理解神經網路以及核心方法等其他方法的侷限性,這種嘗試使我從數學的角度上更深入地驗證了我的直覺的正確性。當然,在過去的十年中,成功的應用程式和基準測試,甚至是整個機器學習領域都發生了爆炸式增長。這是要歸功於深度學習的,深度學習不僅是大學中的一門學科,而已經在整個社會中都有所應用,這其中也蘊含著巨大的商機。深度學習正在改變著我們的社會,然而這些轉變並不都是有益的,因此我們要時刻懷著一份責任感。

從注意力到意識

韓松:您發表的精彩演講中,我認為意識/注意力模型是其中的核心部分。您能否分享更多的關於這方面的想法和成果呢?

Yoshua Bengio:是的,這十分有趣。“意識”一詞長久以來在科學界都是一個禁忌。但是在最近的幾十年中,神經科學家和認知科學家已經開始探討意識的真正內涵。當然,它有不同的方面。科學家們提出了幾種有趣的理論,例如全域性工作空間理論。我認為我們目前正處於這種階段:機器學習(尤其是深度學習)已經可以開始研究神經網路架構以及實現其中某些功能的目標功能和框架。對個人而言,最令我感到興奮的是這些功能可能為人類提供進化優勢。因此,如果我們瞭解這些功能,它們也將對AI有所幫助。

韓松:說到意識與注意力之間的關係,我們可不可以認為注意力其實就是正在尋找從無意識集合的大維度到低維度意識集合的對映,並以此幫助泛化?

Yoshua Bengio:正是這樣。有趣的是,每次只需要選擇幾個變數就可以了,根據我的理論,我們需要的是一個正則項和一個對環境的先驗條件。人們會利用這個先驗條件來構建高階的概念,並用語言來表達它。比如,我說這樣一句話:“如果我把球丟擲去,它會落在地上。”這句話只涉及了幾個概念,而注意力會選擇恰當的詞和幾個概念,它們彼此間是有很強的依賴性的。所以,我就可以透過它們來預測某些動作的效果,而這句話表達的就是這個含義。而且,該事件的發生機率很高。從某種意義上說,這是十分傑出的。

我們能夠使用很少的資訊和變數去預測未來,這一點是十分非同尋常的。因此,這種注意力機制對應了一種假設:我們應該如何去構建對世界的認識。它涉及了知識表示和語言,我們使用語言來處理的概念可以與我們在腦海中具有最高表示能力的概念相對應。

韓松:因此,這不僅是語言而且是強化學習,正如您在最近發表的RIM(遞迴獨立機制)論文中所展示的那樣,與傳統RNN相比,雅達利遊戲展現出了強大的泛化能力。

Yoshua Bengio:是的,所以說到意識,我認為對於學習而言,機器對於學習主體尤其重要。學習主體是在環境中活動的實體,諸如人類、動物以及未來可能會製造的機器和機器人等。但是主體們會面對一個問題,那就是周圍的世界正在發生變化。因此,他們需要能夠適應並且快速瞭解這些改變。對此,我提出了意識機制,透過將他們的知識組織成可以像RIM論文中那樣動態重新組合的小片段,來幫助他們做到適應改變。面對環境中的變化時,我們也可以更加從容。而且我們確實在實驗中發現,與訓練期間所見的相比,這些型別的體系結構可以更好地推廣到,比如說,更長的序列。

韓松:因此,我們不再需要重新整理資料,而僅需要關注它應該處理的資料來使其泛化?

Yoshua Bengio:是的,我們不想重新整理資料。因為當我們對資料進行重新整理時,會破壞部分資訊,對吧?在我們重新整理後,整體結構都會發生改變。然而這種結構可能從資訊剛被收集時就存在了。要知道,某些因素的改變會導致資料發生些許變化。當我們整理資料時,這部分資訊就丟失了。當然,這麼做使泛化變得更加容易,但這其實算是一種作弊,因為在現實世界中,資料不會被重新整理。明天將要發生的事情與昨天發生的事情將不會完全一樣。因此,我們要做的不是重新整理,而是構建一個對這些改變具有魯棒性的系統。這也是元學習發揮作用的時候。

學會學習

韓松:是的,說到元學習,您在90年代就發表過一篇關於元學習和學會學習的論文,這篇文章最近隨著神經體系結構搜尋的發展又變得非常熱門。您能否分享一些您對於“學會學習”的思考和進展?

Yoshua Bengio:好的。當我開始考慮“學會學習”時,人們還沒有將其稱為元學習,就只是在學習要如何去學習。我當時受到了個體或動物的學習與進化之間關係的啟發。這種說法並不準確,但是您可以認為進化有點像是最佳化,因為物種透過進化來最佳化他們的日常行為。然後,我們的外部迴圈就像一個緩慢的時間軸,隨著這個過程的不斷髮展,越來越好的解決方案被提出。但是在個體的一生中,學習也會帶來很多進步。因此,這個過程就像在學習中學習。

正如我們在論文中所展示的那樣,您可以使用與我們剛剛使用的反向傳播相同的工具來同時最佳化這兩件事。我們最近主要專注於,如何運用這些思想來最佳化學習者的學習方式,不僅可以使他們在特定任務上完成得更出色,而是更好地去學會學習。因此,一旦掌握了泛化能力,即使外部環境發生了變化也可以更好地去適應,也就是說對於改變的魯棒性提高了。如果您在普通靜態框架下只假設一種條件分佈來進行普通訓練,那麼這種魯棒性是不可能實現的。但是理論上,元學習可以進行端到端的學習,學習如何泛化變更和分佈並且獲得魯棒性。所以從概念上講,這一點的意義十分重大。

韓松:我完全同意。但是由於我們巢狀了兩層迴圈,因此計算複雜度變得相當高。

Yoshua Bengio:這就是為什麼多年來這個領域都不算太熱門。但是現在,我們比90年代初期擁有更多的計算能力。我們開始發現元學習的強大之處,比如透過很少的示例就能完成學習等等。這些都要歸功於GPU和TPU的額外計算能力。

碳足跡與計算效率

韓松:我還注意到這種訓練留下的碳足跡可以說非常之多。您專門建立了一個計算二氧化碳排放量和成本的網站。您的初衷是什麼?是關於環保方面的思考嗎?

Yoshua Bengio:對。生活中什麼事情都不簡單,許多細節都很重要。其實,機器學習可以用來應對氣候變化。我們發表了一篇很長的論文,解釋了機器學習在氣象科學和材料科學中的許多應用,例如幫助提高電能和可再生能源的使用效率。因此,我們可以使用機器學習來幫助人類解決氣候變化這一重大挑戰。

但與此同時,所有這些計算能力都依賴於不可再生能源,並因此產生了巨量的碳足跡。這其實取決於您在哪裡進行實驗。比如說,我居住在魁北克省,那裡使用的就是100%可再生的水力發電,所以並不會產生碳足跡;但是如果您在美國,或者是在有著大量煤炭資源的中國,就是另一回事了。大型實驗會消耗大量的能源。更令人擔憂的是,工業界的研究人員正在逐步建立越來越大的模型。這些模型的增長速度非常快,大概每三個月就會翻一番。

韓松:比摩爾定律更快。

Yoshua Bengio:對,就是這樣,比摩爾定律還要快。您要知道,我們是無法維持這種擴張的,為了執行這麼多大型的AI系統,我們最終甚至會用光所有電能。這可不太妙。因此,我們需要像您這樣的研究者來幫助我們設計能夠更高效地利用能源的系統。所以,您認為我們應該如何解決這個問題?

韓松:謝謝你的提問。我認為我們需要從演算法和硬體兩方面來解決如此具有挑戰性的難題。按照慣例,我們過於依賴摩爾定律,期望者計算機的執行速度每年都會更快。然而隨著摩爾定律的放慢,我們需要研究演算法和硬體這兩部分,以減少記憶體佔用,而且我認為正是記憶體佔用導致了能耗。運算成本並不高,但是儲存成本很高。我們已經取得了一些進展,比如在深度壓縮(Deep Compression)可以將模型大小減小一個數量級,進而減少記憶體。高效推理引擎(Efficient Inference Engine)透過跳過零(零與零的乘積為零)來儲存計算。最近,我們一直在致力於降低Transformers的神經網路架構研究的開銷,在之前,它的碳足跡比得上五輛汽車在壽命週期內排放的碳總量。

Yoshua Bengio:這就是另一個細節問題了,媒體報導的那些天文數字主要來源於在架構和超引數空間中進行的超引數最佳化搜尋。它們的成本比訓練單個網路要貴上1000倍。因此,如果您像我一樣在學術界,計算能力有限,您需要依靠人腦來進行搜尋,這種方式的能耗要低得多。您的計算資源可能有限,但是您手下有許多正在做實驗的學生們,他們過去曾經做過許多實驗,他們知道要如何去研究,所以能夠找到不錯的解決方案。然而我們目前用於探索架構空間的方法更像是暴力破解,成本非常高。

韓松:是的,完全同意。我去年剛加入麻省理工學院時,只有八塊GPU卡,而我的學生們不可能用它們來進行神經結構搜尋。因此,他必須以將人類智慧與機器智慧結合起來,對搜尋空間進行剪枝。最後,我們以更具成本效益的方式完成了搜尋。

Yoshua Bengio:那很棒。

給青年研究者的建議

韓松:謝謝。最後,您作為AI研究領域的領軍人物,您對青年研究者未來的發展方向有何建議?

Yoshua Bengio:當前的機器學習和AI領域的學生和研究人員的競爭非常激烈,壓力非常大,他們大多都感到非常焦慮,我對此感到十分沮喪。因為科學研究並不應該在這些條件下進行,而是應該制定長遠的目標,留出足夠的時間仔細推敲、集思廣益,並勇於將各種想法付諸實踐。但現狀與之相反,當下,我們急於在各個截止日期之間奔波,每隔兩個三個月,我們就有另一個截止日期。我認為這對這個領域十分不利。而且這對研究者的心理健康也不是很好,人不能總處於這麼大的壓力之中。

所以我的建議是往後退一步,去設定一些更充滿野心的目標,去解決一些更棘手的問題,而不是一直去想在接下來的幾周內,或者在下一個截止日期之前應該做什麼。多聽聽內心的直覺。然後,您需要去分享您的想法,和別人多多談論它們。即使這些想法尚未釋出,也不要害怕其他人會竊取您的想法。比起死死守住自己的成果,與他人積極互動不僅會在心理上對您產生積極的影響,還能夠調動生產力。

韓松:完全同意。好的,非常感謝您的技術分享以及對青年研究者的建議,相信我們都能從中獲益匪淺。

Yoshua Bengio:感謝您的提問。

原文連結:

CCAI 2020 | Yoshua Bengio:從深度學習到意識




http://blog.sina.com.cn/s/blog_cfa68e330102zw0h.html



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2711235/,如需轉載,請註明出處,否則將追究法律責任。

相關文章