MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程

騰訊AI實驗室發表於2018-04-09

3月15日,騰訊AI Lab第二屆學術論壇在深圳舉行,聚焦人工智慧在醫療、遊戲、多媒體內容、人機互動等四大領域的跨界研究與應用。全球30位頂級AI專家出席,對多項前沿研究成果進行了深入探討與交流。騰訊AI Lab還宣佈了2018三大核心戰略,以及同頂級研究與出版機構自然科研的戰略合作(點選 這裡 檢視詳情)。


騰訊AI Lab希望將論壇打造為一個具有國際影響力的頂級學術平臺,推動前沿、原創、開放的研究與應用探討與交流,讓企業、行業和學界「共享AI+未來」。


嘉賓介紹


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


3月15日上午,麻省理工學院大腦與認知科學系Eugene McDermott 教授,大腦、心智和機器中心(CBMM)主任Tomaso Poggio教授做了主題為“智慧背後的科學與工程(The Science and Engineering of Intelligence)”的演講。


Poggio教授是計算神經科學領域巨匠,研究領域涵蓋視覺系統的生物物理和行為、人類和機器的視覺和學習的計算分析。他的研究極富開拓性,是被引用最多的計算神經科學家之一。他的兩位前博士後 Demis Hassabis和Amnon Shashua 分別是 DeepMind 和 Mobileye 的創始人。


演講內容


在本演講中,Tomaso Poggio介紹了AlphaGo和Mobileye這兩大人工智慧領域近期取得的成就,並介紹到其成功是建立在深度學習強化學習這兩種受神經科學啟發的演算法基礎上的。但若要創造與人類同等聰明的人工智慧,還需更多突破。本演講討論了這些突破可能是什麼,並且源自何處。


演講在硬體層面上,介紹了MIT大腦、心智和機器中心(CBMM)的研究專案、合作成果等,比如與不同研究中心的合作,在《科學》和《自然》雜誌上發表的研究成果,組織課程,登月(moonshot)專案,對心理物理學的研究實驗等。具體說明了樹突樹的生物物理性質能表現出比當今的 ReLU更強大的非線性,而在計算層面上,視覺智慧的基本方面需要超越監督學習和無監督學習的架構。


以下為演講全文(為便於閱讀進行過適當編輯整理):


今天我會談一下智慧背後的科學和工程。我在MIT進行過很多研究,但是我今天沒有時間過多談及這些。我會談談 MIT 最近推出的一項名叫 Intelligence Quest 的計劃。然後我會談談其後的歷史以及我們一些深度學習之外的研究。


首先讓我談談大家都已知道的故事——最近人工智慧領域的一些成功故事,從 Atari 遊戲到 AlphaGo到單樣本學習再到無人駕駛等等。其中一些重大成果是由 DeepMind 和 Mobileye 這兩家創業公司實現的。有意思的是,這兩家公司的創始人 Demis Hassabis 和Amnon Shashua都曾是我的博士後學生。前者推動實現了 AlphaGo,後者則創立了 Mobileye。這兩項研究成果背後的核心技術分別是強化學習深度學習。而這兩種都源自神經科學


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


大家看一下這段有趣的影片。這個專案從1995年開始做的,是我們和戴姆勒-賓士的一個合作專案,也是最早將深度學習應用於計算機視覺的專案之一。當時我們訓練這個系統的目標是讓整個系統能識別出周圍的環境和物體。





這裡的影片非常清晰地展示出了我們這個系統的工作方式。這段影片拍攝自德國南部烏爾姆,這裡是愛因斯坦的出生地。可以看到系統在最後幾幀出現了一些錯誤,比如錯誤分類了交通訊號燈和行人。當時的錯誤率是每三幀一個錯誤,也就是每秒鐘出現十個錯誤。科學家雖然對此感到高興,但這是無法實現實際應用的。而現在 Mobileye 的系統在同樣的任務上每30千米的駕駛距離才會出現一個錯誤,準確率好了大約100 萬倍,也就是這 20 年來平均每年都提升一倍,這樣的進步是非常明顯的。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


回到我的主題,深度學習強化學習都源自神經科學強化學習的早期起源是巴甫洛夫對心理學和動物行為的研究,然後 Donald Hebb 最早提出將強化學習應用於機器和計算機。之後,Marvin Minsky 在 50 年代開發了一個名叫 SNARC 的系統,可以像老鼠一樣去解開迷宮問題。上圖右上角是這個系統的一個神經元,裡面有一些真空管。然後我們看到 Hubel 和 Wiesel 在 60 年代在哈佛對神經架構的研究。之後還有很多科學家和研究者推動了這一領域的研究發展,讓我們瞭解了大腦中的一些結構。這些研究成果為今天的深度卷積神經網路奠定了基礎,比如圖中所示的 ResNet。


那麼機器學習的下一個關鍵突破點在哪裡?從歷史上看,最早的成果就是來自神經科學,下一個應該還是來自神經科學或認知科學。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


接下來談談我們自己的工作。我們在 8 年前啟動了MIT Intelligence Initiative,之後變成了大腦、心智和機器中心(CBMM)。我是該中心的主任。這是 NSF(美國國家科學基金)超過 5000 萬美元的十年資助專案之一(2013~2023 年)。現在我們有了 MIT Intelligence Quest,它會為MIT的所有部門提供智慧技術,比如生物系。我們的核心目標是純粹的智慧研究,而且研究領域涵蓋科學和工程。我們中心的目標就是在智慧問題上取得一些進展。


我相信智慧問題不僅是一些科學問題的核心,比如宇宙的起源、生命的起源、時空結構等等;而且也是我們所有問題中最大的問題,因為只要我們在這一問題上取得進展,就能夠讓我們自己變得更加智慧,讓機器變得更加智慧。我們就能夠快速地解決其它問題。此外,智慧也是唯一一個可以在自然科學領域(包括神經科學、生物學、化學和物理學等)和工程技術領域(包括電腦科學和數學)同時探索的學科。所以這是唯一一個你可以同時獲得圖靈獎和諾貝爾獎的學科。


這不僅是科學技術的組合,也涉及到人與人的合作。MIT 和騰訊、IBM、微軟、谷歌等機構在科學和工程上都有良好的合作,這是MIT十分獨特的一面。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


我們有來自不同研究中心的合作伙伴,其中有神經科學專家、電腦科學專家、認知科學專家。我們還有工業界的一些合作伙伴,有大公司也有小公司,比如 DeepMind、波士頓動力、Mobileye(我最近也加入了這家公司)。我們還有一個顧問委員會,有一些這個領域的主要科學家和我們合作。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


研究成果方面,我們 2017年在《自然》和《科學》雜誌上發表了很多論文,數量超過 DeepMind 等機構。這不足為奇,因為我們非常專注於智慧科學的研究。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


我們在過去四年裡還組織了一些課程。我們想培養出新一代的科學家,他們不僅將擅長機器學習,也會有電腦科學、神經科學、認知科學等學科的研究經驗。在這方面我們做得非常成功,並還將繼續努力進行下去。


接下我談談我們在深度學習之外的研究。這是我們其中一個登月(moonshot)專案,我們希望藉此瞭解我們的視覺智慧。人有能力看到自己周圍的東西,能夠回答與此相關的近乎無限多的問題,比如這張圖:


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


我們可以看到這個場景中有多少桌子、坐了多少人、誰在說話、哪些位置是空閒的,你還知道需要繞過哪些障礙物才能到達目標。


我們是如何做到的呢?我們看看視覺系統底層的架構。可以看到視覺流流入大腦中的視覺區域,再進入大腦皮質中的特定區域,我們稱之為大腦作業系統(Brain OS),這是大腦的推理中心,裡面可以用很小的程式實時地回答任何問題。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


在我們的認知系統和物理世界的互動中,我們就產生了對世界的認識,理解了我們和世界的關係。這就是笛卡爾所說的“我思故我在”。這就是我們感知周圍世界的方案。我們正在努力透過神經科學和認知科學解答這些問題,當然也可能使用計算機模擬這個系統。


這是我們的登月專案之一。我要談談它的一個應用,這個應用也在反過來推動相關研究。我們知道,人的視覺感知中有很大一部分是幻覺。我們人眼中的視覺感知非常依賴於偏心距(eccentricity),所以我們一次只能注意到一定距離一定角度內的事物(手臂長度大約為拇指寬/1度),其它內容都要靠我們腦補,是根據我們注意到的不同位置的影像融合起來的。進入我們眼睛的可能是一張高解析度影像,但實際上我們感知注意到的是一系列低解析度影像。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


這是我們的眼睛。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程



光從左邊進入眼睛,晶狀體將其匯聚到眼睛後部的感受器上。這個感受器會和視網膜神經節細胞通訊,得到資訊。合在一起就是我們所說的視覺神經。這些訊號最後會被傳遞給大腦中的視覺皮層。光感受器很密集,但感受野只有一小塊區域。我們可以看到一個有趣的現象,視覺皮層的感受野的大小與光感受器的大小(也就是偏心距靈敏度)有關。這是來自 Hubel 和 Wiesel 的舊資料,展示了凝視視角與偏心距的關係。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程



可以看到,在所有的視覺區域,視覺範圍會隨偏心距增大。我們對取樣有一些推理得到的理論解釋。底部的感受野通常大小為40×40,在上面有更大的感受野。小一點的感受野也許覆蓋了更小的角度,上面大一點的覆蓋了 5 度視覺角度。這樣的安排,就能自動應對大小和尺寸的改變以及不同的位置。這意味著對以前沒有看到的物體,比如你的臉,如果我向其它位置走一段距離,我仍然能認出那是你的臉。人的視覺能夠應對這種變化。這個發現很重要,具有革命性,可以在計算機視覺上得到應用。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


最近,我們還研究了心理物理學(psychophysics)。我們用韓語字元測試了不認識韓語的受試者。我們將兩套韓語字元用不同的大小或在不同的位置呈現,然後問受試者這些字元是不是一樣的。這些字元的呈現速度很快,所以受試者不能移動他們的眼睛。可以看到我們測試了不同的距離(大小)和角度。如果我們去模擬這樣的過程,或許就可以做出非常好的深度學習模型。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


看看我們的實驗結果。左邊是基於偏心距的現代深度學習模型,可以看到偏心距對準確度的影響不大(就像之前的心理物理學實驗一樣)。右邊是普通的深度學習模型。因此,這就為我們帶來一種基於偏心距的策略,這種策略非常依賴於移動你的眼睛。這決定了我們能更輕鬆或更難以識別出某些物體。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


我再回過來談一談深度學習的問題。深度學習有個奇怪的地方:它非常成功,但我們不知道為什麼。我們至少有三個理論問題需要解答。第一個是近似理論問題:深度網路何時以及為什麼比只有一個隱藏層的淺網路更好?第二問題是關於最佳化。第三問題是關於學習的泛化能力。


對於這三個問題,我們有一些答案。我們知道,八十年代以來,淺和深度網路都可以實現輸入和輸出之間的對映。但它們都面臨著維度災難(curse of dimensionality)的問題,也就是說所需引數的數量會隨著資料的維度指數級增長。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


現在,對於某些我們稱之為區域性組分函式(local compositional function)的特定類別的函式,雖然淺網路的引數數量還是會隨維度而指數增長,但深度網路的引數只會隨維度線性增長,從而能夠避開維度災難。這也是深度網路相對於淺網路的一個優勢。


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程



時間有限,對於其它兩個問題我就簡單談談。對於第二個問題,如果對深度網路採用標準的使用方法,通常需要非常多的引數,有時候這些引數權重的數量會超過訓練集中資料點的數量。比如,對於 CIFAR,可以有 30 萬個權重,而影像只有 6 萬張。這樣你事實上就會有無窮多個解決方案,所以不難找到一個。


第三個問題更重要:為什麼訓練後的深度網路能泛化到新的資料上呢?答案和動態系統的性質有關,涉及到梯度下降


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


分類任務的特定性質與深度網路很契合,但分類任務只是智慧任務中的一部分。現在整個科學界都在努力建立全面且優雅的深度學習理論。總而言之,我認為深度網路並不是智慧的最好解決方案,可能只能解決10% 的智慧任務。我們要基於神經科學和認知科學來尋找更好的解決方案。


謝謝!



延伸閱讀



三月,受騰訊 AI Lab 學術論壇邀請,機器之心在深圳採訪了深度學習理論研究著名學者 Tomaso Poggio。他以平直易懂的語言介紹了自己的「長篇系列工作」,也談了談他對理論指導實踐以及仿生學指導深度學習演算法發展等觀點的看法。


本文為機器之心原創,作者為邱陸陸,轉載請聯絡公眾號獲得授權。


Tomaso Poggio 的知名度,有相當一部分來源於他異常出色的導師身份:DeepMind 創始人及 CEO Demis Hassabis 和 Mobileye 創始人及 CTO Amnon Shashua,都是他的學生。這兩家公司一個創造出了擊敗了圍棋世界冠軍、重新定義這個專案的 AlphaGo,另一個將輔助駕駛系統裝進了全球超過 1500 萬輛車裡,製造了世界上第一款能在終端進行深度神經網路推理的量產車型的系統。Poggio 本人不僅鼓勵他的學生們以創業的形式將深度學習帶進現實世界,也親身投入指導了這兩家公司的早期創立。


然而在學術界,Poggio 的知名度更多來自於他的深度學習理論研究。他的論文非常好辨認——命名方式簡單粗暴如同長篇系列小說的就是他,《深度學習理論 II》,《深度學習理論 IIIb》…… 


MIT教授Tomaso Poggio演講與專訪:智慧背後的科學與工程


這個編號系統來自他對深度學習理論問題進行的拆分:在 Poggio 看來,深度學習理論研究問題分為三類:


 • 第一類是表達(representation)問題:為什麼深層網路比淺層網路的表達能力更好?

 • 第二類是最佳化(optimization)問題:為什麼 SGD 能找到很好的極小值,好的極小值有什麼特點?

 • 第三類是 泛化(generalization)問題:為什麼引數比資料還多,仍然可以泛化、不過擬合


對於每一類問題,他都嘗試以應用數學工具為基礎,透過舉出能夠用數學語言進行描述的例子然後給出解釋的方式,用理論推導(也輔以一定的實驗驗證)來說明自己的觀點。


深層網路表達組合函式的超強能力


早在 2002 年,Poggio 和著名數學家 Steve Smale 就合著了一篇論文[1],總結了那些經典學習理論,它們的共同點是,都相當於具有單一隱藏層的網路。Poggio 是這樣解釋他研究「表達」的初衷:「當時我們就提出了一個問題:為什麼大腦具有很多層?為什麼當傳統理論告訴我們使用單層網路的時候,大腦的視覺皮層其實在用許多層解決這一問題?」


毫無疑問,目睹了深度網路的成功後,同樣的問題再一次被擺上了檯面。


Poggio 認為,事實上無論是深層網路還是單層網路,都能相當不錯地近似任意連續函式——這也是上世紀 80 年代的學者們通常忽略多層網路而採用單層網路的原因。但是,問題的核心在於表達清楚一個函式所需要的維度:單層網路需要的單元數非常多,甚至比宇宙中的原子數還要多。這就是數學上所說的「維度災難」:引數的個數需要是方程維度的指數倍


為了跳出維度災難,過去的數學家嘗試假設方程的光滑性:他們發現,維度災難取決於「維度除以光滑性」。而深度學習給出了針對一類特定函式的獨特方法:如果近似的物件是一個組合函式,換言之,是一個函式巢狀函式的大函式,那麼深度網路擬合它所需的單元數和函式的維度是線性關係。換言之,無論維度多大,深度網路都能夠擺脫維度災難來擬合這個函式。


現在,能夠被深度神經網路很好地擬合的資料都具有組合函式的特點。以影像為例,想要分類一張影像,並不需要同時觀察左上角和右下角兩個相距甚遠的畫素,只需要觀察每一小塊,再將它們組合在一起。有了這種「組合」(compositional)的性質,當卷積神經網路被用來刻畫影像,甚至不需要引數共享的幫助,就能輕易擺脫維度災難。


而那些現在還不能被神經網路刻畫得很好的資料,通常都不是組合函式。但是知道「組合函式和神經網路很配」還遠遠不夠,Poggio 說,「作為電腦科學學者,甚至作為數學家,我們能不能進一步解釋一下組合函式,給出一些比『它是組合的』更明確的性質,從而更好地理解神經網路的工作機制。這對於我來說也是一個非常有趣的、希望更多研究者投入精力的開放問題。」


最佳化的致勝:取之不盡的引數和性質漂亮的 SGD


解線性方程組的時候,如果未知量的數量大於方程數,我們將收穫很多解。


神經網路處理資料的時候,以影像舉例子,包含 6 萬張訓練資料的 CIFAR 資料集,通常會用一個包含數十萬乃至上百萬引數神經網路進行處理——一個教科書般的過引數化(overparameterization)例子。


神經網路近似看成一個多項式——把每個具有非線性的小單元都用一個單變數多項式替代,得到一個由數十萬乃至上百萬多項式組成的大多項式,此時,想要在 CIFAR 上獲得 0 訓練誤差,就轉化成了一個解 6 萬個線性方程的問題。根據貝祖定理(Bézout's theorem),此時的解的數量比宇宙中的原子數量還多。另外,引數多於資料量帶來了「退化」(degenerate)性質:每一個解都對應著一個無限大的解集。


因此,引數化意味著,神經網路有無限多個退化的全域性最優解,它們在損失空間裡形成平坦的谷地


而眾所周知,隨機梯度下降(SGD)的特性就是會以較高的機率傾向於停留在退化的谷地裡,即,停留在全域性最優解上。二者的結合,就讓神經網路的最佳化變得輕鬆:確定有全域性最優、有很多,它們的特徵明顯,很容易被最佳化演算法找到。


就算過擬合也能泛化:分類問題交叉熵的絕妙搭配


引數化是最佳化的福音,同時也是泛化的噩夢。在經典機器學習裡,隨著最佳化進行,測試錯誤率會呈現一條先減後增的 U 型曲線,尤其是模型規模與資料規模不匹配的時候,後半段的過擬合是十分可怕的。


然而在深度學習裡,泛化錯誤率卻經常呈現一個「下降,然後停住不動」的態勢,即使不是零,也能保持在一個相當低的水準上。


Poggio 對此的解釋是:這是深度學習所進行的任務與所用的損失函式之間的特定組合帶來的美好化學反應。


具體來說,就是大多數神經網路都是用來解決分類問題(而不是迴歸問題)的,錯誤率通常以 0-1 損失計算,而目標函式卻通常是交叉熵


這種差異是因為 0-1 損失函式是好的效果衡量指標,卻並不適合做最佳化的目標函式。拿手寫數字分類器舉例,神經網路分類器最後是透過 softmax 轉 hardmax 來選擇分類類別的,這也就意味著,即使模型認為一張「1」的影像是「1」的機率只有 30%,但只要這 30% 是所有 10 個可能性中最高的,模型仍然會將這張影像分類為「1」。一個信心水平只有 30% 的模型,即使分類正確,也遠稱不上一個好模型,需要繼續最佳化。但是,如果選用 0-1 損失函式作為目標函式,只要分對了,該樣本的損失就是 0 了,沒辦法計算梯度,也自然沒辦法進行反向傳播來最佳化引數


選用交叉熵損失函式就沒有這個煩惱,你可以一直最佳化到信心水平無限接近 100%。


交叉熵函式與 0-1 損失這對組合的奇妙之處在於,即使測試集上的交叉熵過擬合了,分類誤差也不會過擬合


幾個月前,芝加哥大學的 Srebro 組的工作 [2] 證明了:對於單層線性網路來說,如果資料集噪聲較小、可分,那麼即使交叉熵過擬合了,分類誤差也不會過擬合


「這是一個非常優美的,角度獨特的工作。在此之上,我們用微分方程動力系統理論的工具證明了,在全域性最小值附近,深度網路表現得就像一個線性網路。因此,我們可以將 Srebro 工作的結果用在深度學習上,說明即使神經網路分類器的交叉熵過擬合了,分類器本身也不會過擬合。」


交叉熵的這一性質是最小平方誤差(least square error)等其他損失函式所不具備的,擁有這一性質的最簡單的損失函式是指數誤差(exponential loss)。而當我詢問究竟是交叉熵的哪些特質讓它擁有了如此特別的性質,是否和它的不對稱性有關,Poggio 表示這仍然是一個有待討論的問題。


以上就是 Poggio 的「深度學習理論三部曲」的內容概要了,詳情請參閱 [3-7]。


除了他的工作本身,我們也和他聊了一些關於深度學習理論工作的其他問題:


平坦的極小值意味著好的泛化能力嗎?一個觀點轉變


關於極小值的形狀與泛化之間的關係,Poggio 說,他的觀點轉變了:「確實有學者在工作中表示,平坦是有利於泛化的。大概一年多以前我也曾經發表過類似的觀點,但是我現在不再這麼認為了。」


在關於最佳化的研究中,Poggio 證明了平坦確實會讓最佳化過程變得容易,平坦的最小值也有更大可能是全域性最小值。「但是我不覺得它和泛化之間有直接的聯絡,起碼現在沒有。如今對於泛化能力的研究,依賴於分類問題、依賴於損失函式的選擇,卻不依賴於平坦。Bengio 兄弟兩人都參與的一篇論文就證明了,陡峭的極小值也是可以泛化的 [8],因為你完全可以透過改變不同層的引數,在不改變網路的輸入輸出關係的前提下,讓一個平坦的極小值變得陡峭。」


另外,他也認為完全平坦的極小值是不存在的,起碼對於現在這種以多項式網路為基礎新增非線性的神經網路來說,是不存在的。「我們都知道,一旦多項式在一個解集上都為 0,那麼這個多項式處處為 0,因此,我不覺得存在完全平坦的極小值了。」


對應用側的建議:小心過擬合


致力於應用深度學習演算法的工程師們最經常對深度學習的理論研究者提出的一個問題就是:「你的工作很棒,但請問這能如何幫助我訓練我的模型?」瞭解更多的理論知識當然具有啟發意義,但是理論研究範圍廣闊且往往十分艱深,究竟哪些理論研究有助於應用開發者,應用開發者應該瞭解理論到何種程度?


機器學習裡的無免費午餐定理No Free Lunch Theorem),也就是 Wolpert 在 1996 和 1997 年發表的兩篇著名論文裡 [9, 10] 所提到的,學習演算法之間沒有先驗區別,對於任何兩個演算法 A 和 B 來說,都存在一樣多的兩堆目標,對一堆目標來說 A 的檢驗誤差比 B 高,對另一堆來說 B 的檢驗誤差比 A 高。Poggio 援引了無免費午餐定理到理論研究中:不存在一個適用於所有問題的演算法,類似地,也很難給出一個普適性正確的理論陳述。


「理論通常給出的是通常情況或最壞情況的分析,他們給出建議,告訴你應該做/不做什麼,以避免最壞情況的發生。但是理論無法告訴你,對於一個特定案例來說,最佳方案是什麼。」


而他對今天的深度學習應用者的建議是,小心過擬合


「在過去幾十年的機器學習發展史中,我們學到的一課是,如果你的資料集沒有大到排除過擬合可能性,那麼在一個特定資料集上的最佳方法通常是過擬合的、無法擴充套件到其他資料集上的。並不是說學者們『偷看』了驗證集測試集,而是當一個社群的學者都在用不同的方法進行試錯,那麼一段時間後的最佳做法通常是過擬合了這個特定資料集的。」


「我曾經是一名物理學研究者,在我的學生時代,最普遍的經驗法則是,如果你想建立一個引數為 n 的模型,那麼至少要有規模為 2n 的資料,如果你想從統計的角度得出一些結論,更為推薦的資料規模是 10n。然而現在的深度學習研究者傾向於對所有問題都套用有數百萬引數的模型。我們得出的『深度學習模型不受過擬合困擾』的論證只適用於特定問題(分類)、且要求資料集質量良好(可分),因此深度學習研究者應該對過擬合持有更謹慎的態度。」


如何看待先驗?理論研究能夠告訴我們哪些關於先驗的結論呢?


人是很好的學習者,既不需要數百萬資料,也不需要資料有標籤,而這部分取決於我們與生俱來的、寫在基因裡的先驗知識。然而,關於先天與後天(nature versus nurture)的爭論從未停止。


「模型需要多少先驗,是一個不能一概而論的、沒有簡單答案的問題。」Poggio 總結道,「理論研究的目的是找到能夠做出特定預測所需的先驗的下限。」


他以迴歸問題舉例,「對於給定一些資料點來恢復一條曲線的任務來說,如果你什麼都不告訴我,那麼除非給我曲線上的所有點,否則我基本上什麼也做不了。連續是一個必須的先驗,但這還不夠。我起碼需要類似平滑(smothness)這樣的性質,才能進行預測。而最重要的還是資料量,樣本複雜度和先驗之間,存在一個權衡取捨的關係。」


深度學習能從人腦的學習過程中學到什麼?


三十年前,「深度學習之父」Geoffrey Hinton 用利於最佳化且計算高效的「反向傳播」將整個領域帶入了高速發展,而近年來,他則致力於尋找比反向傳播更有可能在仿生學(bionics)上成立的結構。


MIT 對於深度學習的研究素來與腦神經科學結合緊密,Poggio 是如何看待這一問題的呢?


「我認為從生物學上完成反向傳播並非完全不可能(not impossible),只能說,根據我們現在對神經元以及訊號傳遞機制的瞭解,可能性不大(unlikely)。然而我認為真正不可能的是對所有樣本的標註。」


「因此一個有趣的研究課題是,大腦是如何『繞開』標註的。例如,一個有趣的假設是,我們的視覺系統是以學習給影像『填色』來進行預訓練的,它接收到了顏色資訊,卻只給其他視覺皮層以黑白的灰度資訊,以此訓練一個能夠預測顏色的網路。在這個設定下,你不需要『神諭』(oracle)來告訴你真實的顏色是什麼,你是有這部分資訊的,只不過透過把它藏起來而建立了一個可以進行最佳化的模型。」


「類似的假設還有,大腦在不斷地預測下一幀影像並進行最佳化等等。而能夠預測顏色的、預測下一幀影像的視覺系統,是不是能夠更好地進行其他視覺任務呢?是不是能夠利用更少的資料就能學會識別物體呢?這都是有趣的開放問題,而且一旦得到答案後,將對深度學習產生巨大的推動。」

相關文章