吳恩達對話LeCun:神經網路跌宕四十年
夏乙 栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
Yann LeCun,深度學習三巨頭之一。
最近,這位AI領域的傳奇大牛,接受了另一位大牛吳恩達的視訊專訪。在這次對話中,LeCun回顧了卷積神經網路、反向傳播的歷史,以及他如何從一個默默無聞的“法國小孩”,一步步走到今天。
這是一段激盪四十年的故事。
是一段AI科學家的個人奮鬥,也是一段AI復興的歷史程式。
這場訪談,也是DeepLearning.ai課程的一部分。
以下,就是吳恩達對話LeCun的主要內容,量子位聽譯整理,並且在不改變原意的基礎上,進行了調整和註釋。
完整訪談視訊,文末有傳送門。
入行記
吳恩達:你投入神經網路的研究已經很久,我想聽聽你自己的故事,你是怎麼開始入行的?怎麼投入了AI、神經網路之中?
LeCun:我一直都對智慧這件事感興趣,例如人類的智慧是如何出現的,我在孩提時代就對人類的進化很感興趣。
吳恩達:當時你還在法國?
LeCun:對。
(量子位注:LeCun生於1960年,臨近巴黎的一個地方。以下括號內文字,皆為量子位新增的註釋。)
大概在初中左右,我開始對科技、宇宙等感興趣,我最喜歡的電影是《2001太空漫遊》(1968年上映),那裡面有智慧機器、星際旅行、人類進化等等讓我著迷的東西。其中關於智慧機器的概念特別吸引我。
後來我學了電氣工程,在大二的時候無意中看到一本討論哲學的書,是關於MIT計算語言學家喬姆斯基(Avram Noam Chomsky)和兒童心理學家皮亞傑(Jean Piaget)之間的一場辯論。
(這場辯論發生在1975年10月,就在法國巴黎附近的Royanmont。二人的辯論主題是:從人的語言機制和語言習得角度來探討兒童發展問題)
這本質上是一場關於自然(先天)還是使然(後天)的辯論。
喬姆斯基認為語言是基於一套天賦的習得機制(語言器官),而皮亞傑認為語言是後天練習的結果。
在皮亞傑這一邊,還有來自MIT的Seymour Papert(人工智慧先驅、LOGO語言創始人),他一直在研究感知器(Perceptron)模型。
我之前從來沒聽說過感知器,讀了報導之後,才知道這是一個能學習的機器,這聽起來太讚了。然後我開始在各個大學的圖書館裡,尋找一切關於感知器的內容。
看了Seymour Papert那本合寫的書(《感知器》,另一位作者是明斯基),我才知道很多論文都來自50年代,然後在60年代停滯了。
吳恩達:這是哪年?
LeCun:大約是1980年。當時在學校跟教授做過一些關於神經網路的專案,但基本上找不到人一起討論,因為這個領域那時基本消失了。1980年,沒人研究這些。與此相關的實驗就是編寫各種模擬軟體,讀神經科學的書。
當我完成工程方向的學習後,開始學習晶片設計。畢業之後,對我吸引力最大的一個問題是:如何訓練多層的神經網路?
60年代的文獻並沒有解決這個問題。我讀了福島邦彥關於新認知機(Neo-cognition)的文章,裡面講述了分層結構,跟我們現在的卷積網路很像,但是沒有反向傳播學習演算法。
後來我在法國一個很小的獨立實驗室裡,遇到一群人,他們對自動機網路(Automata Networks)很感興趣,他們給了我幾份研究霍普菲爾德網路(Hopfield Networks)的論文。
霍普菲爾德網路第一次結合了儲存系統和神經網路,這讓一些研究人員在80年代初,重新燃起對神經網路的熱情,其中大部分是物理學家、凝聚態物理學家和一些心理學家。那時工程師和電腦科學家才不會談論神經網路。
他們還給我看了另一篇論文,當時還是預印版本,題目是:Optimal Perceptual Inference,這是第一篇關於玻爾茲曼機(BM)的論文,作者是Geoffrey Hinton和Terrence Sejnowski。
其中討論了隱藏單元、多層神經網路等,雖然只是一個簡單的分類器。但是看完之後,我說我十分想見作者,因為他們已經找到正確的方向。
幾年之後,我開始讀博的時候,在La Douche(位於加勒比海,法屬瓜德羅普島上)參加了一個workshop。Terry(即Terrence Sejnowski)是其中的一個演講者,那是我們第一次見面。
吳恩達:當時是80年代初?
LeCun:1985年初。那是一個非常有趣的workshop,我還遇見了一些來自貝爾實驗室的人,後來我也去了貝爾實驗室,不過這是幾年後的事情了。
我跟Terry說,我正在研究反向傳播,那時還沒有寫出來反向傳播的論文。他當時的談的也是這個話題。那時Rumelhart、Hinton和Williams關於反向傳播的論文還沒釋出。
(這篇論文即:Learning representations by back-propagating errors,1986年釋出於《Nature》)
Terry是Hinton的朋友,資訊都是互通的,所以他那會兒已經開始研究如何應用反向傳播。但他當時沒跟我說這些。
後來他回到美國,跟Hinton說法國有個小孩,也在研究跟我們一樣的東西。幾個月後,6月的法國又舉辦了另一個會議,Hinton發表了主題演講,談論了玻爾茲曼機以及他正在研究的反向傳播論文。
演講結束後,大約有50個人圍住他想要交流。不過他跟主辦方說的第一句話是:你們知道Yann LeCun麼?因為他讀了我的法語論文。Hinton能讀一點法語,而且其中的數學部分他能看出來是哪種反向傳播。
然後我們一起吃了午餐,從此變成朋友。
△ Hinton和LeCun在2006年的一次相聚
吳恩達:我明白了。因為你們各自獨立地(重新)發明了反向傳播。
LeCun:是的。我們發現,其實反向傳播最早是60年代,在最優控制的研究中發明出來的,它出自鏈式法則,或者按照搞最優控制的那些人的說法,叫joint state method。
反向傳播的實質,是你可以將梯度下降用在很多階段上的一個想法,這個概念在各個領域、各個時期出現了很多次。
但是我認為,是Rumelhart、Hinton、Williams那篇論文讓這個概念流行了起來。
貝爾實驗室的日子
吳恩達:你在AT&T貝爾實驗室的時候,開發了許多東西,包括LeNet。還記得有一年夏天我在貝爾實驗室實習的時候,還聽說過你當年的戰績。可以幫我講講AT&T和LeNet的故事嗎?
LeCun:故事要從我在多倫多大學做Geoff Hinton博士後的時候說起,那也是我開始研究卷積網路的時候。我最早寫的程式碼和最早做的實驗都在多倫多。
當年,資料集很小,也沒有Endless之類的東西,我自己用滑鼠畫了一堆字母,然後做擴增,來測試系統的表現。
我對比了全連的網路,本地連線且無權值共享的網路與共享權值的網路,這就是最早的卷積網路。發現它對小資料集非常友好,有了卷積結構,就不會過度擬合。
1988年10月,我到了貝爾實驗室,第一件要做的事就是擴充套件網路,因為有了更快的計算機。
在我入職的幾個月前,老闆Larry Jackel問我想要什麼電腦。我說現在Sun 4最牛B,要是能來一臺就好了。然後,我就有了一臺,回想在多倫多整個系只有一臺Sun 4。Larry告訴我,貝爾實驗室沒有省錢的風俗。簡直不要太好。
我來之前,貝爾實驗室已經在做字元識別的事情了。它們有一個巨大的資料集叫USPS,包含5000個訓練樣本。於是,我就設計了一個卷積網路,其實就是LeNet的前身。訓練效果非常好,比之前其他人用其他方法得出的結果都要好。
這樣一來,我們就知道自己有了一個非常超前的東西。我才到了貝爾三個月,就有了這樣的成果。
那時的卷積網路,沒有分開子取樣和池化層,所以每個卷積都是直接做的子取樣。之所以沒有,是因為計算量太大了,每個位置都要一個卷積的話,我們承受不起。
不過,第二個版本就有了分開的池化層和子取樣,我覺得這真的就是LeNet 1了。我們在這上面發表了挺多論文的。
有一個好玩的故事。關於LeNet,我在NIPS做過一個演講,當時Geoff Hinton就坐在觀眾席。等我講完回到座位,他就在我旁邊。Hinton說,你的演講只有一丟丟資訊,那就是——如果把所有合理的事情都做了,就會有效果。
吳恩達:LeNet後來改寫了歷史,那個時候AT&T就已經開始用它來讀支票了。
LeCun:是啊。它在AT&T內部大規模使用,但在外面就沒有。
我也不知道為什麼,可能是80年代還沒有網際網路,FTP上有電子郵件,但不是網際網路。隨便兩個實驗室之間,用的硬體和軟體平臺都不一樣。
那個時候,沒有Python和MATLAB之類的東西,大家自己寫自己的一套程式碼。我和Leon Bottou花了一年半,才寫出一個神經網路模擬器。還要寫一個翻譯器,然後我們就寫了自己的LISP翻譯器。所以LeNet都是用LISP寫的,後端和現在的TensorFlow之類已經很像了。
我們還開發了一堆別的應用。那時候,我們和一群高智商的工程師合作,比如Chris Burgess後來在微軟研究院有了一片天地。和這些人在一起,我們開發了一些字元識別系統,和現在的CRF很像,可以讀取一系列字元,而不只是單個字母了。
吳恩達:所以說LeNet論文是將神經網路和自動機結合了起來。
LeCun:對,論文的前半部分講的是卷積神經網路,很多人都認為這部分很一顆賽艇;後半部分可能沒幾個人讀過,講的是一種不需要正則化的序列級判別學習和基本結構預測,實際上和CRF很像。
這個系統當時很成功。不過,就在我們和一家大銀行達成合作部署了這個系統,吃飯慶祝的時候,當時是1995年,AT&T宣佈拆分成3家公司:AT&T、朗訊和NCR。
我們實驗室屬於AT&T,技術團隊去了朗訊,產品團隊卻在NCR。
特別特別不幸的是,AT&T的律師們使出了他們無窮的智慧,給卷積神經網路申請了一個專利,歸屬於NCR。可是NCR那些人甚至根本不知道卷積神經網路是怎麼回事,我們和技術團隊也沒法繼續開發這個系統。挺鬱悶的。
謝天謝地這個專利2007年過期了。
△ 2002年,後來大部分人都從AT&T離開了
神經網路寒冬
吳恩達:在神經網路的寒冬裡,你也還是在堅持這個研究方向,這是一種什麼感覺?
LeCun:我在某些方面堅持了,有的方面也沒堅持。
我始終相信這些技術最終會復興,人們會想清楚怎麼把它投入實際應用。這個想法始終在我腦海中。
但是1996年AT&T拆分之後,數字識別也沒法繼續做了,我升了職,成了一個部門主管。這個時候,我得思考這個部門接下來要幹什麼。
當時網際網路剛剛興起,我覺得網際網路帶來了一個巨大問題,就是怎樣將之前儲存在紙上的海量知識搬到數字世界裡。
於是我搞了個叫DjVu的專案,壓縮掃描圖片的體積,方便通過網際網路分發。
這個專案很好玩,也算取得了一些成功,但是AT&T沒想出來該用它幹什麼。
(DjVu的主頁:http://yann.lecun.com/ex/djvu/)
吳恩達:我記得這個,當時用來線上分享論文。
LeCun:對,我們掃描了整本的NIPS論文集,把它放到網上,來展示這項技術。一張高解析度圖片能壓縮到只有幾kb大小。
復興
吳恩達:你早期的工作已經佔領了整個計算機視覺領域,甚至還擴充套件到了其他領域。你怎麼看待這個程式?
LeCun:哈哈哈我早知道會這樣。
首先,我始終相信這種方法有用,它需要快速的計算機和大量的資料,但我始終相信這是正確的方法。
最開始我還在貝爾實驗室的時候,我認為它會隨著機器變得更強,持續沿著某個方向發展下去,我們當時甚至在設計專門執行卷積神經網路的晶片。
所以你看,我們以為人們會逐漸對這個東西感興趣,它會持續發展。
但實際上人們對神經網路的熱情在20世紀90年代完全熄滅了,從1995年到大概2002年,有六七年的黑暗期,沒人研究這個。
其實也有一點點研究,2000年左右,微軟在研究用卷積神經網路來識別漢字。還有一些人臉檢測之類的小研究。
我最近發現,在我們發表第一篇CNN論文之後,還有一些團隊獨立發展出了和卷積神經網路類似的方法,用在醫療影像的識別上。但他們沒和我們一樣去發表,也沒進入專業研究的視野中。
就在最黑暗的幾年裡,有些人和我們有著同樣的想法。
2012年ImageNet之後,人們對卷積神經網路的興趣飛速提升,其實讓我有點驚訝。
(Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton組成的SuperVision隊,在ImageNet ILSVRC2012的分類和定位任務中奪冠,這個奪冠的卷積神經網路就是AlexNet,論文:Classification with Deep Convolutional Neural Networks)
2012年在佛羅倫薩的那屆ECCV上,ImageNet的Workshop很有意思。現在大家都知道,那年Geoff Hinton的團隊在ImageNet比賽中遙遙領先,Workshop上所有人都在等他的學生Alex Krizhevsky演講。
不過那個時候,很多搞計算機視覺的人都不知道卷積神經網路是什麼。他們應該聽我講過,2000年我還在CVPR上講過一回,但是大多數人都沒怎麼注意到。
歲數大一點的人知道卷積神經網路,年輕人嘛,就完全沒概念了。
Krizhevsky講的時候,完全沒解釋卷積神經網路是什麼,直接就開始說你們看這兒,這些東西都是連線起來的,我們怎麼轉換資料,怎麼得到這個結果……
他是搞機器學習的,以為所有人都知道這個東西。很多人聽著就非常驚訝,在他演講的過程中,你都能從大家的臉上看到他們想法的變化。
吳恩達:所以,你認為那個Workshop是讓計算機視覺界轉變觀念的決定性時刻?
Lecun:對,就是在那兒發生的。
FAIR
吳恩達:現在你在NYU任教,同時還領導著FAIR,Facebook AI Research。我聽說你對於企業應該怎樣做研究有著獨特的觀點,願意談一談嗎?
LeCun:過去4年裡,我在Facebook感覺最美好的一件事,就是我有很大的自由,能夠按我認為最合適的方式來建立FAIR。
這是他們第一個研究院。Facebook是一家以工程為中心的公司,它已經10歲了,IPO也很成功,但是至今主要專注於生存,或者短期的事情。祖克伯要思考下一個十年,對Facebook來說什麼會很重要。公司的生存已經不再是個問題,終於有能力考慮下一個十年。
馬克和他的團隊認為在連線人類這件事上,AI是一項關鍵的技術。他們在內部建立了一個小組,用卷積神經網路在人臉識別等方面取得了不錯的成績,於是對這個方向更有興趣了。
於是他們嘗試了很多種方法,比如說僱一群年輕的研究員,收購AI公司,最後決定在這個領域僱個長者,建立一個研究機構。
最開始還有一些文化衝突。
因為研究院和工程團隊的執行方式完全不同,研究院有著更長的時間表、更寬的視野,科研人員對工作地點的選擇又非常保守。
我在最開始的時候就決定,研究需要是開放的,要鼓勵研究員們發表論文,甚至必須發表論文,研究成果要有一致的衡量標準。
馬克和CTO邁克(Mike Schroepfer)就說,Facebook是個非常開放的公司,我們在開源領域有不少貢獻,CTO來自Mozilla,是開源領域出來的,公司還有不少人以前是搞開源的,開放就刻在公司的DNA裡,他們很自信能設立一個開放的研究機構。
Facebook對智慧財產權不像某些公司那麼強迫症,於是和高校合作就更容易,讓研究員們可以一腳踩在學術界,一腳踩在工業界。
如果你去看我過去四年發表的論文,大部分是和我在NYU的學生們一起完成的。在Facebook,我做的事情主要是組織實驗室、招人、定科研方向、做顧問等等。但是,我沒什麼機會參與到某個研究專案裡,把名字留在論文上。
你知道,我現在也不怎麼在乎把名字留在論文上了,但是……
給年輕人的建議
吳恩達:對於想進入AI領域的人,你有什麼建議?
LeCun:這個領域和我剛進入的時候,已經是兩個完全不同的世界了。
我認為現在有一點非常好,人們想在某種程度上參與進來很容易了,工具很多、很好用,比如TensorFlow、PyTorch等等。你只需要一臺不算貴的電腦,坐在臥室裡,就能訓練你的卷積神經網路、迴圈神經網路來做任何事情了。
你也可以用線上的學習資料學很多東西,也不是很麻煩。
所以現在連高中生都在搞神經網路了,我覺得很好,學生群體對機器學習和AI的熱情在增長,看到年輕人蔘與進來,很一顆賽艇。
我的建議是,如果你想進入這個領域,讓你自己有用,比如說去為開源專案做貢獻。比如說你找不到某個演算法的程式碼,可以自己實現,分享給其他人,找一篇你認為很重要的論文,實現其中的演算法,開源出來。或者你也可以去為現有的那些開源專案做貢獻。
如果你寫的東西很有趣、很有用,人們就會注意到你,可能就會找到一份自己想要的工作,或者申請到最想讀的PhD。
吳恩達:謝謝Yann,這些故事的細節今天聽起來還是很有意思。
LeCun:有很多這樣的故事,發生的時候,你根本不知道它們十到二十年後顯示出怎樣的重要性。
訪談視訊
這段訪談視訊,現在可以在YouTube上檢視。
我們也搬運了一份到國內,如果你不想翻牆,可以在量子位後臺回覆“對話”兩個字,即可獲得所有相關地址。
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 吳恩達機器學習系列11:神經網路吳恩達機器學習神經網路
- 吳恩達神經網路-第一週吳恩達神經網路
- 吳恩達機器學習筆記——八、神經網路吳恩達機器學習筆記神經網路
- 吳恩達機器學習筆記 —— 9 神經網路學習吳恩達機器學習筆記神經網路
- 吳恩達機器學習課程 筆記5 神經網路吳恩達機器學習筆記神經網路
- 吳恩達《神經網路與深度學習》課程筆記(4)– 淺層神經網路吳恩達神經網路深度學習筆記
- 吳恩達《神經網路與深度學習》課程筆記(5)– 深層神經網路吳恩達神經網路深度學習筆記
- 吳恩達《Machine Learning》精煉筆記 5:神經網路吳恩達Mac筆記神經網路
- 吳恩達《卷積神經網路》課程筆記(1)– 卷積神經網路基礎吳恩達卷積神經網路筆記
- 吳恩達《序列模型》課程筆記(1)– 迴圈神經網路(RNN)吳恩達模型筆記神經網路RNN
- 吳恩達論文登上Nature Medicine!利用神經網路診斷心率不齊吳恩達神經網路
- 吳恩達《卷積神經網路》課程筆記(3)– 目標檢測吳恩達卷積神經網路筆記
- 吳恩達《神經網路與深度學習》課程筆記(2)– 神經網路基礎之邏輯迴歸吳恩達神經網路深度學習筆記邏輯迴歸
- 吳恩達《卷積神經網路》課程筆記(4)– 人臉識別與神經風格遷移吳恩達卷積神經網路筆記
- 吳恩達《Machine Learning》精煉筆記 4:神經網路基礎吳恩達Mac筆記神經網路
- 吳恩達《神經網路與深度學習》課程筆記(3)– 神經網路基礎之Python與向量化吳恩達神經網路深度學習筆記Python
- 我的作業筆記:吳恩達的Python機器學習課程(神經網路篇)筆記吳恩達Python機器學習神經網路
- 吳恩達機器學習筆記 —— 10 神經網路引數的反向傳播演算法吳恩達機器學習筆記神經網路反向傳播演算法
- 吳恩達《優化深度神經網路》課程筆記(2)– 優化演算法吳恩達優化神經網路筆記演算法
- 吳恩達《神經網路與深度學習》課程筆記(1)– 深度學習概述吳恩達神經網路深度學習筆記
- 吳恩達《卷積神經網路》課程筆記(2)– 深度卷積模型:案例研究吳恩達卷積神經網路筆記模型
- 吳恩達深度學習筆記(deeplearning.ai)之卷積神經網路(CNN)(上)吳恩達深度學習筆記AI卷積神經網路CNN
- 吳恩達《最佳化深度神經網路》課程筆記(2)– 最佳化演算法吳恩達神經網路筆記演算法
- 吳恩達《優化深度神經網路》課程筆記(1)– 深度學習的實用層面吳恩達優化神經網路筆記深度學習
- 吳恩達深度學習:簡單卷積網路吳恩達深度學習卷積
- 吳恩達深度學習:單層卷積網路吳恩達深度學習卷積
- 吳恩達《最佳化深度神經網路》課程筆記(1)– 深度學習的實用層面吳恩達神經網路筆記深度學習
- 白話深度神經網路神經網路
- Yann LeCun、吳恩達等的2019年AI趨勢預測Yann LeCun吳恩達AI
- 吳恩達深度學習課最新補充教程:互動式demo助你輕鬆理解神經網路初始化吳恩達深度學習神經網路
- 吳恩達:四個步驟,讓大模型變得更好吳恩達大模型
- 吳恩達機器學習筆記(3)吳恩達機器學習筆記
- 吳恩達機器學習提交問題吳恩達機器學習
- 2024吳恩達機器學習吳恩達機器學習
- 吳恩達《優化深度神經網路》課程筆記(3)– 超引數除錯、Batch正則化和程式設計框架吳恩達優化神經網路筆記除錯BAT程式設計框架
- 資源 | Hinton、LeCun、吳恩達......不容錯過的15大機器學習課程都在這兒了LeCun吳恩達機器學習
- Tensorflow系列專題(四):神經網路篇之前饋神經網路綜述神經網路
- 吳恩達《最佳化深度神經網路》課程筆記(3)– 超引數除錯、Batch正則化和程式設計框架吳恩達神經網路筆記除錯BAT程式設計框架