吳恩達對話LeCun:神經網路跌宕四十年

量子位發表於2018-04-06
夏乙 栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

Yann LeCun,深度學習三巨頭之一。

最近,這位AI領域的傳奇大牛,接受了另一位大牛吳恩達的視訊專訪。在這次對話中,LeCun回顧了卷積神經網路、反向傳播的歷史,以及他如何從一個默默無聞的“法國小孩”,一步步走到今天。

這是一段激盪四十年的故事。

是一段AI科學家的個人奮鬥,也是一段AI復興的歷史程式。

這場訪談,也是DeepLearning.ai課程的一部分。

以下,就是吳恩達對話LeCun的主要內容,量子位聽譯整理,並且在不改變原意的基礎上,進行了調整和註釋。

完整訪談視訊,文末有傳送門。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

入行記

吳恩達:你投入神經網路的研究已經很久,我想聽聽你自己的故事,你是怎麼開始入行的?怎麼投入了AI、神經網路之中?

LeCun:我一直都對智慧這件事感興趣,例如人類的智慧是如何出現的,我在孩提時代就對人類的進化很感興趣。

吳恩達:當時你還在法國?

LeCun:對。

(量子位注:LeCun生於1960年,臨近巴黎的一個地方。以下括號內文字,皆為量子位新增的註釋。)

大概在初中左右,我開始對科技、宇宙等感興趣,我最喜歡的電影是《2001太空漫遊》(1968年上映),那裡面有智慧機器、星際旅行、人類進化等等讓我著迷的東西。其中關於智慧機器的概念特別吸引我。

後來我學了電氣工程,在大二的時候無意中看到一本討論哲學的書,是關於MIT計算語言學家喬姆斯基(Avram Noam Chomsky)和兒童心理學家皮亞傑(Jean Piaget)之間的一場辯論。

(這場辯論發生在1975年10月,就在法國巴黎附近的Royanmont。二人的辯論主題是:從人的語言機制和語言習得角度來探討兒童發展問題)

640?wx_fmt=jpeg

這本質上是一場關於自然(先天)還是使然(後天)的辯論。

喬姆斯基認為語言是基於一套天賦的習得機制(語言器官),而皮亞傑認為語言是後天練習的結果。

在皮亞傑這一邊,還有來自MIT的Seymour Papert(人工智慧先驅、LOGO語言創始人),他一直在研究感知器(Perceptron)模型。

我之前從來沒聽說過感知器,讀了報導之後,才知道這是一個能學習的機器,這聽起來太讚了。然後我開始在各個大學的圖書館裡,尋找一切關於感知器的內容。

看了Seymour Papert那本合寫的書(《感知器》,另一位作者是明斯基),我才知道很多論文都來自50年代,然後在60年代停滯了。

吳恩達:這是哪年?

LeCun:大約是1980年。當時在學校跟教授做過一些關於神經網路的專案,但基本上找不到人一起討論,因為這個領域那時基本消失了。1980年,沒人研究這些。與此相關的實驗就是編寫各種模擬軟體,讀神經科學的書。

當我完成工程方向的學習後,開始學習晶片設計。畢業之後,對我吸引力最大的一個問題是:如何訓練多層的神經網路?

60年代的文獻並沒有解決這個問題。我讀了福島邦彥關於新認知機(Neo-cognition)的文章,裡面講述了分層結構,跟我們現在的卷積網路很像,但是沒有反向傳播學習演算法。

後來我在法國一個很小的獨立實驗室裡,遇到一群人,他們對自動機網路(Automata Networks)很感興趣,他們給了我幾份研究霍普菲爾德網路(Hopfield Networks)的論文。

霍普菲爾德網路第一次結合了儲存系統和神經網路,這讓一些研究人員在80年代初,重新燃起對神經網路的熱情,其中大部分是物理學家、凝聚態物理學家和一些心理學家。那時工程師和電腦科學家才不會談論神經網路。

他們還給我看了另一篇論文,當時還是預印版本,題目是:Optimal Perceptual Inference,這是第一篇關於玻爾茲曼機(BM)的論文,作者是Geoffrey Hinton和Terrence Sejnowski。

640?wx_fmt=jpeg

其中討論了隱藏單元、多層神經網路等,雖然只是一個簡單的分類器。但是看完之後,我說我十分想見作者,因為他們已經找到正確的方向。

幾年之後,我開始讀博的時候,在La Douche(位於加勒比海,法屬瓜德羅普島上)參加了一個workshop。Terry(即Terrence Sejnowski)是其中的一個演講者,那是我們第一次見面。

吳恩達:當時是80年代初?

LeCun:1985年初。那是一個非常有趣的workshop,我還遇見了一些來自貝爾實驗室的人,後來我也去了貝爾實驗室,不過這是幾年後的事情了。

我跟Terry說,我正在研究反向傳播,那時還沒有寫出來反向傳播的論文。他當時的談的也是這個話題。那時Rumelhart、Hinton和Williams關於反向傳播的論文還沒釋出。

(這篇論文即:Learning representations by back-propagating errors,1986年釋出於《Nature》)

Terry是Hinton的朋友,資訊都是互通的,所以他那會兒已經開始研究如何應用反向傳播。但他當時沒跟我說這些。

後來他回到美國,跟Hinton說法國有個小孩,也在研究跟我們一樣的東西。幾個月後,6月的法國又舉辦了另一個會議,Hinton發表了主題演講,談論了玻爾茲曼機以及他正在研究的反向傳播論文。

演講結束後,大約有50個人圍住他想要交流。不過他跟主辦方說的第一句話是:你們知道Yann LeCun麼?因為他讀了我的法語論文。Hinton能讀一點法語,而且其中的數學部分他能看出來是哪種反向傳播。

然後我們一起吃了午餐,從此變成朋友。

640?wx_fmt=jpeg

 Hinton和LeCun在2006年的一次相聚

吳恩達:我明白了。因為你們各自獨立地(重新)發明了反向傳播。

LeCun:是的。我們發現,其實反向傳播最早是60年代,在最優控制的研究中發明出來的,它出自鏈式法則,或者按照搞最優控制的那些人的說法,叫joint state method。

反向傳播的實質,是你可以將梯度下降用在很多階段上的一個想法,這個概念在各個領域、各個時期出現了很多次。

但是我認為,是Rumelhart、Hinton、Williams那篇論文讓這個概念流行了起來。

貝爾實驗室的日子

640?wx_fmt=jpeg

吳恩達:你在AT&T貝爾實驗室的時候,開發了許多東西,包括LeNet。還記得有一年夏天我在貝爾實驗室實習的時候,還聽說過你當年的戰績。可以幫我講講AT&T和LeNet的故事嗎?

LeCun:故事要從我在多倫多大學做Geoff Hinton博士後的時候說起,那也是我開始研究卷積網路的時候。我最早寫的程式碼和最早做的實驗都在多倫多。

當年,資料集很小,也沒有Endless之類的東西,我自己用滑鼠畫了一堆字母,然後做擴增,來測試系統的表現。

我對比了全連的網路,本地連線且無權值共享的網路與共享權值的網路,這就是最早的卷積網路。發現它對小資料集非常友好,有了卷積結構,就不會過度擬合。

1988年10月,我到了貝爾實驗室,第一件要做的事就是擴充套件網路,因為有了更快的計算機。

在我入職的幾個月前,老闆Larry Jackel問我想要什麼電腦。我說現在Sun 4最牛B,要是能來一臺就好了。然後,我就有了一臺,回想在多倫多整個系只有一臺Sun 4。Larry告訴我,貝爾實驗室沒有省錢的風俗。簡直不要太好。

我來之前,貝爾實驗室已經在做字元識別的事情了。它們有一個巨大的資料集叫USPS,包含5000個訓練樣本。於是,我就設計了一個卷積網路,其實就是LeNet的前身。訓練效果非常好,比之前其他人用其他方法得出的結果都要好。

這樣一來,我們就知道自己有了一個非常超前的東西。我才到了貝爾三個月,就有了這樣的成果。

那時的卷積網路,沒有分開子取樣和池化層,所以每個卷積都是直接做的子取樣。之所以沒有,是因為計算量太大了,每個位置都要一個卷積的話,我們承受不起。

不過,第二個版本就有了分開的池化層和子取樣,我覺得這真的就是LeNet 1了。我們在這上面發表了挺多論文的。

有一個好玩的故事。關於LeNet,我在NIPS做過一個演講,當時Geoff Hinton就坐在觀眾席。等我講完回到座位,他就在我旁邊。Hinton說,你的演講只有一丟丟資訊,那就是——如果把所有合理的事情都做了,就會有效果。

640?wx_fmt=jpeg

吳恩達:LeNet後來改寫了歷史,那個時候AT&T就已經開始用它來讀支票了。

LeCun:是啊。它在AT&T內部大規模使用,但在外面就沒有。

我也不知道為什麼,可能是80年代還沒有網際網路,FTP上有電子郵件,但不是網際網路。隨便兩個實驗室之間,用的硬體和軟體平臺都不一樣。

那個時候,沒有Python和MATLAB之類的東西,大家自己寫自己的一套程式碼。我和Leon Bottou花了一年半,才寫出一個神經網路模擬器。還要寫一個翻譯器,然後我們就寫了自己的LISP翻譯器。所以LeNet都是用LISP寫的,後端和現在的TensorFlow之類已經很像了。

我們還開發了一堆別的應用。那時候,我們和一群高智商的工程師合作,比如Chris Burgess後來在微軟研究院有了一片天地。和這些人在一起,我們開發了一些字元識別系統,和現在的CRF很像,可以讀取一系列字元,而不只是單個字母了。

吳恩達:所以說LeNet論文是將神經網路和自動機結合了起來。

LeCun:對,論文的前半部分講的是卷積神經網路,很多人都認為這部分很一顆賽艇;後半部分可能沒幾個人讀過,講的是一種不需要正則化的序列級判別學習和基本結構預測,實際上和CRF很像。

這個系統當時很成功。不過,就在我們和一家大銀行達成合作部署了這個系統,吃飯慶祝的時候,當時是1995年,AT&T宣佈拆分成3家公司:AT&T、朗訊和NCR。

我們實驗室屬於AT&T,技術團隊去了朗訊,產品團隊卻在NCR。

特別特別不幸的是,AT&T的律師們使出了他們無窮的智慧,給卷積神經網路申請了一個專利,歸屬於NCR。可是NCR那些人甚至根本不知道卷積神經網路是怎麼回事,我們和技術團隊也沒法繼續開發這個系統。挺鬱悶的。

謝天謝地這個專利2007年過期了。

640?wx_fmt=jpeg

 2002年,後來大部分人都從AT&T離開了

神經網路寒冬

吳恩達:在神經網路的寒冬裡,你也還是在堅持這個研究方向,這是一種什麼感覺?

LeCun:我在某些方面堅持了,有的方面也沒堅持。

我始終相信這些技術最終會復興,人們會想清楚怎麼把它投入實際應用。這個想法始終在我腦海中。

但是1996年AT&T拆分之後,數字識別也沒法繼續做了,我升了職,成了一個部門主管。這個時候,我得思考這個部門接下來要幹什麼。

當時網際網路剛剛興起,我覺得網際網路帶來了一個巨大問題,就是怎樣將之前儲存在紙上的海量知識搬到數字世界裡。

於是我搞了個叫DjVu的專案,壓縮掃描圖片的體積,方便通過網際網路分發。

這個專案很好玩,也算取得了一些成功,但是AT&T沒想出來該用它幹什麼。

(DjVu的主頁:http://yann.lecun.com/ex/djvu/)

吳恩達:我記得這個,當時用來線上分享論文。

LeCun:對,我們掃描了整本的NIPS論文集,把它放到網上,來展示這項技術。一張高解析度圖片能壓縮到只有幾kb大小。

復興

640?wx_fmt=jpeg

吳恩達:你早期的工作已經佔領了整個計算機視覺領域,甚至還擴充套件到了其他領域。你怎麼看待這個程式?

LeCun:哈哈哈我早知道會這樣。

首先,我始終相信這種方法有用,它需要快速的計算機和大量的資料,但我始終相信這是正確的方法。

最開始我還在貝爾實驗室的時候,我認為它會隨著機器變得更強,持續沿著某個方向發展下去,我們當時甚至在設計專門執行卷積神經網路的晶片。

所以你看,我們以為人們會逐漸對這個東西感興趣,它會持續發展。

但實際上人們對神經網路的熱情在20世紀90年代完全熄滅了,從1995年到大概2002年,有六七年的黑暗期,沒人研究這個。

其實也有一點點研究,2000年左右,微軟在研究用卷積神經網路來識別漢字。還有一些人臉檢測之類的小研究。

我最近發現,在我們發表第一篇CNN論文之後,還有一些團隊獨立發展出了和卷積神經網路類似的方法,用在醫療影像的識別上。但他們沒和我們一樣去發表,也沒進入專業研究的視野中。

就在最黑暗的幾年裡,有些人和我們有著同樣的想法。

2012年ImageNet之後,人們對卷積神經網路的興趣飛速提升,其實讓我有點驚訝。
640?wx_fmt=png
(Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton組成的SuperVision隊,在ImageNet ILSVRC2012的分類和定位任務中奪冠,這個奪冠的卷積神經網路就是AlexNet,論文:Classification with Deep Convolutional Neural Networks)

2012年在佛羅倫薩的那屆ECCV上,ImageNet的Workshop很有意思。現在大家都知道,那年Geoff Hinton的團隊在ImageNet比賽中遙遙領先,Workshop上所有人都在等他的學生Alex Krizhevsky演講。

不過那個時候,很多搞計算機視覺的人都不知道卷積神經網路是什麼。他們應該聽我講過,2000年我還在CVPR上講過一回,但是大多數人都沒怎麼注意到。

歲數大一點的人知道卷積神經網路,年輕人嘛,就完全沒概念了。

Krizhevsky講的時候,完全沒解釋卷積神經網路是什麼,直接就開始說你們看這兒,這些東西都是連線起來的,我們怎麼轉換資料,怎麼得到這個結果……

他是搞機器學習的,以為所有人都知道這個東西。很多人聽著就非常驚訝,在他演講的過程中,你都能從大家的臉上看到他們想法的變化。

吳恩達:所以,你認為那個Workshop是讓計算機視覺界轉變觀念的決定性時刻?

Lecun:對,就是在那兒發生的。

FAIR

640?wx_fmt=jpeg

吳恩達:現在你在NYU任教,同時還領導著FAIR,Facebook AI Research。我聽說你對於企業應該怎樣做研究有著獨特的觀點,願意談一談嗎?

LeCun:過去4年裡,我在Facebook感覺最美好的一件事,就是我有很大的自由,能夠按我認為最合適的方式來建立FAIR。

這是他們第一個研究院。Facebook是一家以工程為中心的公司,它已經10歲了,IPO也很成功,但是至今主要專注於生存,或者短期的事情。祖克伯要思考下一個十年,對Facebook來說什麼會很重要。公司的生存已經不再是個問題,終於有能力考慮下一個十年。

馬克和他的團隊認為在連線人類這件事上,AI是一項關鍵的技術。他們在內部建立了一個小組,用卷積神經網路在人臉識別等方面取得了不錯的成績,於是對這個方向更有興趣了。

於是他們嘗試了很多種方法,比如說僱一群年輕的研究員,收購AI公司,最後決定在這個領域僱個長者,建立一個研究機構。

640?wx_fmt=jpeg

最開始還有一些文化衝突。

因為研究院和工程團隊的執行方式完全不同,研究院有著更長的時間表、更寬的視野,科研人員對工作地點的選擇又非常保守。

我在最開始的時候就決定,研究需要是開放的,要鼓勵研究員們發表論文,甚至必須發表論文,研究成果要有一致的衡量標準。

馬克和CTO邁克(Mike Schroepfer)就說,Facebook是個非常開放的公司,我們在開源領域有不少貢獻,CTO來自Mozilla,是開源領域出來的,公司還有不少人以前是搞開源的,開放就刻在公司的DNA裡,他們很自信能設立一個開放的研究機構。

Facebook對智慧財產權不像某些公司那麼強迫症,於是和高校合作就更容易,讓研究員們可以一腳踩在學術界,一腳踩在工業界。

如果你去看我過去四年發表的論文,大部分是和我在NYU的學生們一起完成的。在Facebook,我做的事情主要是組織實驗室、招人、定科研方向、做顧問等等。但是,我沒什麼機會參與到某個研究專案裡,把名字留在論文上。

你知道,我現在也不怎麼在乎把名字留在論文上了,但是……

給年輕人的建議

640?wx_fmt=jpeg

吳恩達:對於想進入AI領域的人,你有什麼建議?

LeCun:這個領域和我剛進入的時候,已經是兩個完全不同的世界了。

我認為現在有一點非常好,人們想在某種程度上參與進來很容易了,工具很多、很好用,比如TensorFlow、PyTorch等等。你只需要一臺不算貴的電腦,坐在臥室裡,就能訓練你的卷積神經網路、迴圈神經網路來做任何事情了。

你也可以用線上的學習資料學很多東西,也不是很麻煩。

所以現在連高中生都在搞神經網路了,我覺得很好,學生群體對機器學習和AI的熱情在增長,看到年輕人蔘與進來,很一顆賽艇。

我的建議是,如果你想進入這個領域,讓你自己有用,比如說去為開源專案做貢獻。比如說你找不到某個演算法的程式碼,可以自己實現,分享給其他人,找一篇你認為很重要的論文,實現其中的演算法,開源出來。或者你也可以去為現有的那些開源專案做貢獻。

如果你寫的東西很有趣、很有用,人們就會注意到你,可能就會找到一份自己想要的工作,或者申請到最想讀的PhD。

吳恩達:謝謝Yann,這些故事的細節今天聽起來還是很有意思。

LeCun:有很多這樣的故事,發生的時候,你根本不知道它們十到二十年後顯示出怎樣的重要性。

訪談視訊

這段訪談視訊,現在可以在YouTube上檢視。

我們也搬運了一份到國內,如果你不想翻牆,可以在量子位後臺回覆“對話”兩個字,即可獲得所有相關地址。

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關文章