秦農序
前期“科學Sciences”介紹了密歇根大學學士,麻省理工學院(MIT)博士、美國數學家、電子工程師和密碼學家,被譽為資訊理論創始人、數字計算機理論和數位電路設計理論的創始人,天才人物 克勞德·艾爾伍德·夏農(Claude Elwood Shannon, 1916.4.30-2001.2.24)的12條從工作到生活中可借鑑的經驗《克勞德·夏農10000小時訪談:天才如何思考、工作和生活——五年寫書學到12條教訓》,和他眾多發明創造中的典型《“忒修斯Theusus”早期機器學習演示——克勞德·夏農1950年的模仿遊戲》。本期“科學Sciences”介紹矽谷 李虎《AI寒冬中的守夜人——從學術棄子到圖靈宗師》,闡釋深度神經網路的誕生、被學界業界鄙視、到一戰成名捧得圖靈獎的人工智慧技術歷程。歡迎繼續閱讀秦隴紀《神經網路之父Geoffrey Hinton傑弗裡·欣頓跨過人工智慧寒冬談深度學習》,包括辛頓(Hinton)簡歷及其個人主頁推薦的30篇深度學習論文列表。以期幫助科學愛好者和工作者,能從思維方法上接近科學技術殿堂。
AI寒冬中的守夜人——從學術棄子到圖靈宗師
文|原創:矽谷李虎,源|少年矽谷夢,科學Sciences©201910-29Tue
2004年冬天的多倫多,天空飄著大雪,寒風刺骨。比天氣更冷的,是正在肆虐的第二次AI寒冬,對於 辛頓(Hinton)來說,這已經是他多倫多大學度過的第十七個冬天了。
還記得十七年前,人工智慧兩大學派正式決裂,“ 仿生學派”與” 理性學派”決戰華山之巔,結果仿生學派兵敗如山倒,從此再也得不到美國政府和產業界的任何經費資助,幾乎所有仿生學派的教授學者都紛紛堅持不住,退出了江湖。
幾乎所有的人,除了辛頓。
1987年,在確認了所有美國的科研院校都不再資助神經網路型別的人工智慧研究後,辛頓義無反顧地來到了加拿大多倫多大學,只因為這裡依然可以資助他所堅信的研究方向。
然而好景不長,本以為來到“世外桃源”就可以安心研究,可這場學術之爭終究燒到了加拿大,自九十年代中期後,加拿大政府也不再資助神經網路的研究了,與此同時,更為慘淡的是,就連華山論劍中的勝者也地位不保;人們發現理性主義陣營的代表之作“專家系統”也被發現根本沒有學習新知識的能力,至多算的是個知識稍微豐富一點的“死字典”。
曾經,在八十年代早中期,人們對人工智慧曾經給予了厚望,日本甚至將人工智慧列為首要的國家發展戰略,狂熱之後,便是一地雞毛。在投入了超過了數十億美元卻毫無進展之後,心寒的人們選擇不再相信,緊接著便是八十年代晚期到兩千年世代早期的第二次AI寒冬。
在多倫多和AI最凜冽的寒風中,在理性主義者的“異端歧視”下,在整個社會都失去信心的時光中,辛頓沒有放棄,相反,一個大膽而宏偉的計劃卻在他的腦海中形成了。
一個可以讓仿生學派浴火重生的計劃。
一個可以讓人工智慧重回歷史浪潮的科技革命。
一個可以改變人類命運的偉大變革。
“就差這麼一個機會了。”
AI寒冬裡的守夜人,深度學習革命的奠基人
想發動一場成功的科技革命,就像發動任何一場成功的革命一樣,僅僅有堅定的信仰還是不夠的,還需要盟友,錢,還得拉的起一支打仗過硬的隊伍。
辛頓依然有一個強大的盟友,加拿大政府。
2004年,在辛頓的推動下,加拿大政府重啟了塵封多年的神秘學術組織CIFAR(CanadianInstitute for Advanced Research)。
在CIFAR的資助一下,辛頓終於拿到了一小筆可以用於計算神經學研究的經費了。有了錢,終於可以招兵買馬,養博士博後,買裝置攢資料,專心研究了。
然而理性主義流派的 狙 擊,也才剛剛開始。
還記得曾經感知機,那個單層的,線性的,不可訓練的神經網路雛形嗎?經過一代仿生人不懈的發展,配合非線性啟用函式,多層堆疊,以及辛頓發展出的反向傳播訓練技術,兩千年初期的神經網路已經解決單層限制,線性限制,和不可訓練這三大瓶頸。
然而新的瓶頸也一點不客氣滴橫在仿生學派者的面前:多層的神經網路難以訓練,層數越深的神經網路就越是難以訓練。
想重振神經網路,就必須解決深度神經網路的訓練問題。
然而在理性主義者看來,這根本就是一個不可能解決的問題:反向傳播的數學本質就是微積分中的鏈式法則,而層數越是加深就越是會出現梯度消失和梯度爆炸的問題。
理性主義者狠狠地抓住這個弱點不放,在2004至2006年,關於神經網路的論文統統遭到了人工智慧頂級期刊ICML的拒絕。
“克服深度神經網路不可訓練這一錯誤信念,在人工智慧發展的歷史上是至關重要的。我們之前給ICML呈送了一篇論文,結果同行把這篇論文拒收了,只是因為這是關於神經網路的。事實上,如果你觀察去年的ICML期刊,一篇在標題有“神經網路”的論文都沒有,所以ICML不受任何與神經網路有關的論文。” 辛頓在一次授課中說道。
面對神經網路自身巨大不足和理性主義者的極限打壓下,辛頓沒有自我懷疑。他想到的,是他的初心。這位1947年出生的教授,自少年時代想知道大腦是怎麼工作的,然而學生時代學習的生理學和心理學卻都不能解答自己心中的疑問,於是人工智慧,成了他畢生的追求。
作為一個仿生學派者,他堅信智慧是從類似人腦一樣的大型神經網路/複雜聯結中孕育而生的。然而,他的博士生導師 Higgins卻是一個堅定的理性主義者,認為智慧應該從嚴密的形式邏輯和符號系統中推導而生。遺憾的是,那時候還處於萌芽期的仿生學派,其主力模型感知機(perceptron)是一種單層的,線性的,不可訓練的神經網路雛形。
理性主義巨擘,麻省理工人工智慧實驗室創始人 馬文·明斯基(Marvin Minsky),敏捷地抓住了感知機的漏洞和不足,指出感知機模型連最基本的非線性函式,異或函式(XOR function)都無法擬合,於是曾經遙遙領先的仿生學派學派兵敗如山倒,而理性主義者又適時地推出了專家系統(Expert System)這一“得意之作”佔領學術界和工業界的制高點,這才有了開始的那一幕,學術棄子辛頓敗走楓葉之城。
然而辛頓沒有放棄,英雄之所以是英雄,就是因為他們是為這樣的時刻而生!
偉大的品牌重塑:深度神經網路 + 機器學習 = 深度學習
打鐵還需自身硬,先解決神經網路自身的不足。
既然多層深度神經網路難以訓練,為什麼一定要全網路端到端訓練,而不是先進行逐層預訓練呢?
聰明的辛頓先將每一層的神經網路初始化為限制級玻爾茲曼機進行預訓練,在每層都初始化後再進行最終的端到端訓練,雖然在我們2019年的的大資料,大算力時代這看起來十分原始青澀,卻是那個時代(2004~2006)最好的方案了。
然而理性主義者偏見猶存,論文屢屢被拒。
就在這最黑暗的時候,革命家辛頓又出手了。
2006年,以辛頓為第一作者,深度學習革命的開篇之作,“A Fast Learning Algorithm for Deep Belief Nets”橫空出世,經過仿生派學者幾十年的苦心打磨,他們終於能夠推出一版可訓練,可學習的“深度”神經網路。為了昭示這樣的神經網路和歷史上淺層的或難以訓練的神經網路的不同,仿生學派者們取了“深度神經網路”的“深度”和“機器學習”的“學習”,創造出了“深度學習”之新品牌,成為了仿生學派最新的主力模型。
就在仿生學派者彈冠相慶,慶祝自家學派終於取得了巨大的歷史性突破時,理性主義者卻不以為意,與最新崛起的統計學習流派結盟,大力發展以SVM(SupportVector Machine)為代表的Kernel Method. SVM天生就有簡單優雅的數學表示和深厚的數學基礎,天生就對把邏輯和推理視作生命的理性主義學派有著致命的吸引力。與此相反,亂糟糟的,東拼西湊的,沒有數學基礎的深度學習,在理性主義者看來,就像弗蘭肯斯坦生物實驗室裡的一頭猙獰怪獸,不僅毫無美感,也不可能指向真正的強人工智慧。
於是乎,雖然仿生學派的深度學習開始展露頭腳,可理性主義者聯合統計學家的SVM卻也出手不凡,在很多技術指標上都超過了深度學習演算法。
理性主義者依舊不把仿生學派者放在眼裡,這場百年的恩恩怨怨,似乎還沒有結束。
這是一場深度學習與SVM之間的巔峰對決,作為仿生派與理性派最先進,最前沿的當家模型,誰能取得勝利,誰就能贏得AI武林的下一個二十年!
面對理性派的藐視,辛頓沒有說話,他揮了揮衣袖,仿生派大軍壓境。
“屠榜”。
屠榜
馬上就要進行最後的戰略決戰,辛頓瞄準了機器學習感知最核心的兩個任務,語音識別和影像分類。
辛頓找來了自己的博後 LeCun負責影像,而自己的在AT&T的老部下 Bengio來搞自然語言處理。
就在兩派在為最後的決戰做著準備的時候,“資料女工” 李飛飛也在加緊建設她的影像資料庫ImageNet,為兩派的最後一戰搭好擂臺。
為了備戰,辛頓對深度學習進行的大刀闊斧的改革。
他瞄準了備受對手詬病的梯度消失和梯度爆炸問題。
可訓練性是機器學習模型的生命之魂,曾經的感知機便是摔倒於此,如今的深度學習絕不能重蹈覆轍。
辛頓發現,是神經網路層與層之間的非線性聯結函式Sigmoid出了問題,在聯結函式的選擇上,仿生派似乎理性派附體,太過注重聯結函式的連續,可微,和光滑屬性,然而這樣的“好”的數學性質卻會在多層的非線性巢狀下“失去光澤”,長尾的sigmoid在連續微分下只能是爆炸或消失的命運。
Sigmoid中看不中用。
一番思考後,辛頓選擇了ReLU函式作為新的非線性聯結函式,一個連續,零點不可導,零點不光滑的“醜陋”函式。
理性主義者笑掉了大牙,猙獰怪獸上唯一好看的花紋也被辛頓畫成了小丑。
可他們很快就笑不出來了,辛頓的選擇不無道理,ReLU的導數恰好是Step函式,非0即1,0代表神經元睡眠,1代表神經元啟用,不拖泥帶水,就是這麼簡單粗暴。
稍稍加強了己方的弱點,還沒歇兩口氣,他們就很快就遇到了新的問題。算力不足。
語音識別和影像分類可不比曾經的數字識別之類的簡單小任務,資料量呈數量級的增長,傳統的CPU訓練硬體早已難以為繼,長達數月的模型訓練週期空耗著研究者的青春,革命面臨著糧草不足的窘境。
好比渴望稱霸宇宙的滅霸需要集齊六顆無限寶石,已經擁有深度學習演算法之靈魂寶石的辛頓也需要超強算力,這顆力量寶石,才能問鼎人工智慧的王者巔峰。
一位辛頓的學生發現,與其用CPU,我們其實可以用高效能GPU顯示卡進行平行計算從而高效地訓練深度學習模型。
100倍的提升,兩個數量級!曾經三個月才能訓練好的模型如今只需一天就可出爐了。
顯示卡大廠Nvidia也抓住了這個歷史機遇,推出CUDA擴充套件包,每年都迭代升級GPU,從而保證了深度學習的強大算力。
力量寶石,就此開啟。
隨著演算法的最佳化和算力的提升,辛頓和仿生學派者們發現,其實曾經的神經網路逐層預訓練其實沒有必要。
只要資料集足夠大,採用最佳化後的非線性最佳化函式ReLU,以及強大的算力加持,全網路端到端的深度學習就能爆發出神經網路的最大潛能。
從此集齊靈魂寶石演算法,力量寶石算力,和大資料現實寶石的辛頓,正式奠基了現代意義上的深度學習。
靈魂寶石演算法 + 力量寶石算力 + 現實寶石資料 = 深度學習
2009年的時候,深度學習就在語音識別的任務上表現出了戰平甚至超越傳統演算法的表現。而在此後,遞迴神經網路,長短期記憶神經網路等神經網路變種長期霸佔榜單第一,也成了工業界的標配。
真正的拐點是2012年。
作為唯一一個仿生學派的參賽團隊,辛頓團隊在ImageNet影像識別任務以正確率84.6%(Top 5 Acurracy)榮獲了第一名的好成績,而第二名僅僅為73.8%。此後卷積神經網路一騎絕塵,一直霸榜至今,準確率也達到了98%(2019年,Top 5 Accuracy)甚至超過了人類的平均水平。
學術界高潮了。
人工智慧界太久沒有見過這麼巨大的突破了,大批學者和學生大批湧入,產業界的鉅額投入,風靡全球的科技浪潮,以及各國政府的宏觀政策和國家戰略,等等等等,最初的濫觴,都源於有這麼一個人,在多倫多最冷的冬天,依然有著一份對神經網路火一般的執著!
一部40年的神經網路發展史。
一部仿生學派與理性學派相愛相殺60年的華麗史詩。
一部人工智慧與科技革命的百年浪潮。
到了今天,終於來到他生命中的高光時刻。
“如果你有一個創意你覺得肯定是對的,就不用讓別人來告訴你是傻的。忽略他們就好了。”
—— Geoffrey E. 辛頓,深度學習之父,2018年圖靈獎得主