一張圖輕鬆解讀《財富》人工智慧萬字長文,關於深度學習的前世今生

百度AI發表於2016-11-11

百度大腦導讀:

自然語言處理、語音識別、使用者畫像、無人駕駛……這些和深度神經網路(即深度學習)相關的技術在最近幾年突然火了起來,但深度學習並不是憑空冒出來的。它從最初的概念誕生,到現今備受技術和資本的青睞,歷經了幾十年的起起伏伏。讀完這篇文章,你將弄清楚深度學習的前世今生。

這篇文章主要解讀的是美國《財富》雜誌(Fortune)近期釋出的一篇名為「為何深度學習將突然改變你的生活」(Why deep learning is suddenly changing your life)的文章。這篇文章翻譯成中文有上萬字,但我們將只用一張圖表和 10 分鐘向你拆解這篇長文,講述深度學習是如何成長為今天的樣子的。

神經網路最早的概念誕生於 20 世紀 50 年代,而一些關鍵的演算法突破則是在 80 至 90 年代才出現,今天深度神經網路能夠得到廣泛應用,得益於計算機硬體效能的大幅提升,以及海量資料的產生。

用百度首席科學家吳恩達的話來說,深度學習的進展和計算能力的提高和資料的增長密不可分。通俗地講,我們可以把它類比於建造太空火箭:「你需要大功率火箭發動機,你也需要大量的燃料。如果你有許多燃料但只擁有小功率發動機,你的火箭大概無法飛離地面。如果你擁有大功率發動機但只有一點點燃料,你的火箭即使飛上天也無法進入軌道。」

計算能力的提高相當於發動機功率的提高,而資料就像是燃料。

一張圖輕鬆解讀《財富》人工智慧萬字長文,關於深度學習的前世今生

上世紀 50 年代,神經網路的研究潮流才剛剛在電腦科學家們之間流行起來。

1958 年,在一項受美國海軍支援的專案中,康奈爾大學的心理學家 Frank Rosenblatt 搭建了神經網路的原型並給它取名為 Perceptron,它利用的是佔據了整整一個房間大小的穿孔卡片計算機。經過 50 次測驗,Perceptron 能夠區分兩種不同的卡片,其中一種左側帶有記號,另一種右側帶有記號。

Perceptron 軟體結構和神經元類似,但和人腦神經的多層結構相比,只具有單層神經元的 Perceptron 能力有限,於是人們開始研究如何開發多層神經網路,也就是我們現在所說的深度神經網路。

神經網路先驅 Geoffrey Hinton 舉了個例子:深度神經網路辨認圖片裡的一隻鳥的過程。

它會先對輸入的畫素進行分析,如果其中的一些線條兩側亮度相差很大,它會判斷出這可能是鳥的輪廓,並把資料傳遞給下一層神經網路。後者繼續沿著線條去尋找一些和鳥類貼合的特徵,比如線條轉折交匯處形成的角度是不是和鳥類的喙的尖角相似。如果得到確認,資料會進入下一層,神經網路尋找更加複雜的外型,比如同樣的線條有沒有大致地圍成一圈,形狀和鳥類頭部的相似性。再下一層,神經網路確定類似鳥嘴的形狀和頭部的形狀是不是以恰當的方式接合在一起,如果是的話它就有相當充分的證據來說明這是一隻鳥的頭部了。

深度神經網路以類似的方式來對資料進行分析,每一層神經網路都基於上一層極的判斷去分析更加複雜和抽象的特徵,直到最高一層形成對整體形象的判斷。

在 Hinton 提出他的想法之前,60 年代末乃至整一個 70 年代,人們都懷疑深度神經網路的可行性,例如著名的人工智慧科學家 Marvin Minsky。直到 Hinton 和其他科學家找到了訓練深度神經網路、糾正其錯誤的方法時,深度神經網路才重回人們的視野。

改變深度學習的這個關鍵過程就是,除了像前面描述到的那樣將資訊層層推進分析,如果最後得出的結果是不匹配,深度神經網路還需要把這一資訊逐層返回給更低一級的類神經元,以便它們調整啟用來最佳化最後的結果,這就是深度神經網路學習的過程。

1986 年,Hinton 和他的兩位同事發表了一篇論文,其中他們提供了一種演算法來解決這種錯誤修正難題,深度神經網路學習能力的質疑得到了解決,神經網路的第二波潮流由此開始。

之後直到 20 世紀 90 年代中期,影像識別、手寫數字辨識、自然語言處理等系列技術都取得了奠基性的成果,這些技術成果至今仍然在廣泛應用。

20 世紀最後的幾年裡,受限於當時的計算能力,深度學習還不是機器學習中最高效的工具,這種有點超前的技術不可避免地再次遇冷。1997 年,IBM 著名的人工智慧深藍打敗了當時的國際象棋冠軍 Garry Kasparov,但它採用的並非深度神經網路技術。

直到 2007 年,史丹佛大學教授李飛飛成立了 ImageNet 並開始組建一個有標記圖片的資料庫,兩年後該資料庫組建完成,1400 萬張經過標記的圖片免費開放給機器學習研究者使用。此時硬體的計算效能也已提高到了足夠處理這些資料的程度,火箭需要的發動機和燃料都有了,是時候試飛了。

這裡我們需要解釋一點,為什麼 ImageNet 出現之前網際網路上大量的開放資料不能被應用於深度學習?這也是目前深度學習面臨的侷限,大部分深度學習創造的價值仍然來自於監督學習技術。監督學習技術需要基於系統曾經接受過的其他例項輸入,來學習對東西進行分類或對結果進行預測。

例如前面提到的,給你一張圖片,請你把鳥從圖片裡找出來。或者像給你一封郵件,請你判斷它是不是垃圾郵件。在監督學習的過程中,深度神經網路先前接受的這些輸入資訊需要有一個標記資訊,它相當於我們做訓練題時的參考答案,深度神經網路把自己的分析結果和它進行對比,從而最佳化分析過程和糾正錯誤。如果輸入的資訊中沒有關於實際上圖片裡有沒有鳥的標記,或者關於這封郵件實際上是不是垃圾郵件的標記,它就無從學習。這就像我們做完練習題卻並不知道自己答得對不對,這對於我們下一次碰到類似的題目大概毫無助益。因此,ImageNet 這樣「有參考答案的習題」就顯得十分關鍵。

當然我們還知道另一種深度學習技術:無監督學習。

2012 年 6 月,谷歌推出的「貓實驗」專案就是對無監督學習的一次探索。在「貓實驗」中,谷歌大腦開發的一個大規模神經網路憑藉 1000 萬張來自 YouTube 的未標記圖片學會了分辨貓。吳恩達當時正是谷歌大腦的負責人,他當時發現經過無監督學習的神經網路對人臉也有辨識,但也有一些神經網路辨識出來的特徵他們沒能找到對應的詞彙,無監督學習方面的演算法在很大程度上仍然處於搖籃期。

隨後的幾年裡深度神經網路技術被運用到谷歌的語音識別、圖片搜尋乃至前一陣子的谷歌中英文互譯當中。它最耀眼的時刻仍然是配備神經網路的 AlphaGo 擊敗韓國世界級棋手李世石的那一刻。

而在商用方面,能夠將深度學習進行商業應用的仍然是幾家掌握了海量資料的公司,例如百度、Google、微軟和 Facebook。目前百度大腦已經將深度神經網路技術應用到語音識別、翻譯、圖片搜尋以及百度無人車等領域中,並且取得了一些驚人的成就。

以語音識別為例,來自史丹佛、百度以及華盛頓大學的資料科學家們在今年進行了一項研究,對語音識別輸入效率和打字輸入效率做了對比,該研究採用的深度學習技術來自百度深度網路語音識別系統 Deep Speech 2,其對中文(普通話)和英文的語音識別輸入速度比打字快 3 倍左右,錯誤率則明顯少於後者。參與其中的一位史丹佛電腦科學博士表示,儘管他們有過大概的預期,但實驗結果還是讓人吃驚。

「在過去,許多標普 500 指數公司的 CEO 希望自己能早點意識到網際網路戰略的重要性。我想從現在開始的今後 5 年也會有一些標普 500 指數公司的 CEO 後悔沒有早點思考自己的 AI 戰略。」這是吳恩達對人工智慧戰略地位的概括,人工智慧技術的重要性已不言而喻,而深度學習也許是其中最值得期待的一項。

一張圖輕鬆解讀《財富》人工智慧萬字長文,關於深度學習的前世今生

相關文章