世界頂級AI大神綜述深度學習
論文基本資訊
- 文章名稱 :Deep learning
- 作者 :Yann LeCun, Yoshua Bengio& Geoffrey Hinton
作者簡介
圖丨Yann LeCun、Geoffrey Hinton、Yoshua Bengio和吳恩達
大神的個人狀態
- Yann LeCun: Facebook公司AI研究部門首席科學家;紐約大學資料科學中心的創始人;紐約大學電腦科學,神經科學,電氣和計算機工程的白銀教授(Silver Professor)。
- Yoshua Bengio: 加拿大蒙特利爾大學電腦科學與應用學院的全職教授,蒙特利爾學習演算法研究所(MILA)的負責人;CIFAR機器和大腦專案聯合負責人;統計學習演算法加拿大研究主席。
- Geoffrey Hinton:由於妻子病重,目前已停止工作。
研究方向
- Yann LeCun:機器學習、計算機視覺、機器人、計算神經科學。同時對資料壓縮、數字圖書館、計算物理和所有機器學習的應用(視覺、語音、語言、文件理解、資料探勘、生物資訊)感興趣。
- Yoshua Bengio:致力於研究產生智慧的學習原理。他帶領了一個龐大的研究生和博士後團隊。他的研究工作被廣泛引用(截至2017年9月谷歌學術統計超過8萬次引用,H指數101)
- Geoffrey Hinton:深度學習、神經網路等。
大神個人網站
- Yann LeCun:http://yann.lecun.com/
- Yoshua Bengio:~bengioy/yoshua_en/index.html
- Geoffrey Hinton:~hinton/
特別說明
在全世界範圍內, Yann LeCun、Geoffrey Hinton和Yoshua Bengio 三人被公認是深度學習領域“三駕馬車” 。對於致力於發展人工智慧的企業來說,他們三人的地位相當於三國時代的“臥龍鳳雛”——得一便可得天下。
為紀念人工智慧提出60週年,三駕馬車首次合作了這篇綜述文章“Deep Learning”。 該文章是深度學習三駕馬車共同撰寫的深度學習綜述性文章,發表於Nature。 作為該領域的開創性先驅和領頭人, 對截至2015年的深度學習的發展、狀態及未來做了系統性梳理和總結。
在深度學習領域,該文章無論是站的高度還是分析的深度,均為世界頂級的代表作,正本清源,開宗明義,不可不讀。
摘要
深度學習可以使具有多個處理層的計算模型實現對多層次抽取的資料表徵的學習。 這些方法顯著提升了多個領域的極限效能,包括語音識別、視覺目標識別、目標檢測和許多 其它領域 ,例如藥物發現和基因領域等。 深度學習能夠發現大資料中的複雜結構,利用反向傳播算指導機器如何從前一層網路計算表徵,從而改變每一層的內部引數。 深度卷積網路在影像、影片、語音和音訊等方面的處理能力上帶來了突破性進展。迴圈神經網路在序列資料,如文字和語音方面的處理上,已經表現亮眼。
文章結構
精華內容
1.深度學習的核心特色與基本定義
深度學習是一種表徵學習(Representation learning)方法。把原始資料透過一些簡單的可是非線性的多層次表徵模型轉變成為更高層次的,更加抽象的表達。透過足夠多這樣的轉換組合,很複雜的函式也可以被學習。
深度學習的核心特色是這些多層結構中的特徵不是工程師手工設計的,而是透過一個通用目的的學習過程從資料中學習的。
2.深度學習在監督學習中應用的主要過程及優勢
描述了深度學習實現有監督類學習的過程 ,比如建立一個系統對影像進行分類:
1)收集大量資料集,標註影像中的目標;
2)構建深度學習網路,以向量的形式表示學習到的內容;
3)計算一個目標函式,衡量類別的輸出分數和期望分數之間的誤差(或距離);
4)透過自動修改內部的可調節的引數(通常被稱為權值),最佳化網路效能;
5)大部分從業者都使用一種叫做隨機梯度下降(SGD)的演算法進行權值調節,相比於其他最佳化技術,SGD的速度讓人驚奇;
6)訓練結束後,再透過不同於最佳化訓練的資料樣本測試系統的泛化能力,即對於未訓練過的新樣本的識別能力。
- 圖a:多層神經網路對輸入空間整合,使得資料線性可分;
- 圖b:鏈式法則推導過程,展示了x和y的兩個微笑變化是如何組合在一起的
- 圖c:具有兩個隱層和一個輸出層的神經網路的前向傳播過程
- 圖d:對比輸出與正確答案的誤差之後,神經網路的反向傳播過程
深度網路與傳統機器學習的重要區別: 傳統機器學習做分類的時候需要大量的先驗經驗和領域知識對分類特徵進行設計,但是又很難保證特徵的泛化能力。而深度學習可以透過網路來擬合特徵可以避免這種問題,因為深度學習透過多層結構從原始資料中得到的特徵可以同時提高特徵的區分選擇性和特徵不變形,而且可微小細節的特徵進行區分 ,如從白色的狼中區分出薩摩耶犬,同時忽略背景、亮度、姿勢等特徵。
3.反向傳播訓練方法:從被忽視到火爆
反向傳播演算法的核心演算法是用鏈式求導法則,即目標函式對於輸出層的導數(或梯度),透過該層向前一層求導實現,如此遞延一直傳遞到第一層(輸入層)。最後將特徵傳遞給一個非線性啟用函式,可以得到分類的結果。當前最流行的非線性啟用函式是ReLU,比起之前流行的tanh和sigmoid啟用函式,ReLU的學習速度更快,可以讓深度網路直接進行學習,而不需要做預訓練(pre-train)。
反向傳播方法其實在20世紀80年代就易用被用到多層網路的訓練之中,即隨機梯度下降演算法。但是直到2009年前後才被重新廣泛使用,這中間主要有兩個問題的突破。
- 一個是人們當時普遍認為反向傳播演算法使用的梯度下降會使整個最佳化陷入區域性極小困境,但實踐中發現,系統並沒有出現區域性極小問題,而是總能夠得到差不多的解,尤其是在資料量很大的時候。
- 二是GPU的出現,使得訓練過程得到了10倍或20倍的加速。
4.卷積神經網路的4個關鍵想法
區域性連線、權值共享、池化以及多網路層的使用
- 區域性連線:每一層影像的區域性塊,被一個叫做卷積的濾波器權值對映到特徵圖中;
- 權值共享:每一層的特徵圖使用的過濾器是相同的,不同層使用不同的濾波器;
- 池化:卷積層的作用是探測上一層特徵的區域性連線,然而池化層的作用是在語義上把相似的特徵合併起來,池化操作讓這些特徵對各種變化具有更好的魯棒性;
- 多層網路的使用:透過多層網路實現對低階特徵的組合,轉換為高階的特徵。
卷積網路中的卷積和池化層靈感來源於視覺神經科學中的簡單細胞和複雜細胞。這種細胞就是多層結構的視覺迴路,比如猴子的視覺神經中160個神經元變化與卷積網路相似。卷積神經網路有神經認知的根源,他們的架構有點相似。
近年來,卷積神經網路被廣泛應用於檢測、分割、物體識別以及影像的各個領域。其中人臉識別是最重要的應用。值得一提的是,卷積神經網路可以在畫素級別對影像進行識別。
5.分散式特徵表示與語言處理
對比傳統語言處理方法的2個巨大(指數級)優勢
深度學習使用分散式特徵表示(distributed representations),與傳統學習演算法相比具有兩個極大的優勢:
1)分散式特徵表示能夠很好的泛化能力,以適應新學習到的特徵值組合;
2)深度網路的組合多層進行表示,可以更加容易的預測目標輸出,這是第二個巨大的優勢,即指數級的深度。
這種特性的一個經典場景就是語言處理,比如將本地文字的內容作為輸入,訓練神經網路來預測句子的下一個單詞。傳統方法是基於邏輯啟發的,用符號表示實體,再用邏輯進行推理,這就需要對推理規則進行大量的手工設計,工作量巨大。而深度學習是基於神經網路的認知,可以利用大量的活動載體、權值矩陣和標量的非線性和,建立語義的向量空間,實現簡單容易、具有“直覺”推理能力的語言處理效果。
6.迴圈神經網路
適用於序列資料處理的方法
涉及序列輸入的任務,比如語音和語言,利用RNNs能獲得更好的效果 ,例如用於語言翻譯。RNNs一旦展開,可以看作一個所有層共享同樣權值的深度前饋神經網路。雖然目的是學習長期的依賴性,但理論和經驗的證據表明很難學習並長期儲存資訊。
為了解決這個問題, 一種採用了特殊隱式單元的LSTM(long-short-term memory networks)被提出,其自然行為便是長期儲存輸入。 LSTM增加了一種稱作記憶細胞的特殊單元,類似累加器和門控神經元:這個神經元在下一個時間步長中透過一個權值連線到自身,複製自身狀態的真實值和累積的外部訊號,這種自連線是由另一個單元(遺忘門)學習並決定何時清除記憶內容的乘法門控制的。
LSTM網路隨後被證明傳統的RNNs更加有效,尤其當每一個時間步長內有若干層時,整個語音識別系統能夠完全一致的將聲學轉錄為字元序列。目前LSTM網路或者相關的門控單元同樣用於編碼和編碼網路,並且在機器翻譯中表現良好。
7.深度學習的未來展望
無監督學習、增強學習、自然語言理解、複雜推理與表示學習結合
本文中主要討論了已取得巨大成功的有監督學習,但是作者們更加期待的方向在以下幾個方面:
1)無監督學習
2)CNN+RNN+增強學習=主動視覺學習系統
3)自然語言理解將被深度學習深刻的改變,深度學習將更好地理解整個文件
4)AI未來的巨大進步將來自那些結合了複雜推理和表示學習的系統
8.具有重要意義的引用文獻
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2600395/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- AutoML研究綜述:讓AI學習設計AITOMLAI
- 深度學習演算法簡要綜述(下)深度學習演算法
- 超解析度分析(二)--深度學習方案綜述深度學習
- 深度學習“見頂”不等於AI寒冬深度學習AI
- 基於深度學習的入侵檢測系統綜述文獻概述——AI科研之路深度學習AI
- 深度學習行人重識別ReID最新綜述與展望深度學習
- Action Recognition——基於深度學習的動作識別綜述深度學習
- 20篇頂級深度學習論文(附連結)深度學習
- 深度學習在推薦系統中的應用綜述(最全)深度學習
- 讀“基於深度學習的影像風格遷移研究綜述”有感深度學習
- Skymind創始人:分散式深度學習綜述(PPT全文下載)分散式深度學習
- 聯邦學習綜述性論文聯邦學習
- 《基於深度學習的目標檢測綜述》論文獲發表深度學習
- 一文綜述用於推薦系統的所有深度學習方法深度學習
- 深度學習大神Hinton推翻自己30年的學術成果另造新世界深度學習
- 從傳統方法到深度學習,人臉關鍵點檢測方法綜述深度學習
- DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習強化學習智慧體
- 系統學習NLP(十二)--文字表示綜述
- 「技術綜述」影象與CNN發家簡史,集齊深度學習三巨頭CNN深度學習
- 最新綜述:多標籤學習的新趨勢
- 基於深度學習的場景文字檢測和識別(Scene Text Detection and Recognition)綜述深度學習
- 深度學習目標檢測模型全面綜述:Faster R-CNN、R-FCN和SSD深度學習模型ASTCNN
- 關於AI數學和科學標準化測試的綜述AI
- 7大類深度CNN架構創新綜述CNN架構
- 簡析AI(深度學習)AI深度學習
- 如何走近深度學習人臉識別?你需要這篇超長綜述 | 附開原始碼深度學習原始碼
- 阿里推薦與搜尋引擎-AI·OS綜述阿里AI
- 簡述遷移學習在深度學習中的應用遷移學習深度學習
- Spring綜述Spring
- API安全綜述API
- 柴天佑院士深度綜述:指明自動化科學與技術發展方向
- Nature 機器智慧綜述:AI如何自動生成遊戲AI遊戲
- 系統學習NLP(十)--詞性標註演算法綜述詞性標註演算法
- 7 Papers | 深度強化學習綜述、圖靈71年前未發表的智慧機器論文強化學習圖靈
- TPAMI | 安全強化學習方法、理論與應用綜述,慕工大、同濟、伯克利等深度解析強化學習
- Sora是世界模擬器嗎?全球首篇綜述全面解析通用世界模型Sora世界模型
- 點雲深度學習:多一維看世界深度學習
- 視覺SLAM綜述視覺SLAM