來源:Yann LeCun
編譯:米粒
Yann LeCun 是卷積神經網路的發明人,Facebook 人工智慧研究院的負責人。下文的 150 張 PPT,是 LeCun 對深度學習領域的全面而細緻的思考。LeCun 非常堅定看好無監督學習,認為無監督學習是能夠提供足夠資訊去訓練數以十億計的神經網路的唯一學習形式。
但 LeCun 也認為,這要做好非常難,畢竟世界是不可理解的。我們來看看 LeCun 在這 150 張 PPT 中,究竟給我們帶來什麼樣的驚喜。
如需下載全文,請在新智元訂閱號回覆 0326 下載。
深度學習
作者Yann Le Cun
紐約大學,柯朗數學科學學院(CourantInstitute of Mathematical Science, NYU),
Facebook 人工智慧研究
大腦是智慧機器存在的依據
-鳥和蝙蝠是重於空氣飛行存在的依據
大腦
今天高速處理器
我們能夠通過複製大腦來開發人工智慧系統嗎?
電腦離大腦運算能力只有1萬次方差距嗎?很有可能是100萬次方:突觸是複雜的。1百萬次方是30年摩爾定律
最好從生物學裡獲取靈感;但是如果沒有了解基本原理,僅從生物學裡生搬硬造,註定要失敗。飛機是從飛鳥那裡獲取的靈感;他們使用了同樣的飛行基本原理;但是,飛機並不振翅飛翔,也沒有羽翼。
讓我們從自然裡汲取靈感,但不需要依葫蘆畫瓢
模仿自然是好的,但是我們也需要去了解自然。對於飛機而言,我們開發了空氣動力學以及可壓縮流體動力學,我們知道了羽毛和振翅不是關鍵。
1957年:感知機(第一臺學習機器)
具有適應性“突觸權重”的一個簡單的模擬神經元,計算輸入的加權總和,如果加權總和高於閾值,則輸出+1,反之則輸出-1。
感知機學習演算法
通常的機器學習(監督學習)
設計一臺帶有可調節旋鈕的機器(與感知機裡的權重類似);選取一個訓練樣本,經機器執行之後,測量誤差;找出需要調整那個方向的旋鈕以便降低誤差;重複使用所有訓練樣本來進行操作,直到旋鈕穩定下來。
通常的機器學習(監督學習)
設計一臺帶有可調節旋鈕的機器;選取一個訓練樣本,經機器執行之後,測量誤差;調節旋鈕以便降低誤差;不斷重複直到旋鈕穩定下來;
機器學習=功能優化
這就如同行走在霧氣瀰漫的高山之中,通過往最陡的下坡方向行走來抵達山谷中的村莊;但是每一個樣本會給我們一個方向的噪聲預估,因此,我們的路徑是相當隨機的。
泛化能力:識別訓練中沒有察覺到的情況
訓練之後:用從未識別過的樣本來測試機器;
我們能夠用諸如桌子、椅子、狗、貓及人等很多例子來訓練機器;但是機器能夠識別它從未看到過的桌子、椅子、狗、貓及人嗎?
大規模的機器學習:現實
數以億計的“旋鈕”(或“權重”),數以千計的種類;數以百萬計的樣本;識別每一個樣本可能需要進行數十億的操作;但是這些操作只是一些簡單的乘法和加法。
模式識別的傳統模式
模式識別的傳統模式(自50年代末開始),固定/設計特徵(或固定矩陣)+可訓練的分級器,感知機(康奈爾大學,1957年)
深度學習=整臺機器是可以訓練的
傳統的模式識別:固定及手工制的特徵萃取器;主流的現代化模式識別:無監督的中等級別特徵;深度學習:表現形式是分等級的及訓練有素的;
深度學習=學習分等級的表現形式
有超過一個階段的非線性特徵變換即為深度學習;在ImageNet上的特徵視覺化的卷積碼淨訓練[來自蔡勒與巨集泰2013(Zeiler & Fergus 2013)]
可訓練的特徵等級
隨著抽象等級的增加,表現形式等級的增加;每一個階段是一種可訓練特徵的轉換;影像識別:
畫素→邊緣→紋理基元→主題→
部分→物件
字元→字→字組→從句→句子→故事
言語
例子→光譜段→聲音→… →電話→音素→字
淺度vs深度==查詢表VS多步演算法
“淺與寬”vs“深與窄”==“更多的記憶體”與“更多的時間”,查詢表vs 演算法;如果沒有一個指數大級別的查詢表,幾乎很少有函式可以用兩步計算完成;通過指數係數,可以通過超過兩步運算來減少“儲存量”。
大腦如何解讀影像?
在視覺皮層的腹側(識別)通路包含多個階段;視網膜- LGN – V1 – V2 – V4 – PIT – AIT….等等;
多層的神經網路
多層的神經網路
簡單單位的多層級;每個單位計算一次輸入的加權總和;加權總和通過一個非線性函式;學習演算法改變權重;
典型的多層神經網路架構
- 可以通過在網路中裝配模組來發明覆雜的學習機器;
- 線性模組
- 輸出=W.輸入+B
- ReLU 模組(經校正過的線性單元)
- 輸出i=0 如果輸入i<0;
- 輸出i=輸入,如果其他情況;
- 成本模組:平方距離
- 成本=||In1-In2||2
- 目標函式
- L(Θ)=1/pΣk C(Xk,Yk,Θ)
- Θ=(W1,B1,W2,B2,W3,B3)
通過裝配模組來搭建網路
所有主要深度學習框架使用模組(靈感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….
通過反向傳遞來計算斜率
鏈式法則的實際應用
推倒代數的斜率:
● dC/dXi-1 = dC/dXi . dXi/dXi-1
● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1
推倒權重斜率:
● dC/dWi = dC/dXi . dXi/dWi
● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi
任何架構都可以工作?
允許任何的連線圖;
無迴路有向圖
迴圈的網路需要“在時間上展開”
允許任何的模組
只要對於相應的引數及其他非終端輸入是連續的,並且在幾乎所有位置都可以進行求倒。
幾乎所有的架構都提供自動求導功能;
Theano, Torch7+autograd,…
程式變成計算無迴路有向圖(DAGs)及自動求道
多層網路的目標函式是非凸性的。
1-1-1網路
– Y = W1*W2*X
目標函式:二次損失的恆等函式
一個例子:X=1,Y=1 L(W) = (1-W1*W2)^2
卷積網路
(簡稱ConvNet或 CNN)
卷積網路架構
多卷積
動畫:安德烈 .卡帕斯(Andrej Karpathy)網址:http://cs231n.github.io/convolutional-networks/
卷積性網路(製造年代:1990年)
過濾器-tanh →彙總→過濾器-tanh →彙總→過濾器-tanh
胡貝爾和威塞爾(Hubel & Wiesel)的視覺皮層結構模型
簡單單元格用於檢測區域性特徵,複雜單元格用於“彙總”位於視皮層附近的簡單單元格輸出產物,[福島(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等
總體架構:多步奏標準化→過濾器集→非線性→彙總
標準化:白度變化(自由選擇)
減法:平均去除率,高通過濾器
除法:區域性標準化,標準方差
過濾器庫:維度擴大,對映到超完備基數
非線性:稀疏化,飽和度,側抑制機制等等
改正(ReLU),有效分量的減少,tanh,
彙總:空間或功能類別的集合
1993年LeNet1演示
多字元識別[馬坦等(Matan et al),1992年]
每一層是一個卷積
ConvNet滑動視窗+加權有限狀態機
ConvNet滑動視窗+加權FSM
支票讀取器(貝爾實驗室,1995年)
影像轉換器網路經訓練後讀取支票金額,用負對數似然損失來進行全面化訓練。50%正確,49%拒絕,1%誤差(在後面的過程中可以檢測到)1996年開始在美國和歐洲的許多銀行中使用,在2000年代初處理了美國約10%到20%的手寫支票。
人臉檢測[威能(Vaillantet al.)等。93、94年]
ConvNet被用於大影像處理,多尺寸熱圖,候選者非最大化抑制,對256×256 影像SPARCstation需要6秒時間
同步化人臉檢測及姿態預估
場景解析及標註
場景解析及標註:多尺度ConvNet架構
每個輸出可以看到大量的輸入背景,對全方位標註的的影像進行訓練監督
方法1:在超畫素區域進行多數表決
場景解析及標註
無後期處理,一幀一幀,ConvNet在Virtex-6 FPGA 硬體上以每幀50毫秒執行,通過乙太網上進行通訊的功能限制了系統效能
ConvNet用於遠距離自適應機器人視覺(DARPA LAGR 專案2005-2008年)
預處理(125毫秒),地平面估計,地平線對準,轉換為YUV+區域性對比標準化,測量標準化後影像“帶”不變數金字塔
卷積網路架構
每3x12x25輸入視窗100個特徵;YUV影像帶20-36畫素高,36-500畫素寬
卷機網路視覺物體識別
在2000年代中期,ConvNets在物體分類方面取得了相當好的成績,資料集:“Caltech101”:101個類別,每個類別30個訓練樣本,但是結果比更“傳統”的計算機視覺方法要稍微遜色一些,原因是:
1. 資料集太小了;
2. 電腦太慢了;
然後,兩件事情發生了。。。
影像網路(ImageNet)資料集[Fei-Fei等,2012年]
120萬訓練樣本
1000個類別
快速及可程式設計通用目的GPUs
每秒可進行1萬億操作
極深度的ConvNet物體識別
1億到10億個連線,1000萬至10億個引數,8至20個分層
在GPU上進行極深度的ConvNets訓練
ImageNet前5大錯誤概率是
15%;
[Sermanet等2013年]
13.8%VGGNet [Simonyan, Zisserman 2014年]
7.3%
GoogLeNet[Szegedy等 2014年]
6.6%
ResNet [He et等2015年]
5.7%
極深度的ConvNet架構
小矩陣,沒有進行太多二次抽樣過程(斷片化二次抽樣)
矩陣:第一層(11×11)
第一層:3×9矩陣,RGB->96的特徵圖,11×11矩陣,4步
學習在行動
第一層過濾器如何學習?
深度學習=學習層次代表
具有超過一個階段的非線性特徵變換即為深度,ImageNet上特徵視覺化卷積網路學習 [蔡勒與巨集泰2013年(Zeiler & Fergus)]
ImageNet:分類
給影像中的主要物件取名,前5誤差率:如果誤差不是在前5,則視為錯誤。紅色:ConvNet,藍色:不是ConvNet
ConvNets物件識別及定位
分類+定位:多尺度滑動視窗
在影像上應用convnet滑動視窗來進行多尺度的重要備;在影像上滑動convnet是很便宜的。對於每一個視窗,預測一個分類及邊框引數。即使物件沒有完全在視窗內,convnet可以預測它所認為的物件是什麼。
結果:在ImageNet1K訓練前,微調的ImageNet檢測
Detection Example:檢測例子
Detection Example:檢測例子
Detection Example:檢測例子
深度面孔
[塞利格曼等(Taigman et al.) CVPR,2014年]
調準ConvNet矩陣學習
Facebook上使用自動標註
每天800萬張照片
矩陣學習與暹羅架構
Contrative目標函式,相似的物件應產出相距較近輸出產物,不相似物件應產出相距較遠輸出產物,通過學習和恆定的定位來減少維度,[喬普拉等,CVPR2005年][Hadsell等,CVPR2006年]
人物識別與姿勢預測
影像說明:生成描述性句子
C3D:3D ConvNet視訊分類
分割與區域性化物件(DeepMask)
[Pinheiro, Collobert, Dollar ICCV 2015年]
ConvNet生成物件面部模型
DeepMask++ 建議
識別路線
訓練
通過8×4開普勒(Kepler)GPUs與彈性平均隨機梯度下降演算法(EASGD)執行2.5天后[張, Choromanska, LeCun,NIPS2015年]
::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::86
結果
監控下的ConvNets製圖
使用ConvNets產生影像
監控下的ConvNets製圖
繪製椅子,在特徵空間的椅子演算法
ConvNets語音識別
語音識別與卷積網路(紐約大學/IBM)
聲學模型:7層ConvNet。5440萬引數。
把聲音訊號轉化為3000個相互關連的次音位類別
ReLU單位+脫離上一層級
經過GPU 4日訓練
語音識別與卷積網路(紐約大學/IBM)
訓練樣本。
40 Mel頻率倒譜系數視窗:每10微秒40幀
語音識別與卷積網路(紐約大學/IBM)
第一層卷積矩陣,9×9尺寸64矩陣
多語言識別,多尺度輸入,大範圍視窗
ConvNets無處不在(或即將無處不在)
ConvNet晶片
目前NVIDIA,英特爾(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在開發ConvNet 晶片
很多初創公司:Movidius, Nervana等
在不久的將來,ConvNet將會駕駛汽車
NVIDIA:基於ConvNet技術的駕駛員輔助系統
驅動-PX2(Drive-PX2):駕駛員輔助系統的開源平臺( =150 Macbook Pros)
嵌入式超級計算機:42TOPS(=150臺MacBook Pro)
MobilEye:基於ConvNet技術的駕駛員輔助系統
配置於特斯拉(Tesla)S型和X型產品中
ConvNet連線組學[Jain, Turaga, Seung,2007年]
3DConvNet體積影像,使用7x7x7相鄰體素來將每一個體素標註為“膜狀物”或“非膜狀物”,已經成為連線組學的標準方法
腦部腫瘤檢測
級聯輸入CNN架構,802,368 個引數,用30位患者來進行訓練,BRAT2013上顯示的結果狀況
預測DNA/ RNA – ConvNets蛋白質結合
“通過深度學習預測DNA- 與RNA-結合的蛋白質序列特異性”-2015年7月,自然生物技術,作者:B Alipanahi, A Delong, M Weirauch, BFrey
深度學習無處不在(ConvNets無處不在)
在臉書(Facebook)、谷歌(Google)、微軟(Microsoft)、百度、推特(Twitter)及IBM等上的許多應用程式。
為照片集搜尋的影像識別
圖片/視訊內容過濾:垃圾,裸露和暴力。
搜尋及新聞源排名
人們每天上傳8億張圖片到臉書(Facebook)上面
(如果我們把Instagram,Messenger and Whatsapp計算在內,就是每天20億張圖片)
臉書(Facebook)上的每一張照片每隔2秒就通過兩個ConvNets
一個是影像識別及標註;
另一個是面部識別(在歐洲尚未啟用)
在不久的將來ConvNets將會無處不在:
自動駕駛汽車,醫療成像,擴增實境技術,移動裝置,智慧相機,機器人,玩具等等。
嵌入的世界
思考的向量
“鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬”
嵌入的世界
iNSTAGRAM 嵌入視訊
任何一個物件、概念或“想法”都可以用一個向量來代表
[-0.2, 0.3, -4.2, 5.1, …..]代表“貓”的概念
[-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念
這兩個向量是十分相似的,因為貓和狗用許多共同的屬性
加入推理來操控思考向量
對問題、回答、資訊提取及內容過濾的向量進行比較
通過結合及轉化向量來進行推理、規劃及語言翻譯
記憶體儲存思考向量
MemNN (記憶神經網路)是一個很好的例子
在FAIR, 我們想要“把世界嵌入”思考向量中來
自然語言理解
文字能嵌入嗎?
[Bengio2003年] [Collobert與韋斯頓(Weston),2010年]
通過前後的文字來對該文字進行預測
語義屬性的合成
東京-日本=柏林-德國
東京-日本+德國=柏林
問答系統
問答系統
問答系統
LSTM網路的語言翻譯
多層次極大LSTM遞迴模組
讀入及編碼英語句子
在英文句末生成法語句子
與現有技術狀態的準確率極其相若
神經網路如何記憶事物?
遞迴網路不可以長久記憶事物
皮質只可以持續20秒記憶事物
我們需要“海馬”(一個獨立的記憶模組)
LSTM [Hochreiter 1997年],暫存器
儲存網路[韋斯頓(Weston)等,2014年](FAIR),聯想記憶
堆疊增強遞迴神經網路[Joulin與Mikolov,2014年](FAIR)
NTM [DeepMind,2014年], “磁帶”.
儲存/堆疊增強遞迴網路
堆疊增強RNN
弱監控MemNN:
尋找可使用的儲存位置。
記憶體網路[韋斯頓(Weston),喬普拉( Chopra),博爾德(Bordes ),2014年]
在網路中加入短期記憶體
::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::116
通往人工智慧的障礙物
(除計算能力以外),人工智慧的四項缺失部分
理論的深度認知學習
深度網路中的目標函式幾何學是什麼?
為何ConvNet架構這麼好?[(馬拉)Mallat, 布魯納(Bruna), Tygert..]
代表/深度學習與推理、注意力、規劃及記憶的整合
很多研究集中在推理/規劃,注意力,記憶力及學習“演算法”
記憶體增強的神經網路“可求導的”演算法
將監控、非監控及強化學習整合在單一的“演算法”內
如果進展順利,波爾茲曼機將會十分有用處。
堆疊的什麼-哪裡自動編碼器,梯形網路等
通過觀察及像動物及人類生活一樣來發現世界的結構及規律。
神祕的目標函式幾何學
深度網路與ReLUs及最大彙總
線性轉換儲存棧最大離散操作器
ReLUs點位方法
最大彙總
從一層到另一層開關
深度網路與ReLUs:目標函式是分段多項式函式
如果我們使用損失函式,增量則取決於Yk。
隨機係數的在w上的分段多項式
a lot:多項式的臨界點位隨機(高斯)係數在球面的分佈[本阿魯斯等(Ben Arous et al.)]
高階球面自旋玻璃隨機矩陣理論
隨機矩陣理論
深度網路與ReLUs:目標函式是分段多項式函式
從多個初始條件中訓練按比例縮小的(10×10)MNIST 2層網路。測量測試集的損失值。
強化學習,監督學習、無監督學習:學習的三種型別
學習的三種型別
強化學習
機器偶爾會對標量效果進行預測
樣本的一部分位元組
監控學習
機器預測每個輸入的種類或數量
每個樣本10到1萬位
非監控學習
機器對任何輸入部分及任何可觀察部分進行預測
在視訊中預測未來鏡頭
每個樣本有數以百萬計的位元組
機器需要預測多少資訊?
強化學習(車釐子)
機器偶爾會對標量效果進行預測
樣本的一部分位元組
監控學習(糖衣)
機器預測每個輸入的種類或數量
每個樣本10到1萬個位元組
無監督學習(蛋糕)
機器對任何輸入部分及任何可觀察部分進行預測
在視訊中預測未來鏡頭
每個樣本有數以百萬計的位元組
無監督學習是人工智慧的“黑箱”
基本所有動物及人類進行的學習都是無監督學習。
我們通過觀察瞭解世界的運作;
我們學習的世界是三維立體的
我們知道物體間可以獨立運動;
我們知道物體的恆久性
我們學習如何預測從現在開始一秒或一小時後的世界
我們通過預測性非監控學習來構建世界模型
這樣的預測模型讓我們有了“常識”的認知
無監督學習讓我們瞭解到世界的規律。
通過非監控學習而得到的常識
通過對世界預測模型的學習讓我們掌握了常識;
如果我們說:”Gérard拿起包離開房間”, 你能夠推測出:
Gérard起立,伸展手臂,向門口走去,開啟門,走出去。
他以及他的包已經不會在房間裡
他不可能消失或飛了出去
非監控學習
以能量為基礎的非監控學習
能量函式:取資料流的最低值,取其他地方的最高值
如果是所需能量輸出,則向下按;
其他情況,則向上按;
生成對抗的網路
拉普拉斯(Laplacian) GAN:拉埃甘(又名EYESCREAM)
學習生成影像[丹頓等人(Denton et al.),NIPS2015年]
發生器產出拉普拉斯金字塔係數代表的影像
鑑別器學習如何區分真假拉普拉斯影像。
“EyeScream”
“EyeScream”/“LAPGAN”
發現規律
DCGAN:通過對抗訓練來生成影像
[雷德福(Radford),梅斯(Metz),Chintala, 2015年]
輸入:隨機數字;
輸出:臥室
導航流
DCGAN:通過對抗訓練來生成影像
用漫畫人物來訓練
人物之間的插入
面部代數(在DCGAN空間)
DCGAN:通過對抗訓練來生成影像
[雷德福(Radford),梅斯(Metz),Chintala,2015年]
無監督學習:視訊預測
無監督學習是人工智慧的黑箱
無監督學習是能夠提供足夠資訊去訓練數以十億計的神經網路的唯一學習形式。
監督學習需要花費太多的標註精力
強化學習需要使用太多次的嘗試
但是我們卻不知道如何去進行非監控許誒下(甚至如何將其公式化)
我們有太多的想法及方法
但是他們並不能很好的運作
為何那麼難?因為世界本來就是不可預測的。
預測器產出所有未來可能的平均值-模糊影像
ConvNet多尺度視訊預測
4到8框架輸入→無需彙總的ConvNet→1到8框架輸出
無法使用開方誤差:模糊預測
世界本來就是無法預測的,mse訓練預測未來可能情況的平均值:模糊影像
ConvNet多尺度視訊預測
ConvNet多尺度視訊預測
與使用LSTM的人[Srivastava等, 2015年]做比較
無監督學習預測
在“對抗訓練”中已經取得了一些成果
但是我們離一個完整的解決方案還相距甚遠。
預測學習
人工智慧會是什麼樣子呢?
人類和動物行為擁有進化過程與生俱來的驅動力
抗戰/飛行,飢餓,自我保護,避免疼痛,對社交的渴求等等
人類相互之間做錯誤的事情也是大部分因為這些驅動力造成的。
受威脅時的暴力行為,對物質資源及社會力量的渴求等等。
但是,人工智慧系統並沒有這些驅動力,除非我們在系統裡進行配置。
在沒有驅動力情況下,我們很難去對智慧實體進行想像
儘管在動物世界裡我們有許多的例子。
我們將建立一些基本的、不可改變的固有驅動力:
人類培訓師將會把使周圍人類開心及舒適的行為與獎勵聯絡起來。
這正是兒童(及社會性動物)如何學習在社會中變得講規矩
我們能夠預防不安全的人工智慧嗎?
是的,就如同我們防範存在潛在危險的飛機及汽車一樣
與人類同等級的人工智慧如何產生?
與人類同等級的人工智慧的出現不會是一個孤立“事件”。
它會是漸進式的
它也不會孤立發生
沒有任何機構可以在好的想法上面存在壟斷。
先進的人工智慧現在是一個科學性的問題,而不是一個技術性的挑戰。
建立無監督學習是我們最大的挑戰
個人的突破將會很快被複制
人工智慧研究是一個全球性的團體。
大部分好的點子來自學術屆
儘管另人最印象深刻的應用程式來自行業
區分智慧與自主化是十分重要的
最智慧的系統並不是自主化的。
結論
深度學習正在引領應用程式的浪潮
如今:影像識別、視訊認知:洞察力正在運作
如今:更好的語言識別:語言識別正在運作
不久的將來:更好的語言理解能力,對話及翻譯將成為可能
深度學習與卷積網路正在被廣泛使用
如今:影像理解能力已經在臉書、谷歌、推特和微軟中被廣泛應用
不久的將來:汽車自動駕駛、醫療影像分析,機器人的感知能力將成為可能
我們需要為嵌入式應用程式找到硬體(與軟體的)
對於數位相機、手機裝置、汽車、機器人及玩具而言。。
我們離發明真正智慧的機器還相距甚遠。
我們需要將推理與深度學習整合在一起。
我們需要一個很好的“情節化”(短期)記憶體。
我們需要為無監督學習找到好的理論原理做支撐。
via:新智元