1459007438-9219-oWvDUsPKV4m76xaWABohBqstQmPw
 新智元原創1

來源:Yann LeCun

編譯:米粒

Yann LeCun 是卷積神經網路的發明人,Facebook 人工智慧研究院的負責人。下文的 150 張 PPT,是 LeCun 對深度學習領域的全面而細緻的思考。LeCun 非常堅定看好無監督學習,認為無監督學習是能夠提供足夠資訊去訓練數以十億計的神經網路的唯一學習形式。

但 LeCun 也認為,這要做好非常難,畢竟世界是不可理解的。我們來看看 LeCun 在這 150 張 PPT 中,究竟給我們帶來什麼樣的驚喜。

Yann LeCun:150 PPT 全文

如需下載全文,請在新智元訂閱號回覆 0326 下載。

1459007438-4201-V8fy5ma5QDibPQJoyeCegagdmicQ

深度學習

 

作者Yann Le Cun

紐約大學,柯朗數學科學學院(CourantInstitute of Mathematical Science, NYU),

Facebook 人工智慧研究

 

1459007438-5609-PnT6KDrqficoicJ0n46ZYPsHOtdQ
我們需要複製大腦來開發智慧機器嗎?

 

大腦是智慧機器存在的依據

-鳥和蝙蝠是重於空氣飛行存在的依據

 

1459007438-1658-MmRwaWzXTOIrNuanpadSFBV07k1w

大腦

 

1459007438-1372-g7Hg2byfoPuIZNaWWRSx6gepSyyg

今天高速處理器

 

1459007438-8565-fO3nwWcmJspDPh8rSUMhOIyGRzbQ

我們能夠通過複製大腦來開發人工智慧系統嗎?

電腦離大腦運算能力只有1萬次方差距嗎?很有可能是100萬次方:突觸是複雜的。1百萬次方是30年摩爾定律

 

最好從生物學裡獲取靈感;但是如果沒有了解基本原理,僅從生物學裡生搬硬造,註定要失敗。飛機是從飛鳥那裡獲取的靈感;他們使用了同樣的飛行基本原理;但是,飛機並不振翅飛翔,也沒有羽翼。

1459007439-2794-ThA1rP6JibUb40OtMGseW0tnJqwQ

讓我們從自然裡汲取靈感,但不需要依葫蘆畫瓢

 

模仿自然是好的,但是我們也需要去了解自然。對於飛機而言,我們開發了空氣動力學以及可壓縮流體動力學,我們知道了羽毛和振翅不是關鍵。

 

1459007439-7575-9aq0A3gV3Lzz92fZpYSaK7pzThjg

1957年:感知機(第一臺學習機器)

 

具有適應性“突觸權重”的一個簡單的模擬神經元,計算輸入的加權總和,如果加權總和高於閾值,則輸出+1,反之則輸出-1。

 

1459007439-9419-78qv7Fr9NDy1b4D0McDsDMiaLUhg

感知機學習演算法

 

1459007439-3513-ApeOk5ttszmrUGXg9IOsMAuO4W5w

 

通常的機器學習(監督學習)

 

設計一臺帶有可調節旋鈕的機器(與感知機裡的權重類似);選取一個訓練樣本,經機器執行之後,測量誤差;找出需要調整那個方向的旋鈕以便降低誤差;重複使用所有訓練樣本來進行操作,直到旋鈕穩定下來。

 

1459007439-2403-5OagJjLbbCiafyDbrFiajl5C8huA

通常的機器學習(監督學習)

設計一臺帶有可調節旋鈕的機器;選取一個訓練樣本,經機器執行之後,測量誤差;調節旋鈕以便降低誤差;不斷重複直到旋鈕穩定下來;

 

1459007439-9699-hFuxax20HEog9whWg3hvIg11t5Kw

機器學習=功能優化

這就如同行走在霧氣瀰漫的高山之中,通過往最陡的下坡方向行走來抵達山谷中的村莊;但是每一個樣本會給我們一個方向的噪聲預估,因此,我們的路徑是相當隨機的。

 

1459007440-4403-rOTNVLwBibiafFqNOC2XvgW47lVw

泛化能力:識別訓練中沒有察覺到的情況

 

訓練之後:用從未識別過的樣本來測試機器;

 

1459007440-8677-ciacNHaIjrc6RTticdqkx8MdrwUw
監督學習

我們能夠用諸如桌子、椅子、狗、貓及人等很多例子來訓練機器;但是機器能夠識別它從未看到過的桌子、椅子、狗、貓及人嗎?

 

1459007440-6082-olXscbAadpnUIlfcib3JoMCT5hfg

大規模的機器學習:現實

數以億計的“旋鈕”(或“權重”),數以千計的種類;數以百萬計的樣本;識別每一個樣本可能需要進行數十億的操作;但是這些操作只是一些簡單的乘法和加法。

 

1459007440-8581-BXOSjE3PToTHX2knuCEAsNmbRPwQ

模式識別的傳統模式

模式識別的傳統模式(自50年代末開始),固定/設計特徵(或固定矩陣)+可訓練的分級器,感知機(康奈爾大學,1957年)

 

1459007440-9925-clrxyEP6ljG1pR6CtxgtgnZ7rpjw

深度學習=整臺機器是可以訓練的

傳統的模式識別:固定及手工制的特徵萃取器;主流的現代化模式識別:無監督的中等級別特徵;深度學習:表現形式是分等級的及訓練有素的;

 

1459007440-5609-XTsyz10ibpKicwRs9jibRP1yXltQ

深度學習=學習分等級的表現形式

有超過一個階段的非線性特徵變換即為深度學習;在ImageNet上的特徵視覺化的卷積碼淨訓練[來自蔡勒與巨集泰2013(Zeiler & Fergus 2013)]

 

1459007441-5820-qk1fgyU5hyBVG5jfebM0bbZaI8cw

可訓練的特徵等級

隨著抽象等級的增加,表現形式等級的增加;每一個階段是一種可訓練特徵的轉換;影像識別:

畫素→邊緣→紋理基元→主題→

部分→物件

字元→字→字組→從句→句子→故事

 

言語

例子→光譜段→聲音→… →電話→音素→字

 

1459007441-7058-QBGnrtqtibHNB2gIia00XUZfSqug

淺度vs深度==查詢表VS多步演算法

“淺與寬”vs“深與窄”==“更多的記憶體”與“更多的時間”,查詢表vs 演算法;如果沒有一個指數大級別的查詢表,幾乎很少有函式可以用兩步計算完成;通過指數係數,可以通過超過兩步運算來減少“儲存量”。

1459007441-7481-ibQ24x7icQicQbfdZia96OvSxjDA

大腦如何解讀影像?

在視覺皮層的腹側(識別)通路包含多個階段;視網膜- LGN – V1 – V2 – V4 – PIT – AIT….等等;

 

1459007441-1980-cGPXonuKqoG3PwFkezsmy9zGSYQg

多層的神經網路

 

1459007441-2246-XGN3I8LC8eu9a2gjJcWfKEiaugvA

多層的神經網路

簡單單位的多層級;每個單位計算一次輸入的加權總和;加權總和通過一個非線性函式;學習演算法改變權重;

 

1459007442-6303-0WtrxfTicOEkl5d2xWib1CMAgGAA

典型的多層神經網路架構

  •  可以通過在網路中裝配模組來發明覆雜的學習機器;
  •   線性模組
  •  輸出=W.輸入+B
  • ReLU 模組(經校正過的線性單元)
  • 輸出i=0 如果輸入i<0;
  • 輸出i=輸入,如果其他情況;
  • 成本模組:平方距離
  • 成本=||In1-In2||2
  • 目標函式
  • L(Θ)=1/pΣk C(Xk,Yk,Θ)
  •  Θ=(W1,B1,W2,B2,W3,B3)

 

1459007442-4261-Dzo843zOEGxp8C5ibGDKGHqoSibg

通過裝配模組來搭建網路

所有主要深度學習框架使用模組(靈感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….

 

1459007443-9846-6RYGfzib3jnw4YMdvZoUqf6WP2Xg

通過反向傳遞來計算斜率

 

鏈式法則的實際應用

推倒代數的斜率:

●  dC/dXi-1 = dC/dXi . dXi/dXi-1

●  dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

推倒權重斜率:

●  dC/dWi = dC/dXi . dXi/dWi

●  dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi

 

1459007442-5930-ffF1wdKiaG7AcgtdIDAKicUufKUg

任何架構都可以工作?

 

允許任何的連線圖;

無迴路有向圖

迴圈的網路需要“在時間上展開”

允許任何的模組

只要對於相應的引數及其他非終端輸入是連續的,並且在幾乎所有位置都可以進行求倒。

幾乎所有的架構都提供自動求導功能;

Theano, Torch7+autograd,…

程式變成計算無迴路有向圖(DAGs)及自動求道

 

1459007442-1375-dWSQdKnUozXwpXK4PibtEM01Wmnw

多層網路的目標函式是非凸性的。

1-1-1網路

– Y = W1*W2*X

目標函式:二次損失的恆等函式

一個例子:X=1,Y=1 L(W) = (1-W1*W2)^2

 

1459007442-8970-s56IdfPGSV7Y3bD0culiaBOBgIFw

卷積網路

(簡稱ConvNet或 CNN)

 

1459007443-7148-a49nia4iaWicI103mTdIPokIrVMg

卷積網路架構

1459007443-4171-p8Gu0FSuBicpbdTmqxfYKppULr0A

多卷積

動畫:安德烈 .卡帕斯(Andrej Karpathy)網址:http://cs231n.github.io/convolutional-networks/

1459007444-6970-ibCiaDHujVvxl1kVicDJq4FiaVHA

卷積性網路(製造年代:1990年)

過濾器-tanh →彙總→過濾器-tanh →彙總→過濾器-tanh

 

1459007444-1571-nYwCHoWX7SgdD9tgeWaWa7Jkj0fA

胡貝爾和威塞爾(Hubel & Wiesel)的視覺皮層結構模型

簡單單元格用於檢測區域性特徵,複雜單元格用於“彙總”位於視皮層附近的簡單單元格輸出產物,[福島(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等

 

1459007444-8213-9SPhicbbnna6y0fpWb2SIEYgeWEw

總體架構:多步奏標準化→過濾器集→非線性→彙總

標準化:白度變化(自由選擇)

 

減法:平均去除率,高通過濾器

除法:區域性標準化,標準方差

 

過濾器庫:維度擴大,對映到超完備基數

非線性:稀疏化,飽和度,側抑制機制等等

改正(ReLU),有效分量的減少,tanh,

 

彙總:空間或功能類別的集合

 

1459007506-1385-wBicHGqDR5PBHpC0pGHiapaT4N4Q

1993年LeNet1演示

1459007444-2501-xOUks71Vu1GVsCXqjhxEgiby6icg

多字元識別[馬坦等(Matan et al),1992年]

每一層是一個卷積

 

1459007445-9484-Vib98uHnH49yicSGB8yGBlM58wHw

ConvNet滑動視窗+加權有限狀態機

 

1459007445-1607-SBwRj4Ocn75Yy1EHUHdvCxYpo6fQ

ConvNet滑動視窗+加權FSM

 

1459007445-5558-2xkFrEzR1H2Dk7ZP2JQjRngd2jtw

支票讀取器(貝爾實驗室,1995年)

影像轉換器網路經訓練後讀取支票金額,用負對數似然損失來進行全面化訓練。50%正確,49%拒絕,1%誤差(在後面的過程中可以檢測到)1996年開始在美國和歐洲的許多銀行中使用,在2000年代初處理了美國約10%到20%的手寫支票。

1459007445-1314-zUZ7RBVFteNeQyAlWDib6uu5cB0g

人臉檢測[威能(Vaillantet al.)等。93、94年]

ConvNet被用於大影像處理,多尺寸熱圖,候選者非最大化抑制,對256×256 影像SPARCstation需要6秒時間

 

1459007445-5024-CPdnFoBPpCsQj8sIBbEibCKfMMjA

同步化人臉檢測及姿態預估

 

1459007445-9231-S8VdVoQdXcIiaiaGvNwjW5iaRC7g
卷積網路行人檢測

1459007446-7395-gZytQcQLvhoAeZJBh8ya7WUfUBBg

場景解析及標註

1459007446-2912-dUcQnEAnZR680shzhLlDonOv6icw

場景解析及標註:多尺度ConvNet架構

每個輸出可以看到大量的輸入背景,對全方位標註的的影像進行訓練監督

 

1459007446-2821-a5br81vtTMdckDuR3B0EO2EUrTFQ

方法1:在超畫素區域進行多數表決

 

1459007446-8417-VzwzCL1E881807tk65WAgUET5rKw
對RGB及深度影像的場景解析及標註

 

1459007447-8250-c3jDQKib1OaicUO4aCT5z8nghLFw

場景解析及標註

無後期處理,一幀一幀,ConvNet在Virtex-6 FPGA 硬體上以每幀50毫秒執行,通過乙太網上進行通訊的功能限制了系統效能

 

1459007446-6014-73cDapF82KXv9EGch7icCrv4icvg
ConvNet用於遠距離自適應機器人視覺(DARPA LAGR 專案2005-2008年)

 

1459007447-3611-mbhoP6kXpsmtxiamflamP9wSwIeA
卷機網遠距離視覺

預處理(125毫秒),地平面估計,地平線對準,轉換為YUV+區域性對比標準化,測量標準化後影像“帶”不變數金字塔

 

1459007447-3191-3hSNZKdcUgTiauJvckFicgTYDqJA

 

卷積網路架構

每3x12x25輸入視窗100個特徵;YUV影像帶20-36畫素高,36-500畫素寬

 

1459007447-9862-WZ3q3S1dypC7GX41WeKS22ribDew

卷機網路視覺物體識別

在2000年代中期,ConvNets在物體分類方面取得了相當好的成績,資料集:“Caltech101”:101個類別,每個類別30個訓練樣本,但是結果比更“傳統”的計算機視覺方法要稍微遜色一些,原因是:

1.                資料集太小了;

2.                電腦太慢了;

1459007447-8721-n9Q6xDEJjhFRzglmIJBzh25arBeA

然後,兩件事情發生了。。。

影像網路(ImageNet)資料集[Fei-Fei等,2012年]

120萬訓練樣本

1000個類別

快速及可程式設計通用目的GPUs

每秒可進行1萬億操作

1459007447-6341-7X4cuORS0tT532InfIDlWT8Zr4nw

極深度的ConvNet物體識別

 

1億到10億個連線,1000萬至10億個引數,8至20個分層

 

1459007448-1126-qb7VumTL4JjWcfnvYQattNp5trtg

在GPU上進行極深度的ConvNets訓練

ImageNet前5大錯誤概率是

15%;

[Sermanet等2013年]

13.8%VGGNet [Simonyan, Zisserman 2014年]

7.3%

GoogLeNet[Szegedy等 2014年]

6.6%

ResNet [He et等2015年]

5.7%

1459007449-4596-HkM8Qz4w76e4hoyVK6y9RUz6zMSw

 

極深度的ConvNet架構

 

小矩陣,沒有進行太多二次抽樣過程(斷片化二次抽樣)

 

1459007448-2081-bwnozpEiaU5dSANfF6D7kuPibFJw

 

矩陣:第一層(11×11)

第一層:3×9矩陣,RGB->96的特徵圖,11×11矩陣,4步

 

1459007448-6616-H8oTnSCicXYWgqKSMScJFXOvFicQ

學習在行動

 

第一層過濾器如何學習?

 

1459007449-4252-XTsyz10ibpKicwRs9jibRP1yXltQ

深度學習=學習層次代表

具有超過一個階段的非線性特徵變換即為深度,ImageNet上特徵視覺化卷積網路學習 [蔡勒與巨集泰2013年(Zeiler & Fergus)]

1459007449-9747-I3QjO47o8lS27hDr7ArIYlmcYUPw

ImageNet:分類

給影像中的主要物件取名,前5誤差率:如果誤差不是在前5,則視為錯誤。紅色:ConvNet,藍色:不是ConvNet

 

1459007449-1679-ghuxFM75scjXXBia4TB6GohnxUxA

ConvNets物件識別及定位

 

1459007449-6444-KbicX9uuv5OKJchYHumDAHJib0AQ

分類+定位:多尺度滑動視窗

在影像上應用convnet滑動視窗來進行多尺度的重要備;在影像上滑動convnet是很便宜的。對於每一個視窗,預測一個分類及邊框引數。即使物件沒有完全在視窗內,convnet可以預測它所認為的物件是什麼。

 

1459007449-5646-qWL4I5oN6l2qHkVN0kiak82UNRTA

結果:在ImageNet1K訓練前,微調的ImageNet檢測

1459007450-1734-9gHM2Iqtvp9sHdialW5YbAIUuSxw

Detection Example:檢測例子

 

1459007450-1898-r180lXSlIIBFbPhD1qhhhpmJ0knw

Detection Example:檢測例子

 

1459007450-6034-4zzxQJg3XNNCrxv8n6kl4LsUISlA

Detection Example:檢測例子

 

1459007450-9997-icaoffJuHTUTa5lfWqicX8wx8YwQ

深度面孔

 

[塞利格曼等(Taigman et al.) CVPR,2014年]

調準ConvNet矩陣學習

Facebook上使用自動標註

每天800萬張照片

 

1459007450-9370-606It9bibWI4Ckr5hYMpQP9HtbRg

矩陣學習與暹羅架構

Contrative目標函式,相似的物件應產出相距較近輸出產物,不相似物件應產出相距較遠輸出產物,通過學習和恆定的定位來減少維度,[喬普拉等,CVPR2005年][Hadsell等,CVPR2006年]

 

1459007450-3301-WeXDCUHPia0zUVg4hXd4MjCvp2Tg

人物識別與姿勢預測

 

1459007451-3081-HIvdWAibraZGrQGXUYvy3t8nfmOA

影像說明:生成描述性句子

 

1459007451-6412-lNjVy8fK3ibVJVZtKvcYquA4kicQ

C3D:3D ConvNet視訊分類

 

1459007451-2882-0kaVVeiaZauqRVyjyIbcWWsRwt3g

分割與區域性化物件(DeepMask)

 

[Pinheiro, Collobert, Dollar ICCV 2015年]

ConvNet生成物件面部模型

 

1459007451-8722-J4iaLuNKS6W6TFZanAIGYsa7Xjww

DeepMask++ 建議

 

1459007452-1394-6NPdXu3pRqWGfVB5qaGgYyEQWwcw

識別路線

 

1459007451-5900-LMjiapIIDibfG2Irkm2khUsiaQAQ

訓練

通過8×4開普勒(Kepler)GPUs與彈性平均隨機梯度下降演算法(EASGD)執行2.5天后[張, Choromanska, LeCun,NIPS2015年]

 

1459007452-7035-Tib0t12eJ7RU6S985x84rf6n06Yg

1459007453-4498-V37FHgJicGiaUMoFwTkGjYZPzfPQ

1459007452-5105-ic7HU1BPRZuQAm8jnUemdsIicz8Q

1459007452-6781-5TeJXWe0D4CW8Wweic7QgPJDoxcA

1459007453-4539-kdo8CknvUA0H194026vicXFIrS1w

1459007453-7417-UCFF3iaPHOr9wpVa2vKtRg5TwA7g

1459007454-3038-atAqVDaSvT1dhbxLWTg9qQklq0Hg

1459007453-2239-UIGRcMAvLNLgd3QP49RLic7p3iag

1459007454-8685-9or7sSq2OxKZy0HNLeEDYaMKibpA

1459007454-8724-bPWRibibYd2hcX1kX4RliakYMH4A

1459007454-1105-Xd5MHeU7sjhduaoeVSBZThmiaEqQ

1459007454-2523-5ogfaQ1wRibnRfD745jCI29XuFTw

::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::86

結果

1459007455-5994-nFkTO298UoC9oGfTpicbRrYOhwdA

監控下的ConvNets製圖

 

使用ConvNets產生影像

 

1459007455-6132-WR2iaOEIdmZ9KLAcTyvBKH9z8lRw

監控下的ConvNets製圖

繪製椅子,在特徵空間的椅子演算法

 

1459007455-8839-1Mpia95nngnNSZoYf7sCOHxtm6Qw

ConvNets語音識別

1459007455-7809-iaErIfTiaxq4uRGepPM6N5Y2sxHg

語音識別與卷積網路(紐約大學/IBM)

 

聲學模型:7層ConvNet。5440萬引數。

把聲音訊號轉化為3000個相互關連的次音位類別

ReLU單位+脫離上一層級

經過GPU 4日訓練

 

1459007455-6583-65icEvvxNbH3BU6Ila68RTXU82PQ

語音識別與卷積網路(紐約大學/IBM)

 

訓練樣本。

40 Mel頻率倒譜系數視窗:每10微秒40幀

 

1459007455-2558-v3ibC4NPV3GujlW89dEc150lsB6A

語音識別與卷積網路(紐約大學/IBM)

 

第一層卷積矩陣,9×9尺寸64矩陣

 

1459007456-6240-ic0tMRP4m6153Te6qbhaR40OPxJA
語音識別與卷積網路(紐約大學/IBM)

多語言識別,多尺度輸入,大範圍視窗

 

1459007456-9105-lIkEVeXyKPo47Z3tHq6p65ka3tRg

ConvNets無處不在(或即將無處不在)

 

1459007456-6005-L0MPhJrWUQZCobjfLRj02mEFJC2g

ConvNet晶片

目前NVIDIA,英特爾(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在開發ConvNet 晶片

很多初創公司:Movidius, Nervana等

在不久的將來,ConvNet將會駕駛汽車

 

1459007457-8024-ibicS8FgGmu5EvOebUIEa4eZZWbQ

NVIDIA:基於ConvNet技術的駕駛員輔助系統

驅動-PX2(Drive-PX2):駕駛員輔助系統的開源平臺( =150 Macbook Pros)

嵌入式超級計算機:42TOPS(=150臺MacBook Pro)

 

1459007457-8272-vrj0QtJUgDlSd9eNuHBFY4JU6E9A

MobilEye:基於ConvNet技術的駕駛員輔助系統

配置於特斯拉(Tesla)S型和X型產品中

 

1459007457-3535-arBjoFiafdnkdtKv3UBQXEqqicHQ

ConvNet連線組學[Jain, Turaga, Seung,2007年]

 

3DConvNet體積影像,使用7x7x7相鄰體素來將每一個體素標註為“膜狀物”或“非膜狀物”,已經成為連線組學的標準方法

 

1459007457-6623-fI757dpC1lqHuE5cSgKw0Z9delAg

腦部腫瘤檢測

級聯輸入CNN架構,802,368 個引數,用30位患者來進行訓練,BRAT2013上顯示的結果狀況

 

1459007457-1576-qhLRfqSRpQXwAahIGRhv0JNQh3Zw

預測DNA/ RNA – ConvNets蛋白質結合

“通過深度學習預測DNA- 與RNA-結合的蛋白質序列特異性”-2015年7月,自然生物技術,作者:B Alipanahi, A Delong, M Weirauch, BFrey

 

1459007457-7110-cvOSQ3UZ7Ux4cvUZAmmn4B19CCkQ

深度學習無處不在(ConvNets無處不在)

 

在臉書(Facebook)、谷歌(Google)、微軟(Microsoft)、百度、推特(Twitter)及IBM等上的許多應用程式。

為照片集搜尋的影像識別

圖片/視訊內容過濾:垃圾,裸露和暴力。

搜尋及新聞源排名

人們每天上傳8億張圖片到臉書(Facebook)上面

(如果我們把Instagram,Messenger and Whatsapp計算在內,就是每天20億張圖片)

臉書(Facebook)上的每一張照片每隔2秒就通過兩個ConvNets

一個是影像識別及標註;

另一個是面部識別(在歐洲尚未啟用)

在不久的將來ConvNets將會無處不在:

自動駕駛汽車,醫療成像,擴增實境技術,移動裝置,智慧相機,機器人,玩具等等。

 

1459007458-7106-SKTiaQZicicSiaqe0PeJmXA1oSFg

 

嵌入的世界

 

1459007458-9375-LxEqgicN10G5zsxFlyZ0eHfk4qGg

思考的向量

 

“鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬”

 

1459007458-2816-PyIcLHZFPFRc4Q1OkJialbVOZNyw

嵌入的世界

 

iNSTAGRAM 嵌入視訊

1459007458-5722-QibPibJJx02hLLtTOibvfu7aOrKw
用“思考的向量”來代表世界

任何一個物件、概念或“想法”都可以用一個向量來代表

[-0.2, 0.3, -4.2, 5.1, …..]代表“貓”的概念

[-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念

這兩個向量是十分相似的,因為貓和狗用許多共同的屬性

加入推理來操控思考向量

對問題、回答、資訊提取及內容過濾的向量進行比較

通過結合及轉化向量來進行推理、規劃及語言翻譯

記憶體儲存思考向量

MemNN (記憶神經網路)是一個很好的例子

在FAIR, 我們想要“把世界嵌入”思考向量中來

 

1459007458-5003-s24uibxT3tgblBVgxqyXQqKRmpJg

自然語言理解

 

1459007458-2155-edzb7iabZv79pR891QOZwNdVGibA

文字能嵌入嗎?

 

[Bengio2003年] [Collobert與韋斯頓(Weston),2010年]

通過前後的文字來對該文字進行預測

 

1459007459-8208-e9vXN8HWHNOLL0nFP4SJBicZ5Msg

語義屬性的合成

東京-日本=柏林-德國

東京-日本+德國=柏林

 

1459007459-1097-5NYDdZib9a8R7E1GXgxicNWdiafQ

問答系統

1459007459-4645-qxcCJpZ9gLmIicVO3cy164HQyKgw

問答系統

1459007459-6234-VocDfMdcYxGDqHSlXSgzhb0SLcMw

問答系統

1459007459-1306-VocDfMdcYxGDqHSlXSgzhb0SLcMw

LSTM網路的語言翻譯

多層次極大LSTM遞迴模組

讀入及編碼英語句子

在英文句末生成法語句子

與現有技術狀態的準確率極其相若

 

1459007459-7900-a9RzFCdA4BEMhTwf5brbSf7ibLkg

神經網路如何記憶事物?

 

遞迴網路不可以長久記憶事物

皮質只可以持續20秒記憶事物

我們需要“海馬”(一個獨立的記憶模組)

LSTM [Hochreiter 1997年],暫存器

儲存網路[韋斯頓(Weston)等,2014年](FAIR),聯想記憶

堆疊增強遞迴神經網路[Joulin與Mikolov,2014年](FAIR)

NTM [DeepMind,2014年], “磁帶”.

 

1459007460-1308-AMQHmTBfZpCad5z6YSBun12Q9mRA

儲存/堆疊增強遞迴網路

堆疊增強RNN

弱監控MemNN:

尋找可使用的儲存位置。

 

1459007461-8065-74JX3Gs0ouu1sgbuysoWzB3keXrw

記憶體網路[韋斯頓(Weston),喬普拉( Chopra),博爾德(Bordes ),2014年]

 

在網路中加入短期記憶體

::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::116

 

通往人工智慧的障礙物

 

1459007461-4428-DnvTbzAYD45Z9nelDzptTfJAVwzw

(除計算能力以外),人工智慧的四項缺失部分

 

理論的深度認知學習

深度網路中的目標函式幾何學是什麼?

為何ConvNet架構這麼好?[(馬拉)Mallat, 布魯納(Bruna), Tygert..]

代表/深度學習與推理、注意力、規劃及記憶的整合

很多研究集中在推理/規劃,注意力,記憶力及學習“演算法”

記憶體增強的神經網路“可求導的”演算法

將監控、非監控及強化學習整合在單一的“演算法”內

如果進展順利,波爾茲曼機將會十分有用處。

堆疊的什麼-哪裡自動編碼器,梯形網路等

通過觀察及像動物及人類生活一樣來發現世界的結構及規律。

1459007460-9809-lCRDWEa1OFoDibL6g3mibk7FBw2g

神祕的目標函式幾何學

 

1459007460-7404-5sNVs19onPjNbRpQj8nRnuZX9pxw

深度網路與ReLUs及最大彙總

線性轉換儲存棧最大離散操作器

ReLUs點位方法

最大彙總

從一層到另一層開關

 

1459007461-7735-0wJ8bTzw222LTPE6oVyZet7HY3TQ

深度網路與ReLUs:目標函式是分段多項式函式

 

如果我們使用損失函式,增量則取決於Yk。

隨機係數的在w上的分段多項式

a lot:多項式的臨界點位隨機(高斯)係數在球面的分佈[本阿魯斯等(Ben Arous et al.)]

高階球面自旋玻璃隨機矩陣理論

隨機矩陣理論

 

1459007461-1557-Hh3aQnooo6bA4OpCaicEu1iaOLwA

深度網路與ReLUs:目標函式是分段多項式函式

從多個初始條件中訓練按比例縮小的(10×10)MNIST 2層網路。測量測試集的損失值。

強化學習,監督學習、無監督學習:學習的三種型別

 

1459007462-6104-x2Dr6waFywLbk9YBtVd0kRPW8Hbw

學習的三種型別

 

強化學習

機器偶爾會對標量效果進行預測

樣本的一部分位元組

監控學習

機器預測每個輸入的種類或數量

每個樣本10到1萬位

非監控學習

機器對任何輸入部分及任何可觀察部分進行預測

在視訊中預測未來鏡頭

每個樣本有數以百萬計的位元組

 

1459007462-7224-7x48Kx4DH7gIfxp6F31DXfDprPcw

機器需要預測多少資訊?

 

強化學習(車釐子)

機器偶爾會對標量效果進行預測

樣本的一部分位元組

監控學習(糖衣)

機器預測每個輸入的種類或數量

每個樣本10到1萬個位元組

無監督學習(蛋糕)

機器對任何輸入部分及任何可觀察部分進行預測

在視訊中預測未來鏡頭

每個樣本有數以百萬計的位元組

 

1459007462-7698-CQYwbV1HZic7auLDO19nfeFQQwbQ

無監督學習是人工智慧的“黑箱”

 

基本所有動物及人類進行的學習都是無監督學習。

我們通過觀察瞭解世界的運作;

我們學習的世界是三維立體的

我們知道物體間可以獨立運動;

我們知道物體的恆久性

我們學習如何預測從現在開始一秒或一小時後的世界

我們通過預測性非監控學習來構建世界模型

這樣的預測模型讓我們有了“常識”的認知

無監督學習讓我們瞭解到世界的規律。

1459007462-3356-qoebMxkXwXL0NOuF782Eu92iarJQ

通過非監控學習而得到的常識

通過對世界預測模型的學習讓我們掌握了常識;

如果我們說:”Gérard拿起包離開房間”, 你能夠推測出:

Gérard起立,伸展手臂,向門口走去,開啟門,走出去。

他以及他的包已經不會在房間裡

他不可能消失或飛了出去

1459007462-6851-fNJqKIvQbWWF25tgnKmFLSJxDg4g

非監控學習

 

1459007462-1210-q5gtE08rnQ92cJFvq0XeOYib4pdw

以能量為基礎的非監控學習

能量函式:取資料流的最低值,取其他地方的最高值

如果是所需能量輸出,則向下按;

其他情況,則向上按;

 

1459007463-7408-s4v2IMctoiaibuCykDJfTrZJOdtg

生成對抗的網路

1459007463-8932-orltMYUC9pZ7mUS8DnsppWz6HIgA

 

拉普拉斯(Laplacian) GAN:拉埃甘(又名EYESCREAM)

 

學習生成影像[丹頓等人(Denton et al.),NIPS2015年]

發生器產出拉普拉斯金字塔係數代表的影像

鑑別器學習如何區分真假拉普拉斯影像。

 

1459007464-8295-sG9Cg4uTNvJPY72ZbicVFPjicttQ

“EyeScream”

 

1459007464-8972-uftSwCrJ9HicwbUhb6wn5gACMs0g

“EyeScream”/“LAPGAN”

 

1459007463-7534-qWXgkM7FuYmlYrWk5QuzhSHooicQ

發現規律

DCGAN:通過對抗訓練來生成影像

[雷德福(Radford),梅斯(Metz),Chintala, 2015年]

輸入:隨機數字;

輸出:臥室

 

1459007463-9210-Ul9BaOa03ZpzT8NCVz2XerUbWDrQ

導航流

 

DCGAN:通過對抗訓練來生成影像

用漫畫人物來訓練

人物之間的插入

 

1459007464-1952-JH0qDjsn6YJicico3Daib4N3vG6w

面部代數(在DCGAN空間)

DCGAN:通過對抗訓練來生成影像

[雷德福(Radford),梅斯(Metz),Chintala,2015年]

 

1459007464-8254-Y2M5Qk0oumOzVp9Gs6C7ScsDZHUg

無監督學習:視訊預測

 

1459007464-8455-aloBWib3sibqYEjG5vKICrbU3wWQ

無監督學習是人工智慧的黑箱

無監督學習是能夠提供足夠資訊去訓練數以十億計的神經網路的唯一學習形式。

監督學習需要花費太多的標註精力

強化學習需要使用太多次的嘗試

但是我們卻不知道如何去進行非監控許誒下(甚至如何將其公式化)

我們有太多的想法及方法

但是他們並不能很好的運作

為何那麼難?因為世界本來就是不可預測的。

預測器產出所有未來可能的平均值-模糊影像

 

1459007464-3297-f8ccchfySEqSiaAibFcZYDdHzxPQ

ConvNet多尺度視訊預測

 

4到8框架輸入→無需彙總的ConvNet→1到8框架輸出

 

1459007465-2015-knQTsicRKvx6cTTiayWaViaAQeQA

無法使用開方誤差:模糊預測

 

世界本來就是無法預測的,mse訓練預測未來可能情況的平均值:模糊影像

 

1459007465-9293-0svx1eLq9XZAIVzrWRlfYHicHxMg

ConvNet多尺度視訊預測

 

1459007465-7326-Nh2GHdHiaAXcX3INhQzm8QrmIy9w
ConvNet多尺度視訊預測

 

1459007465-2584-ajIKH0iabY4TkZIxhzzpBxibvrEg

ConvNet多尺度視訊預測

 

與使用LSTM的人[Srivastava等, 2015年]做比較

無監督學習預測

在“對抗訓練”中已經取得了一些成果

但是我們離一個完整的解決方案還相距甚遠。

1459007465-6922-ico252tIeW6DcjmbQywvCGJ0MZfA

預測學習

 

1459007465-3732-0SiaicPJukg1Rc8Y2X4nMIrSONyg
機器智慧與人工智慧將會有很大不同

 

1459007466-2069-XLzSDnRC9PuyJwEYm9QSCMuURxgQ

人工智慧會是什麼樣子呢?

人類和動物行為擁有進化過程與生俱來的驅動力

抗戰/飛行,飢餓,自我保護,避免疼痛,對社交的渴求等等

人類相互之間做錯誤的事情也是大部分因為這些驅動力造成的。

受威脅時的暴力行為,對物質資源及社會力量的渴求等等。

但是,人工智慧系統並沒有這些驅動力,除非我們在系統裡進行配置。

在沒有驅動力情況下,我們很難去對智慧實體進行想像

儘管在動物世界裡我們有許多的例子。

1459007466-6297-5ju01J35xPvclFNZXnldtGwR1nPA
我們如何調整人工智慧的“道德價值”使其與人類價值保持一致?

 

我們將建立一些基本的、不可改變的固有驅動力:

人類培訓師將會把使周圍人類開心及舒適的行為與獎勵聯絡起來。

這正是兒童(及社會性動物)如何學習在社會中變得講規矩

我們能夠預防不安全的人工智慧嗎?

是的,就如同我們防範存在潛在危險的飛機及汽車一樣

1459007466-1901-SR00MibiaxzINJgyqKreRvvNCGFA

與人類同等級的人工智慧如何產生?

與人類同等級的人工智慧的出現不會是一個孤立“事件”。

它會是漸進式的

它也不會孤立發生

沒有任何機構可以在好的想法上面存在壟斷。

先進的人工智慧現在是一個科學性的問題,而不是一個技術性的挑戰。

建立無監督學習是我們最大的挑戰

個人的突破將會很快被複制

人工智慧研究是一個全球性的團體。

大部分好的點子來自學術屆

儘管另人最印象深刻的應用程式來自行業

區分智慧與自主化是十分重要的

最智慧的系統並不是自主化的。

 

1459007466-2537-ibibiccpWXU1YZXWYu8VrFnsOpqQ

結論

 

深度學習正在引領應用程式的浪潮

如今:影像識別、視訊認知:洞察力正在運作

如今:更好的語言識別:語言識別正在運作

不久的將來:更好的語言理解能力,對話及翻譯將成為可能

深度學習與卷積網路正在被廣泛使用

如今:影像理解能力已經在臉書、谷歌、推特和微軟中被廣泛應用

不久的將來:汽車自動駕駛、醫療影像分析,機器人的感知能力將成為可能

我們需要為嵌入式應用程式找到硬體(與軟體的)

對於數位相機、手機裝置、汽車、機器人及玩具而言。。

我們離發明真正智慧的機器還相距甚遠。

我們需要將推理與深度學習整合在一起。

我們需要一個很好的“情節化”(短期)記憶體。

我們需要為無監督學習找到好的理論原理做支撐。

via:新智元