【深度學習篇】---CNN和RNN結合與對比,例項講解

LHBlog發表於2018-09-04

一、前述

CNN和RNN幾乎佔據著深度學習的半壁江山,所以本文將著重講解CNN+RNN的各種組合方式,以及CNN和RNN的對比。

二、CNN與RNN對比

1、CNN卷積神經網路與RNN遞迴神經網路直觀圖

2、相同點:
    2.1. 傳統神經網路的擴充套件。
    2.2. 前向計算產生結果,反向計算模型更新。
    2.3. 每層神經網路橫向可以多個神經元共存,縱向可以有多層神經網路連線。

3、不同點
    3.1. CNN空間擴充套件,神經元與特徵卷積;RNN時間擴充套件,神經元與多個時間輸出計算
    3.2. RNN可以用於描述時間上連續狀態的輸出,有記憶功能,CNN用於靜態輸出
   3. 3. CNN高階100+深度,RNN深度有限

三、CNN+RNN組合方式

1. CNN 特徵提取,用於RNN語句生成圖片標註。

2. RNN特徵提取用於CNN內容分類視訊分類。

3. CNN特徵提取用於對話問答圖片問答。

 

四、具體應用

1、圖片標註

基本思路
       目標是產生標註的語句,是一個語句生成的任務,LSTM?
       描述的物件大量影像資訊,影像資訊表達,CNN?
       CNN網路中全連線層特徵描述圖片,特徵與LSTM輸入結合。

具體步驟:

1.1 模型設計-特徵提取
全連線層特徵用來描述原圖片
LSTM輸入:word+圖片特徵;輸出下一word。

1.2 模型設計-資料準備

1. 圖片CNN特徵提取
2. 圖片標註生成Word2Vect 向量
3. 生成訓練資料:圖片特徵+第n單詞向量:第n+1單詞向量。

 

1.3 模型訓練:
1. 運用遷移學習,CNN特徵,語句特徵應用已有模型
2. 最終的輸出模型是LSTM,訓練過程的引數設定:梯度上限(gradient clipping), 學習率調整(adaptivelearning)
3. 訓練時間很長。

1.4 模型執行:

1. CNN特徵提取
2. CNN 特徵+語句開頭,單詞逐個預測

2、視訊行為識別 :

視訊中在發 生什麼?

2.1常用方法總結:

RNN用於CNN特徵融合

1. CNN 特徵提取

2. LSTM判斷

3. 多次識別結果分析。

不同的特徵不同輸出。

或者:所有特徵作為一個輸出。

 

2.2 RNN用於CNN特徵篩選+融合:

1. 並不是所有的視訊 影像包含確定分類資訊

2. RNN用於確定哪些frame 是有用的

3. 對有用的影像特徵 融合。

2.3 RNN用於,目標檢測:

1. CNN直接產生目標候選區

2. LSTM對產生候選區融合(相鄰時刻位置近 似)

3. 確定最終的精確位置。

2.4 多種模型綜合:

競賽/應用中,為了產生最好結果,多采用 多模型ensemble形式。

 3、圖片/視訊問答

3.1 問題種類

3.2 圖片問答意義
1. 是對純文字語言問答系統的擴充套件
2. 圖片理解和語言處理的深度融合
3. 提高人工智慧應用範圍-觀察,思考,表達

我的部落格即將搬運同步至騰訊雲+社群,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=1wzcx9d4ww853

相關文章