神經網路理論與工程實戰-知識積累

世有因果知因求果發表於2019-02-23

計算機視覺基本問題:

 

分類問題-classification:

解決是什麼的問題,給定一張圖片或者一段視訊判斷裡面包含什麼類別的目標

定位-Localization:

給定包含一個主體內容的影像,要解決主體內容在哪裡的問題,定位出目標的位置。

物體(目標)檢測(object detection):

同時解決是什麼以及在哪裡的問題,定位出目標的位置並且知道目標物是什麼。

找出影像中所有感興趣的目標,確定他們的位置和大小,生成bounding box框出來對應的物體

是CV最具有挑戰性的問題

影像分割問題(segmentation:沿著輪廓把物體切出來)

解決“每一個畫素分別屬於哪個目標或者場景”的問題。可以分為instance-level(例項分割)的分割和scene-level的分割(場景分割)

目標檢測相關演算法

DPM: 

在DCNN出現之前,DPM一直是目標檢測領域最優秀的演算法,通過提取DPM人工特徵,再用latentSVM來進行分類。

DPM的侷限性:特徵計算複雜,速度慢;人工特徵對於旋轉,拉伸,視角變化的物體檢測效果很差

OverFeat:

alexNet大獲成功後,人們開始使用神經網路應用到目標檢測任務中,其中OverFeat的主要思想:

1. 採用共享卷積層用於多工的學習;全卷積網路的思想;3.在特徵層進行滑窗操作避免大量重複計算

基於DCNN的目標檢測演算法發展路線圖

R(Region)-CNN:

R-CNN是深度學習進行目標檢測的里程碑之作,其過程為:

1.使用selective search演算法提取2000個左右的區域候選框;

2.把所有候選框縮成固定大小;

3.用D-CNN提取候選框的特徵,得到固定長度的特徵向量;

4.把特徵向量送入SVM進行分類得到類別資訊,送入全連線網路迴歸得到對應位置座標資訊

主要缺點:

1. 重複計算;2.訓練測試不簡潔,不是一次做完,須分步實施;3.速度慢;4.輸入的圖片得到候選框後必須強制縮放成固定大小(227x227)會導致圖片資訊失真

SPPNet

相比於R-CNN,他將提取候選框特徵向量的操作轉移到卷積後的特徵圖上進行,將RCNN中的多次卷積變為一次卷積,大大降低計算量(參考了OverFeat)

1.sppnet針對輸入圖片先經過大的卷積網路形成feature map圖片,

2.生成候選框

3.隨後引入金字塔pooling的方式取樣候選框圖片獲得固定大小尺寸的輸出

4.進入全連線

5.再進入SVM進行分類

FastRCNN

1.通過ROI Pooling,將不同大小候選框的卷積特徵圖統一取樣成固定大小的特徵。

2.實現了多工的task

FasterRCNN

產出候選框這個工作也由神經網路來做了Region Proposal Network(候選框生成網路)

R-FCN

沿用FasterRCNN架構,在其基礎上引入位置敏感得分圖,用的比較少

Mask R-CNN

由於Fasetr RCNN在做下采樣和ROI Pooling時對特徵圖大小會做取整操作,因此會引入誤差,雖然對於分類任務基本沒有影響,但是對於畫素級別的檢測和分割任務則影響嚴重,為此,引入"雙線性差值填補非整數位置的畫素,從而避免精度問題",這樣的好處是下游特徵圖向上遊對映時沒有位置誤差,提升了目標檢測的效果,同時使得演算法能夠滿足語義分割任務的精度要求。

生成模型 vs 判別模型

判別模型

判別模型有兩種情形

1.針對條件概率建模$p(y|x)$(LR,DNN,RNN,條件隨機場),其目標函式一般為$max_\theta \frac{1}{n} \sum_{i=1}^{n}log p(y_i|x_i;\theta)$

2.針對非概率建模$f(x;\theta):x \rightarrow \{0,1\}$(SVM, K-NN, DecisionTree),其目標函式一般為$max_\theta \frac{1}{n} \sum_{i=1}^{n}\mathbb{I}(f(x_i;\theta)=y_i)$

生成模型

生成模型同樣有兩種情況:

1. 針對聯合概率建模$p(x,y;\theta)$,其目標函式為 $max_\theta \frac{1}{n} \sum_{i=1}^{n}log p(x_i,y_i;\theta)$.

一個用於理解的例子,比如電商網站的評價分析,對於判別模型,目標就是給定一條評價預測是正面還是負面的評價;而對於生成模型,則不僅要完成這個條件概率預測,還要建模句子本身出現的概率。因為有很多評價本身就是灌水的,而非有用的評價

2. 非概率的模型: GAN

G和D依次地迭代更新,就像兩個玩家,D越來越強,G也要越來越強,左右互博,使得D只能隨機判別真偽。

博弈論的納什均衡(最大最小理論)理論,在均衡時刻,假設判別器什麼都不做,你的生成器也不可能變得更好了,同樣地,假設生成器什麼都不做,你的判別器也不可能做的更好了。

 

相關文章