Caffe學習紀錄01

weixin_33866037發表於2017-04-29

針對Training LeNet on MNIST with Caffe的Demo分析

1、設定網路檔案的儲存位置

@CAFFE_ROOT/src/caffe/proto/caffe.proto

設定檔案儲存在一個.proto檔案裡面,在這裡面設定了我們所要的網路特性和引數

2、定義自己的網路

首先從整理的來看一下,在這個Demo裡面我們定義了一下幾個Layer(用Type名代替)

Data:

layer {
  name: "mnist"
  type: "Data"
  transform_param {
    scale: 0.00390625
    #為什麼是0.00290625呢,這個值是1/255
    #原因是普通圖片是RGB格式0~255,而Caffe裡面是RBG是0~1故做此操作
  }
  data_param {
    source: "mnist_train_lmdb"
    backend: LMDB
    batch_size: 64
    #直譯是批量大小,也就是說一次讀入多少張圖片
  }
  top: "data"
  top: "label"
  #輸出到data和label
}

Convolution:(顧名思義就是卷積層,但是這個Blob是存的是“Data”Blob卷積運算後的)

layer {
  name: "conv1"
  type: "Convolution"
  param { lr_mult: 1 }
  param { lr_mult: 2 }
  #LearnRate 1是整體同步,2是整體2倍(此處理解的還不是很清楚
  convolution_param {
    num_output: 20
    #這次卷積有多少個核函式
    kernel_size: 5
    #視窗5X5,就是這次運算取了5X5的畫素點,
    #什麼是視窗,我目前對視窗理解就是在影象中取一個小塊
    stride: 1
    #stride步長,一次滑一個畫素點
    weight_filler {
      type: "xavier"
    }
    bias_filler {
      type: "constant"
      #偏移是常量
    }
  }
  bottom: "data"
  #資料來源(上一個Blob)是data
  top: "conv1"
  #輸出到conv1 Blob
}

Pooling:

layer {
  name: "pool1"
  type: "Pooling"
  pooling_param {
    kernel_size: 2
    stride: 2
    pool: MAX
    #視窗2X2,步長2
  }
  bottom: "conv1"
  top: "pool1"
  #輸出到pool1這個Blob
}

卷積層輸出的是影象的特徵圖,然後為了解決過度擬化和計算量大的問題,Pooling層對卷積層的輸出進行取樣,以達到減小特徵圖解析度的目的。

InnerProduct:(Fully Connected Layer)(InnerProduct中文是內積)

layer {
  name: "ip1"
  type: "InnerProduct"
  param { lr_mult: 1 }
  param { lr_mult: 2 }
  inner_product_param {
    num_output: 500
    weight_filler {
      type: "xavier"
    }
    bias_filler {
      type: "constant"
    }
  }
  bottom: "pool2"
  top: "ip1"
}

這個嘛,這層以目前的理解有點像是ANN裡面的分類的過程,之前的Conv和Pooling都是不停的提取特徵值,而這裡是真正分類的過程。

ReLU:(和tanh和sigmod啟用不同另一種啟用函式)

layer {
  name: "relu1"
  type: "ReLU"
  bottom: "ip1"
  top: "ip1"
}

ReLU層是啟用層的一種型別,參考的AlexNet論文,可以看出和之前的啟用函式不同,ReLU的啟用函式模仿了自然界中區域性神經元會相互抑制的特性,在計算本神經元輸出的時候會考慮到周圍的神經元的輸出(看一眼公式就知道了)。

LossLayer:

layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "ip2"
  bottom: "label"
}

​ 這個層的目的就是對前向傳播以後的結果同預期結果做對比,看之間相差了多少,這個也是反向傳播的時候一個重要的依據。在這裡它的type主要是改變損失函式,不同的損失函式有不同的效果。損失函式的計算結果會直接的影響反向傳播演算法中的梯度計算,所以這裡算是一個調整引數的重要位置。

​ 在這個層中有一個不設定損失函式,那就是Accuracy型別,這個型別就是單純的輸出測試的準確度的。

​ loss層不做任何輸出,在反向傳播的開始的時候使用,原文中的最後一句話問有意思。

​ “This is where all magic starts”

​ 畢竟梯度計算的最開始就是這裡,算出最後一層的梯度以後,之前的梯度都和下一層的的梯度相關。

3、定義Solver

Solver檔案以我現在淺薄的理解看來是一個怎麼執行網路,定義怎麼輸出的作用

它存放在以下位置

$CAFFE_ROOT/examples/mnist/lenet_solver.prototxt

# The train/test net protocol buffer definition
net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
# 迭代100次,舉個例子就是網路中一次讀入假設100個圖,100次迭代就是讀了10000個圖
test_interval: 500
# 每500次迭代用Test資料集輸出一次測試結果
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
#lr是LearnRate的意思,weight_decay是每次修正多少weight的意思
lr_policy: "inv"
gamma: 0.0001
power: 0.75
# 這個是learning rate policy,gamma和power是inv模式需要的引數(這個大體就是一個函式

display: 100
# Display every 100 iterations
max_iter: 10000
# The maximum number of iterations

# snapshot intermediate results
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet"
#prefix是字首的意思
# solver mode: CPU or GPU
solver_mode: GPU

​ 在這部分的base_lr,lr_policy都是調整學習速率用的,也是後期調整引數的重要位置。學習速率是再反向傳播演算法中出現的,它是公式中用梯度進行調整的時候,梯度前面的引數,類似y=kx+b,前面的k。在公式中一般都記做α。base_lr為基礎學習速率,顧名思義就是最最開始的時候學習速率的值,而lr_policy就是調整學習速率的方法,選擇不同的方法則下面要跟的引數就不一樣。剩下的部分,覺得大概就直接看就能看得懂。

4、訓練和測試Model

去相應的位置執行.sh檔案即可,Demo中的位置是

cd $CAFFE_ROOT
./examples/mnist/tran_lenet.sh

5、其他細節

在測試的時候,可以根據自己的顯示卡視訊記憶體,來調整batch_size的大小,來調整,

可以在執行了一段時間後使用以下程式碼來檢視

nvidia-smi

初次紀錄2017/3/16。學長講解後

記錄修正2017/6/10。畢業晚會第二天

相關文章