TensorFlow上實現卷積神經網路CNN

marsjhao發表於2020-04-06

一、卷積神經網路CNN簡介

卷積神經網路(ConvolutionalNeuralNetwork,CNN)最初是為解決影像識別等問題設計的,CNN現在的應用已經不限於影像和視訊,也可用於時間序列訊號,比如音訊訊號和文字資料等。CNN作為一個深度學習架構被提出的最初訴求是降低對影像資料預處理的要求,避免複雜的特徵工程。在卷積神經網路中,第一個卷積層會直接接受影像畫素級的輸入,每一層卷積(濾波器)都會提取資料中最有效的特徵,這種方法可以提取到影像中最基礎的特徵,而後再進行組合和抽象形成更高階的特徵,因此CNN在理論上具有對影像縮放、平移和旋轉的不變性。

卷積神經網路CNN的要點就是區域性連線(LocalConnection)、權值共享(WeightsSharing)和池化層(Pooling)中的降取樣(Down-Sampling)。其中,區域性連線和權值共享降低了引數量,使訓練複雜度大大下降並減輕了過擬合。同時權值共享還賦予了卷積網路對平移的容忍性,池化層降取樣則進一步降低了輸出引數量並賦予模型對輕度形變的容忍性,提高了模型的泛化能力。可以把卷積層卷積操作理解為用少量引數在影像的多個位置上提取相似特徵的過程。

更多請參見:深度學習之卷積神經網路CNN

二、TensorFlow程式碼實現

#!/usr/bin/env python2
# -*- coding: utf-8 -*-
"""
Created on Thu Mar  9 22:01:46 2017

@author: marsjhao
"""

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
sess = tf.InteractiveSession()

def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1) #標準差為0.1的正態分佈
    return tf.Variable(initial)

def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape) #偏差初始化為0.1
    return tf.Variable(initial)

def conv2d(x, W):
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                          strides=[1, 2, 2, 1], padding='SAME')

x = tf.placeholder(tf.float32, [None, 784])
y_ = tf.placeholder(tf.float32, [None, 10])
# -1代表先不考慮輸入的圖片例子多少這個維度,1是channel的數量
x_image = tf.reshape(x, [-1, 28, 28, 1])
keep_prob = tf.placeholder(tf.float32)

# 構建卷積層1
W_conv1 = weight_variable([5, 5, 1, 32]) # 卷積核5*5,1個channel,32個卷積核,形成32個featuremap
b_conv1 = bias_variable([32]) # 32個featuremap的偏置
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1) # 用relu非線性處理
h_pool1 = max_pool_2x2(h_conv1) # pooling池化

# 構建卷積層2
W_conv2 = weight_variable([5, 5, 32, 64]) # 注意這裡channel值是32
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

# 構建全連線層1
W_fc1 = weight_variable([7*7*64, 1024])
b_fc1 = bias_variable([1024])
h_pool3 = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool3, W_fc1) + b_fc1)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

# 構建全連線層2
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y_conv),
                                              reduction_indices=[1]))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.arg_max(y_conv, 1), tf.arg_max(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

tf.global_variables_initializer().run()

for i in range(20001):
    batch = mnist.train.next_batch(50)
    if i % 100 == 0:
        train_accuracy = accuracy.eval(feed_dict={x:batch[0], y_:batch[1],
                                                 keep_prob: 1.0})
        print("step %d, training accuracy %g" %(i, train_accuracy))
    train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob:0.5})
print("test accuracy %g" %accuracy.eval(feed_dict={x: mnist.test.images,
                                    y_: mnist.test.labels, keep_prob: 1.0}))

三、程式碼解讀

該程式碼是用TensorFlow實現一個簡單的卷積神經網路,在資料集MNIST上,預期可以實現99.2%左右的準確率。結構上使用兩個卷積層和一個全連線層。

首先載入MNIST資料集,採用獨熱編碼,並建立tf.InteractiveSession。然後為後續即將多次使用的部分程式碼建立函式,包括權重初始化weight_variable、偏置初始化bias_variable、卷積層conv2d、最大池化max_pool_2x2。其中權重初始化的時候要進行含有噪聲的非對稱初始化,打破完全對稱。又由於我們要使用ReLU單元,也需要給偏置bias增加一些小的正值(0.1)用來避免死亡節點(dead neurons

構建卷積神經網路之前,先要定義輸入的placeholder,特徵x和真實標籤y_,將1*784格式的特徵x轉換reshape為28*28的圖片格式,又由於只有一個通道且不確定輸入樣本的數量,故最終尺寸為[-1, 28, 28, 1]。

接下來定義第一個卷積層,首先初始化weights和bias,然後使用conv2d進行卷積操作並加上偏置,隨後使用ReLU啟用函式進行非線性處理,最後使用最大池化函式對卷積的輸出結果進行池化操作。

相同的步驟定義第二個卷積層,不同的地方是卷積核的數量為64,也就是說這一層的卷積會提取64種特徵。經過兩層不變尺寸的卷積和兩次尺寸減半的池化,第二個卷積層後的輸出尺寸為7*7*64。將其reshape為長度為7*7*64的1-D向量。經過ReLU後,為了減輕過擬合,使用一個Dropout層,在訓練時隨機丟棄部分節點的資料減輕過擬合,在預測的時候保留全部資料來追求最好的測試效能。

最後加一個Softmax層,得到最後的預測概率。隨後的定義損失函式、優化器、評測準確率不再詳細贅述。

訓練過程首先進行初始化全部引數,訓練時keep_prob比率設定為0.5,評測時設定為1。訓練完成後,在最終的測試集上進行全面的測試,得到整體的分類準確率。

經過實驗,這個CNN的模型可以得到99.2%的準確率,相比於MLP又有了較大幅度的提高。

四、其他解讀補充

1. tf.nn.conv2d(x,W, strides=[1, 1, 1, 1], padding='SAME')

tf.nn.conv2d是TensorFlow的2維卷積函式,x和W都是4-D的tensors。x是輸入input shape=[batch,in_height, in_width, in_channels],W是卷積的引數filter / kernel shape=[filter_height, filter_width, in_channels,out_channels]。strides引數是長度為4的1-D引數,代表了卷積核(滑動視窗)移動的步長,其中對於圖片strides[0]和strides[3]必須是1,都是1表示不遺漏地劃過圖片的每一個點。padding引數中SAME代表給邊界加上Padding讓卷積的輸出和輸入保持相同的尺寸。

2. tf.nn.max_pool(x,ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

tf.nn.max_pool是TensorFlow中的最大池化函式,x是4-D的輸入tensor shape=[batch, height, width, channels],ksize參數列示池化視窗的大小,取一個4維向量,一般是[1, height, width, 1],因為我們不想在batch和channels上做池化,所以這兩個維度設為了1,strides與tf.nn.conv2d相同,strides=[1, 2, 2, 1]可以縮小圖片尺寸。padding引數也參見tf.nn.conv2d。

相關文章