CNN神經網路之卷積操作

凌逆戰發表於2019-07-19

在看這兩個函式之前,我們需要先了解一維卷積(conv1d)二維卷積(conv2d),二維卷積是將一個特徵圖在width和height兩個方向進行滑動視窗操作,對應位置進行相乘求和;而一維卷積則只是在width或者height方向上進行滑動視窗並相乘求和。

一維卷積:tf.layers.conv1d()

tf.layers.conv1d(
    inputs,
    filters,
    kernel_size,
    strides=1,
    padding='valid',
    data_format='channels_last',
    dilation_rate=1,
    activation=None,
    use_bias=True,
    kernel_initializer=None,
    bias_initializer=tf.zeros_initializer(),
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    trainable=True,
    name=None,
    reuse=None
)

引數:[1]

  • inputs:張量資料輸入,一般是[batch, width, length]
  • filters:整數,輸出空間的維度,可以理解為卷積核(濾波器)的個數
  • kernel_size:單個整數或元組/列表,指定1D(一維,一行或者一列)卷積視窗的長度。
  • strides:單個整數或元組/列表,指定卷積的步長,預設為1
  • padding:"SAME" or "VALID" (不區分大小寫)是否用0填充,
      • SAME用0填充;
      • VALID不使用0填充,捨去不匹配的多餘項。
  • activation:啟用函式
  • ues_bias:該層是否使用偏差
  • kernel_initializer:卷積核的初始化
  • bias_initializer:偏置向量的初始化器
  • kernel_regularizer:卷積核的正則化項
  • bias_regularizer:偏置的正則化項
  • activity_regularizer:輸出的正則化函式
  • reuse:Boolean,是否使用相同名稱重用前一層的權重
  • trainable:Boolean,如果True,將變數新增到圖collection中
  • data_format:一個字串,一個channels_last(預設)或channels_first。輸入中維度的排序。
      • channels_last:對應於形狀的輸入(batch, length, channels)
      • channels_first:對應於形狀輸入(batch, channels, length)
  • name = 取一個名字

返回值

  一維卷積後的張量

例子

import tensorflow as tf 

x = tf.get_variable(name="x", shape=[32, 512, 1024], initializer=tf.zeros_initializer)
x = tf.layers.conv1d(
    x,
    filters=1,                    # 輸出的第三個通道是1
    kernel_size=512,            # 不用管它是多大,都不影響輸出的shape
    strides=1,
    padding='same',
    data_format='channels_last',
    dilation_rate=1,
    use_bias=True,
    bias_initializer=tf.zeros_initializer())

print(x)            # Tensor("conv1d/BiasAdd:0", shape=(32, 512, 1), dtype=float32)

解析

  1. 輸入資料的維度為[batch, data_length, data_width]=[32, 512, 1024],一般輸入資料input第一維為batch_size,此處為32,意味著有32個樣本,第二維度和第三維度分別表示輸入的長和寬(512,1024)
  2. 一維卷積核是二維的,也有長和寬,長為卷積核的數量kernel_size=512,因為卷積核的數量只有一個,所以寬為輸入資料的寬度data_width=1024,所以一維卷積核的shape為[512,1024]
  3. filteres是卷積核的個數,即輸出資料的第三維度。filteres=1,第三維度為1
  4. 所以卷積後的輸出資料大小為[32, 512, 1]

二維卷積:tf.layers.conv2d()

tf.layers.conv2d(
    inputs,
    filters,
    kernel_size,
    strides=(1, 1),
    padding='valid',
    data_format='channels_last',
    dilation_rate=(1, 1),
    activation=None,
    use_bias=True,
    kernel_initializer=None,
    bias_initializer=tf.zeros_initializer(),
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    trainable=True,
    name=None,
    reuse=None
)

引數:[4]

  • inputs:張量輸入。一般是[batch, width, length]
  • filters:整數,輸出空間的維度,可以理解為卷積核(濾波器)的個數
  • kernel_size:2個整數或元組/列表,指定2D卷積視窗的高度和寬度。可以是單個整數,以指定所有空間維度的相同值。
  • strides:2個整數或元組/列表,指定卷積沿高度和寬度方向的步幅。可以是單個整數,以指定所有空間維度的相同值。
  • padding:"SAME" or "VALID" (不區分大小寫)是否用0填充,
      • SAME用0填充;
      • VALID不使用0填充,捨去不匹配的多餘項。
  • data_format:字串,"channels_last"(預設)或"channels_first"。輸入中維度的排序。
      • channels_last:對應於具有形狀的輸入,(batch, height, width, channels)
      • channels_first:對應於具有形狀的輸入(batch, channels, height, width)
  • activation:啟用函式
  • use_bias:Boolean, 該層是否使用偏差項
  • kernel_initializer:卷積核的初始化
  • bias_initializer:  偏置向量的初始化。如果為None,將使用預設初始值設定項
  • kernel_regularizer:卷積核的正則化項
  • bias_regularizer:  偏置向量的正則化項
  • activity_regularizer:輸出的正則化函式
  • trainable:Boolean,如果True,將變數新增到圖collection中
  • name:圖層的name
  • reuse:Boolean,是否使用相同名稱重用前一層的權重

返回:

  二維卷積後的張量

例子:

import tensorflow as tf 

x = tf.get_variable(name="x", shape=[1, 3, 3, 5], initializer=tf.zeros_initializer)
x = tf.layers.conv2d(
    x,
    filters=1,                    # 結果的第三個通道是1
    kernel_size=[1, 1],            # 不用管它是多大,都不影響輸出的shape
    strides=[1, 1],
    padding='same',
    data_format='channels_last',
    use_bias=True,
    bias_initializer=tf.zeros_initializer())

print(x)            # shape=(1, 3, 3, 1)

解析:

  1. input輸入是1張 3*3 大小的圖片,影象通道數是5,輸入shape=(batch, data_length, data_width, data_channel)
  2. kernel_size卷積核shape是 1*1,數量filters是1strides步長是[1,1],第一維和第二維分別為長度方向和寬度方向的步長 = 1。
  3. 最後輸出的shape為[1,3,3,1] 的張量,即得到一個3*3的feature map(batch,長,寬,輸出通道數)
  4. 長和寬只和strides有關,最後一個維度 = filters。

 

卷積層中的輸出大小計算

  設輸入圖片大小W,Filter大小F,步長為S,padding為P,輸出圖片的大小為N:

$$N=\frac{W-F+2P}{S}+1$$

  向下取整後再加1。

在Tensoflow中,Padding有2個選型,'SAME'和'VALID' ,下面舉例說明差別:

如果 Padding='SAME',輸出尺寸為: W / S(向上取整)

import tensorflow as tf

input_image = tf.get_variable(shape=[64, 32, 32, 3], dtype=tf.float32, name="input", initializer=tf.zeros_initializer)
conv0 = tf.layers.conv2d(input_image, 64, kernel_size=[3, 3], strides=[2, 2], padding='same')  # 32/2=16
conv1 = tf.layers.conv2d(input_image, 64, kernel_size=[5, 5], strides=[2, 2], padding='same')  
# kernel_szie不影響輸出尺寸
print(conv0)      # shape=(64, 16, 16, 64)
print(conv1)      # shape=(64, 16, 16, 64)

如果 Padding='VALID',輸出尺寸為:(W - F + 1) / S

import tensorflow as tf

input_image = tf.get_variable(shape=[64, 32, 32, 3], dtype=tf.float32, name="input", initializer=tf.zeros_initializer)
conv0 = tf.layers.conv2d(input_image, 64, kernel_size=[3, 3], strides=[2, 2], padding='valid')  # (32-3+1)/2=15
conv1 = tf.layers.conv2d(input_image, 64, kernel_size=[5, 5], strides=[2, 2], padding='valid')  # (32-5+1)/2=14
print(conv0)      # shape=(64, 15, 15, 64)
print(conv1)      # shape=(64, 14, 14, 64)

  

參考文獻:

[1] tensorflow官方API tf.layers.conv1d

[2] tf.layers.conv1d函式解析(一維卷積)

[3] tf.layer.conv1d、conv2d、conv3d

[4] tensorflow官方API tf.layers.conv2d

 

相關文章