TensorFlow筆記-08-過擬合,正則化,matplotlib 區分紅藍點
首先提醒一下,第7講的最後滑動平均的程式碼已經更新了,程式碼要比理論重要
今天是過擬合,和正則化,本篇後面可能或更有興趣,因為涉及到視覺化圖形了,而不是純資料
- 過擬合:神經網路模型在訓練集上的準確率比較高在新的資料進行預測或分類時準確率較低,說明模型泛華能力差
- 正則化:在損失函式中給每個引數w加上權重,引入模型輔助度指標,從而抑制模型噪聲,減小過擬合
使用正則化後,損失函式 loss 變為兩項之和:
loss = loss(y與y_) + REGULARIZER*loss(w)
其中,第一項是預測結果與標準答案之間的差距,如之前講過的交叉熵,均方誤差等;第二項是正則化計算結果
看過我爬蟲教程的可能瞭解這個正則 re,re就是這個 regularize
正則化計算方法:
(1)L1正則化:lossL1 = Σi |wi|
用 Tensorflow 函式表示:loss(w) = tf.contrib.layers.11_regularizer(REGULARIZER)(w)
(2)L2正則化:lossL2 = Σi |wi|2
用 Tensorflow 函式表示:loss(w) = tf.contrib.layers.12_regularizer(REGULARIZER)(w)用 Tensorflow 函式實現正則化:
tf.add_to_collection('losses', tf.contrib.layers.12_regularizer(regularizer)(w)
losss = cem + tf.add_n(tf.get_collection('losses'))
例如:
用 300 個符合正態分佈的點 X[x0, x1]作為資料集,根據點 X[x0, x1] 計算生成標註 Y_,將資料集標註為紅色點和藍色點。
標註規則:當 x02 + x12 >= 2 時,y_=0,標註為藍色
我們分別用無正則化和正則化兩種方法,擬合曲線,把紅色點和藍色點。在實際分類時,如果前向傳播輸出的預測值y接近1則為紅色點概率越大,接近0則為藍色點概率越大,輸出的預測值y為0.5是紅藍點概率分界線
在本例子中,我們使用了之前未用過的模組與函式
- matplotlib 模組:Python 中視覺化工具模組,實現函式視覺化
- matplotlib 的安裝
1.在 PyCharm 設定中新增就可以:
2.終端安裝指令:
pip install matplotlib
函式 plt.scatter ():利用指定顏色實現點 (x,y) 的視覺化
plt.scatter (x 座標,y 座標,c="顏色")
plt.show()收集規定區域內所有的網格座標點:
# 找到規定區域以步長為解析度的行列網格座標點
xx,yy = np.mgrid[起:止:步長,起:止:步長]
# 收集規定區域內所有的網格座標點
grid = np.c_[xx.ravel(), yy.ravel()]- plt.contour() 函式:告知 x,y 座標和各點高度,用 levels 指定高度的點瞄上顏色
plt.contour (x 軸座標值,y 軸座標值,該點的高度,levels=[等高線高度])
plt.show()
本例程式碼如下:
#coding:utf-8
#匯入模組,生成模擬資料集
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
BATCH_SIZE = 30
seed = 2
# 基於 seed 產生隨機數
rdm = np.random.RandomState(seed)
#隨機數返回行列的矩陣,表示組座標點(x0, x1)作為輸入資料集
X = rdm.randn(300,2)
#從X這個300行2列的矩陣中取出一行,判斷如果兩個座標的平方和小於2,給Y賦值1,其餘值0
#作為輸入資料集的標籤(正確答案)
Y_ = [int(x0*x0 + x1*x1<2) for (x0,x1) in X]
#遍歷Y中的每個元素,1賦值 'red' 其餘賦值為 'blue',這樣視覺化顯示時人可以直觀區分
Y_c = [['red' if y else 'blue'] for y in Y_]
#對資料集X和標籤Y進行shap整理,第一個元素為-1表示,隨第二個引數計算得到
#第二個元素表示多少列,把X鄭磊為n行2列,把Y整理為n行1列
X = np.vstack(X).reshape(-1,2)
Y_ = np.vstack(Y_).reshape(-1,1)
print(X)
print(Y_)
print(Y_c)
# 用plt.scatter畫出資料集X各行中第0列元素和第1列元素的點即各行的(x0,x1),
# 用各行Y_c對應的值表示顏色(c是color的縮寫)
plt.scatter(X[:,0], X[:,1],c=np.squeeze(Y_c))
plt.show()
# 定義神經網路的輸入,引數和輸出,定義前向傳播過程
def get_weight(shape, regularizer):
w = tf.Variable(tf.random_normal(shape), dtype=tf.float32)
tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(regularizer)(w))
return w
def get_bias(shape):
b = tf.Variable(tf.constant(0.01, shape=shape))
return b
x = tf.placeholder(tf.float32, shape=(None, 2))
y_ = tf.placeholder(tf.float32, shape=(None, 1))
w1 = get_weight([2,11], 0.01)
b1 = get_bias([11])
y1 = tf.nn.relu(tf.matmul(x, w1)+b1)
w2 = get_weight([11,1], 0.01)
b2 = get_bias([1])
y = tf.matmul(y1, w2)+b2 #輸出層不過啟用
# 定義損失函式
loss_mse = tf.reduce_mean(tf.square(y-y_))
loss_total = loss_mse + tf.add_n(tf.get_collection('losses'))
# 定義反向傳播方法:不含正則化
train_step = tf.train.AdadeltaOptimizer(0.0001).minimize(loss_mse)
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
STEPS = 40000
for i in range(STEPS):
start = (i*BATCH_SIZE)%300
end = start + BATCH_SIZE
sess.run(train_step,feed_dict={x:X[start:end],y_:Y_[start:end]})
if i % 2000 == 0:
loss_mse_v = sess.run(loss_mse,feed_dict={x:X,y_:Y_})
print("Atfer %d steps, loss is:%f" %(i, loss_mse_v))
#xx在-3到3之間以步長為0.01,yy在-3到3之間以步長0.01,生成二維碼網格座標點
xx,yy = np.mgrid[-3:3:.01, -3:3:.01]
#將xx,yy拉直,併合成一個2列的矩陣,得到一個網格的集合
grid = np.c_[xx.ravel(),yy.ravel()]
#將網格座標點喂入神經網路,probs為輸出
probs = sess.run(y, feed_dict={x:grid})
# probs 的shape調整成xx的樣子
probs = probs.reshape(xx.shape)
print("w1:\n",sess.run(w1))
print("b1:\n", sess.run(b1))
print("w2:\n", sess.run(w2))
print("b2:\n", sess.run(b2))
plt.scatter(X[:,0],X[:,1], c=np.squeeze(Y_c))
plt.contour(xx,yy,probs,levels=[.5])
plt.show()
#定義反向傳播方法:包含正則化
train_step = tf.train.AdamOptimizer(0.0001).minimize(loss_total)
with tf.Session() as sess:
init_op = tf.global_variables_initializer()
sess.run(init_op)
STEPS = 40000
for i in range(STEPS):
start = (i*BATCH_SIZE)%300
end = start + BATCH_SIZE
sess.run(train_step, feed_dict={x:X[start:end],y_:Y_[start:end]})
if i %2000 ==0:
loss_v = sess.run(loss_total, feed_dict={x:X,y_:Y_})
print("Atfer %d steps, loss is:%f" % (i, loss_v))
# xx在-3到3之間以步長為0.01,yy在-3到3之間以步長0.01,生成二維碼網格座標點
xx, yy = np.mgrid[-3:3:.01, -3:3:.01]
# 將xx,yy拉直,併合成一個2列的矩陣,得到一個網格的集合
grid = np.c_[xx.ravel(), yy.ravel()]
# 將網格座標點喂入神經網路,probs為輸出
probs = sess.run(y, feed_dict={x: grid})
# probs 的shape調整成xx的樣子
probs = probs.reshape(xx.shape)
print("w1:\n", sess.run(w1))
print("b1:\n", sess.run(b1))
print("w2:\n", sess.run(w2))
print("b2:\n", sess.run(b2))
plt.scatter(X[:, 0], X[:, 1], c=np.squeeze(Y_c))
plt.contour(xx, yy, probs, levels=[.5])
plt.show()
執行過程可能較慢,請耐心等待
注意:紅字提示不是報錯,只是提示,現在可以不管
執行結果
主要看輸出的三張圖:
下面再說一篇每張圖的意思:
第一張圖:
只有紅藍點,對隨機的點進行資料集視覺化,標註規則:當 x02 + x12 >= 2 時,y_=0,標註為藍色
第二張圖:
程式碼的註釋中說明已經很詳細了,就是執行沒有正則化訓練過程,將紅藍點分開的效果
顯然我這個有點失敗,但主要就是為了突出第三張圖片的效果
第三張圖:
執行包含正則化訓練過程,將紅藍點分開的效果
更多文章連結:Tensorflow 筆記
- 本筆記不允許任何個人和組織轉載