迴圈神經網路LSTM RNN迴歸：sin曲線預測

華為雲開發者社群發表於2021-09-11

原文網址 : https://www.cnblogs.com/huaweiyun/p/15254033.html

摘要：本篇文章將分享迴圈神經網路LSTM RNN如何實現迴歸預測。

本文分享自華為雲社群《[Python人工智慧] 十四.迴圈神經網路LSTM RNN迴歸案例之sin曲線預測丨【百變AI秀】》，作者：eastmount。

一.RNN和LSTM回顧

1.RNN

(1) RNN原理

迴圈神經網路英文是Recurrent Neural Networks，簡稱RNN。假設有一組資料data0、data1、data2、data3，使用同一個神經網路預測它們，得到對應的結果。如果資料之間是有關係的，比如做菜下料的前後步驟，英文單詞的順序，如何讓資料之間的關聯也被神經網路學習呢？這就要用到——RNN。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

假設存在ABCD數字，需要預測下一個數字E，會根據前面ABCD順序進行預測，這就稱為記憶。預測之前，需要回顧以前的記憶有哪些，再加上這一步新的記憶點，最終輸出output，迴圈神經網路（RNN）就利用了這樣的原理。

首先，讓我們想想人類是怎麼分析事物之間的關聯或順序的。人類通常記住之前發生的事情，從而幫助我們後續的行為判斷，那麼是否能讓計算機也記住之前發生的事情呢？

迴圈神經網路LSTM RNN迴歸：sin曲線預測

在分析data0時，我們把分析結果存入記憶Memory中，然後當分析data1時，神經網路（NN）會產生新的記憶，但此時新的記憶和老的記憶沒有關聯，如上圖所示。在RNN中，我們會簡單的把老記憶呼叫過來分析新記憶，如果繼續分析更多的資料時，NN就會把之前的記憶全部累積起來。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

RNN結構如下圖所示，按照時間點t-1、t、t+1，每個時刻有不同的x，每次計算會考慮上一步的state和這一步的x(t)，再輸出y值。在該數學形式中，每次RNN執行完之後都會產生s(t)，當RNN要分析x(t+1)時，此刻的y(t+1)是由s(t)和s(t+1)共同創造的，s(t)可看作上一步的記憶。多個神經網路NN的累積就轉換成了迴圈神經網路，其簡化圖如下圖的左邊所示。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

總之，只要你的資料是有順序的，就可以使用RNN，比如人類說話的順序，電話號碼的順序，影像畫素排列的順序，ABC字母的順序等。在前面講解CNN原理時，它可以看做是一個濾波器滑動掃描整幅影像，通過卷積加深神經網路對影像的理解。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

而RNN也有同樣的掃描效果，只不過是增加了時間順序和記憶功能。RNN通過隱藏層週期性的連線，從而捕獲序列化資料中的動態資訊，提升預測結果。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

(2) RNN應用

RNN常用於自然語言處理、機器翻譯、語音識別、影像識別等領域，下面簡單分享RNN相關應用所對應的結構。

RNN情感分析： 當分析一個人說話情感是積極的還是消極的，就用如下圖所示的RNN結構，它有N個輸入，1個輸出，最後時間點的Y值代表最終的輸出結果。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

RNN影像識別： 此時有一張圖片輸入X，N張對應的輸出。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

RNN機器翻譯： 輸入和輸出分別兩個，對應的是中文和英文，如下圖所示。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

2.LSTM

接下來我們看一個更強大的結構，稱為LSTM。

(1) 為什麼要引入LSTM呢？

RNN是在有序的資料上進行學習的，RNN會像人一樣對先前的資料發生記憶，但有時候也會像老爺爺一樣忘記先前所說。為了解決RNN的這個弊端，提出了LTSM技術，它的英文全稱是Long short-term memory，長短期記憶，也是當下最流行的RNN之一。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

假設現在有一句話，如下圖所示，RNN判斷這句話是紅燒排骨，這時需要學習，而“紅燒排骨“在句子開頭。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

"紅燒排骨"這個詞需要經過長途跋涉才能抵達，要經過一系列得到誤差，然後經過反向傳遞，它在每一步都會乘以一個權重w引數。如果乘以的權重是小於1的數，比如0.9，0.9會不斷地乘以誤差，最終這個值傳遞到初始值時，誤差就消失了，這稱為梯度消失或梯度離散。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

反之，如果誤差是一個很大的數，比如1.1，則這個RNN得到的值會很大，這稱為梯度爆炸。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

梯度消失或梯度爆炸：在RNN中，如果你的State是一個很長的序列，假設反向傳遞的誤差值是一個小於1的數，每次反向傳遞都會乘以這個數，0.9的n次方趨向於0，1.1的n次方趨向於無窮大，這就會造成梯度消失或梯度爆炸。

這也是RNN沒有恢復記憶的原因，為了解決RNN梯度下降時遇到的梯度消失或梯度爆炸問題，引入了LSTM。

(2) LSTM

LSTM是在普通的RNN上面做了一些改進，LSTM RNN多了三個控制器，即輸入、輸出、忘記控制器。左邊多了個條主線，例如電影的主線劇情，而原本的RNN體系變成了分線劇情，並且三個控制器都在分線上。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

輸入控制器（write gate）: 在輸入input時設定一個gate，gate的作用是判斷要不要寫入這個input到我們的記憶體Memory中，它相當於一個引數，也是可以被訓練的，這個引數就是用來控制要不要記住當下這個點。
輸出控制器（read gate）: 在輸出位置的gate，判斷要不要讀取現在的Memory。
忘記控制器（forget gate）: 處理位置的忘記控制器，判斷要不要忘記之前的Memory。

LSTM工作原理為：如果分線劇情對於最終結果十分重要，輸入控制器會將這個分線劇情按重要程度寫入主線劇情，再進行分析；如果分線劇情改變了我們之前的想法，那麼忘記控制器會將某些主線劇情忘記，然後按比例替換新劇情，所以主線劇情的更新就取決於輸入和忘記控制；最後的輸出會基於主線劇情和分線劇情。

通過這三個gate能夠很好地控制我們的RNN，基於這些控制機制，LSTM是延緩記憶的良藥，從而帶來更好的結果。

二.LSTM RNN迴歸案例說明

前面我們講解了RNN、CNN的分類問題，這篇文章將分享一個迴歸問題。在LSTM RNN迴歸案例中，我們想要用藍色的虛線預測紅色的實線，由於sin曲線是波浪迴圈，所以RNN會用一段序列來預測另一段序列。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

程式碼基本結構包括：

(1) 生成資料的函式get_batch()
(2) 主體LSTM RNN
(3) 三層神經網路，包括input_layer、cell、output_layer，和之前分類RNN的結構一樣。

def add_input_layer(self,):
    pass
def add_cell(self):
    pass     
def add_output_layer(self):
    pass

(4) 計算誤差函式 computer_cost
(5) 誤差weight和偏置biases
(6) 主函式建立LSTM RNN模型
(7) TensorBoard視覺化神經網路模型，matplotlib視覺化擬合曲線、

最後再補充下BPTT，就開始我們的程式碼編寫。

(1) 普通RNN

假設我們訓練含有1000000個資料的序列，如果全部訓練的話，整個的序列都feed進RNN中，容易造成梯度消失或爆炸的問題。所以解決的方法就是截斷反向傳播 (Truncated Backpropagation，BPTT) ，我們將序列截斷來進行訓練(num_steps)。

一般截斷的反向傳播是：在當前時間t，往前反向傳播num_steps步即可。如下圖，長度為6的序列，截斷步數是3，Initial State和Final State在RNN Cell中傳遞。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

(2) TensorFlow版本的BPTT

但是Tensorflow中的實現並不是這樣，它是將長度為6的序列分為了兩部分，每一部分長度為3，前一部分計算得到的final state用於下一部分計算的initial state。如下圖所示，每個batch進行單獨的截斷反向傳播。此時的batch會儲存Final State，並作為下一個batch的初始化State。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

參考：深度學習（07）RNN-迴圈神經網路-02-Tensorflow中的實現 - 莫失莫忘Lawlite

三.程式碼實現

第一步，開啟Anaconda，然後選擇已經搭建好的“tensorflow”環境，執行Spyder。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

第二步，匯入擴充套件包。

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

第三步，編寫生成資料的函式get_batch()，它生成了sin曲線的序列。

# 獲取批量資料
def get_batch():
    global BATCH_START, TIME_STEPS
    # xs shape (50batch, 20steps)
    xs = np.arange(BATCH_START, BATCH_START+TIME_STEPS*BATCH_SIZE).reshape((BATCH_SIZE, TIME_STEPS)) / (10*np.pi)
    seq = np.sin(xs)
    res = np.cos(xs)
    BATCH_START += TIME_STEPS    
    # 顯示原始曲線
    plt.plot(xs[0, :], res[0, :], 'r', xs[0, :], seq[0, :], 'b--')
    plt.show()
    # 返回序列seq 結果res 輸入xs
    return [seq[:, :, np.newaxis], res[:, :, np.newaxis], xs]

此時的輸出結果如下圖所示，注意它只是模擬的預期曲線，還不是我們神經網路學習的結構。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

第四步，編寫LSTMRNN類，它用於定義我們的迴圈神經網路結構，初始化操作和所需變數。

初始化init()函式的引數包括：

n_steps表示batch中的步驟，共有3步。
input_size表示傳入batch data時，每個input的長度，該例項中input_size和output_size均為1。如下圖所示，假設我們batch長度為一個週期（0-6），每個input是線的x值，input size表示每個時間點有多少個值，只有一個點故為1。
output_size表示輸出的值，輸出對應input線的y值，其大小值為1。
cell_size表示RNN Cell的個數，其值為10。
batch_size表示一次性傳給神經網路的batch數量，設定為50。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

該部分程式碼如下，注意xs和ys的形狀。同時，我們需要使用Tensorboard視覺化RNN的結構，所以呼叫tf.name_scope()設定各神經層和變數的名稱空間名稱，詳見第五篇文章。

#----------------------------------定義引數----------------------------------
BATCH_START = 0
TIME_STEPS = 20
BATCH_SIZE = 50          # BATCH數量
INPUT_SIZE = 1           # 輸入一個值
OUTPUT_SIZE = 1          # 輸出一個值
CELL_SIZE = 10           # Cell數量
LR = 0.006
BATCH_START_TEST = 0

#----------------------------------LSTM RNN----------------------------------
class LSTMRNN(object):
    # 初始化操作
    def __init__(self, n_steps, input_size, output_size, cell_size, batch_size):
        self.n_steps = n_steps
        self.input_size = input_size
        self.output_size = output_size
        self.cell_size = cell_size
        self.batch_size = batch_size
 
        # TensorBoard視覺化操作使用name_scope
        with tf.name_scope('inputs'):         #輸出變數
            self.xs = tf.placeholder(tf.float32, [None, n_steps, input_size], name='xs')
            self.ys = tf.placeholder(tf.float32, [None, n_steps, output_size], name='ys')
        with tf.variable_scope('in_hidden'):  #輸入層
            self.add_input_layer()
        with tf.variable_scope('LSTM_cell'):  #處理層
            self.add_cell()
        with tf.variable_scope('out_hidden'): #輸出層
            self.add_output_layer()
        with tf.name_scope('cost'):           #誤差
            self.compute_cost()
        with tf.name_scope('train'):          #訓練
            self.train_op = tf.train.AdamOptimizer(LR).minimize(self.cost)

第五步，接著開始編寫三個函式（三層神經網路），它是RNN的核心結構。

# 輸入層
def add_input_layer(self,):
    pass
# cell層
def add_cell(self):
    pass
# 輸出層
def add_output_layer(self):
    pass

這三個函式也是增加在LSTMRNN的Class中，核心程式碼及詳細註釋如下所示：

#--------------------------------定義核心三層結構-----------------------------
# 輸入層
def add_input_layer(self,):
    # 定義輸入層xs變數 將xs三維資料轉換成二維
    # [None, n_steps, input_size] => (batch*n_step, in_size)
    l_in_x = tf.reshape(self.xs, [-1, self.input_size], name='2_2D')
    # 定義輸入權重 (in_size, cell_size)
    Ws_in = self._weight_variable([self.input_size, self.cell_size])
    # 定義輸入偏置 (cell_size, )
    bs_in = self._bias_variable([self.cell_size,])
    # 定義輸出y變數 二維形狀 (batch * n_steps, cell_size)
    with tf.name_scope('Wx_plus_b'):
        l_in_y = tf.matmul(l_in_x, Ws_in) + bs_in
    # 返回結果形狀轉變為三維
    # l_in_y ==> (batch, n_steps, cell_size)
    self.l_in_y = tf.reshape(l_in_y, [-1, self.n_steps, self.cell_size], name='2_3D')
 
# cell層
def add_cell(self):
    # 選擇BasicLSTMCell模型
    # forget初始偏置為1.0(初始時不希望forget) 隨著訓練深入LSTM會選擇性忘記
    lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(self.cell_size, forget_bias=1.0, state_is_tuple=True)
    # 設定initial_state全為0 視覺化操作用name_scope
    with tf.name_scope('initial_state'):
        self.cell_init_state = lstm_cell.zero_state(self.batch_size, dtype=tf.float32)
    # RNN迴圈 每一步的輸出都儲存在cell_outputs序列中 cell_final_state為最終State並傳入下一個batch中
    # 常規RNN只有m_state LSTM包括c_state和m_state
    self.cell_outputs, self.cell_final_state = tf.nn.dynamic_rnn(
        lstm_cell, self.l_in_y, initial_state=self.cell_init_state, time_major=False)
 
# 輸出層 (類似輸入層)
def add_output_layer(self):
    # 轉換成二維 方能使用W*X+B
    # shape => (batch * steps, cell_size) 
    l_out_x = tf.reshape(self.cell_outputs, [-1, self.cell_size], name='2_2D')
    Ws_out = self._weight_variable([self.cell_size, self.output_size])
    bs_out = self._bias_variable([self.output_size, ])
    # 返回預測結果
    # shape => (batch * steps, output_size)
    with tf.name_scope('Wx_plus_b'):
        self.pred = tf.matmul(l_out_x, Ws_out) + bs_out

注意，上面呼叫了reshape()進行形狀更新，為什麼要將三維變數改成二維呢？因為只有變成二維變數之後，才能計算W*X+B。

第六步，定義計算誤差函式。

這裡需要注意：我們使用了seq2seq函式。它求出的loss是整個batch每一步的loss，然後把每一步loss進行sum求和，變成了整個TensorFlow的loss，再除以batch size平均，最終得到這個batch的總cost，它是一個scalar數字。

# 定義誤差計算函式      
def compute_cost(self):
    # 使用seq2seq序列到序列模型
    # tf.nn.seq2seq.sequence_loss_by_example()
    losses = tf.contrib.legacy_seq2seq.sequence_loss_by_example(
        [tf.reshape(self.pred, [-1], name='reshape_pred')],
        [tf.reshape(self.ys, [-1], name='reshape_target')],
        [tf.ones([self.batch_size * self.n_steps], dtype=tf.float32)],
        average_across_timesteps=True,
        softmax_loss_function=self.msr_error,
        name='losses'
    )
    # 最終得到batch的總cost 它是一個數字
    with tf.name_scope('average_cost'):
        # 整個TensorFlow的loss求和 再除以batch size
        self.cost = tf.div(
            tf.reduce_sum(losses, name='losses_sum'),
            self.batch_size,
            name='average_cost')
        tf.summary.scalar('cost', self.cost)

後面的文章我們會詳細寫一篇機器翻譯相關的內容，並使用seq2seq模型。

Seq2Seq模型是輸出的長度不確定時採用的模型，這種情況一般是在機器翻譯的任務中出現，將一句中文翻譯成英文，那麼這句英文的長度有可能會比中文短，也有可能會比中文長，所以輸出的長度就不確定了。如下圖所，輸入的中文長度為4，輸出的英文長度為2。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

在網路結構中，輸入一箇中文序列，然後輸出它對應的中文翻譯，輸出的部分的結果預測後面，根據上面的例子，也就是先輸出“machine”，將"machine"作為下一次的輸入，接著輸出"learning"，這樣就能輸出任意長的序列。

機器翻譯、人機對話、聊天機器人等等，這些都是應用在當今社會都或多或少的運用到了我們這裡所說的Seq2Seq。

第七步，定義msr_error計算函式、誤差計算函式和偏置計算函式。

# 該函式用於計算
# 相當於msr_error(self, y_pre, y_target) return tf.square(tf.sub(y_pre, y_target))
def msr_error(self, logits, labels):
    return tf.square(tf.subtract(logits, labels))
# 誤差計算
def _weight_variable(self, shape, name='weights'):
    initializer = tf.random_normal_initializer(mean=0., stddev=1.,)
    return tf.get_variable(shape=shape, initializer=initializer, name=name)
# 偏置計算
def _bias_variable(self, shape, name='biases'):
    initializer = tf.constant_initializer(0.1)
    return tf.get_variable(name=name, shape=shape, initializer=initializer)

寫到這裡，整個Class就定義完成。

第八步，接下來定義主函式，進行訓練和預測操作，這裡先嚐試TensorBoard視覺化展現。

#----------------------------------主函式 訓練和預測----------------------------------     
if __name__ == '__main__':
    # 定義模型並初始化
    model = LSTMRNN(TIME_STEPS, INPUT_SIZE, OUTPUT_SIZE, CELL_SIZE, BATCH_SIZE)
    sess = tf.Session()
    merged = tf.summary.merge_all()
    writer = tf.summary.FileWriter("logs", sess.graph)
    sess.run(tf.initialize_all_variables())

四.完整程式碼及視覺化展示

該階段的完整程式碼如下，我們先嚐試執行下程式碼：

# -*- coding: utf-8 -*-
"""
Created on Thu Jan  9 20:44:56 2020
@author: xiuzhang Eastmount CSDN
"""
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

#----------------------------------定義引數----------------------------------
BATCH_START = 0
TIME_STEPS = 20
BATCH_SIZE = 50          # BATCH數量
INPUT_SIZE = 1           # 輸入一個值
OUTPUT_SIZE = 1          # 輸出一個值
CELL_SIZE = 10           # Cell數量
LR = 0.006
BATCH_START_TEST = 0

# 獲取批量資料
def get_batch():
    global BATCH_START, TIME_STEPS
    # xs shape (50batch, 20steps)
    xs = np.arange(BATCH_START, BATCH_START+TIME_STEPS*BATCH_SIZE).reshape((BATCH_SIZE, TIME_STEPS)) / (10*np.pi)
    seq = np.sin(xs)
    res = np.cos(xs)
    BATCH_START += TIME_STEPS    
    # 返回序列seq 結果res 輸入xs
    return [seq[:, :, np.newaxis], res[:, :, np.newaxis], xs]

#----------------------------------LSTM RNN----------------------------------
class LSTMRNN(object):
    # 初始化操作
    def __init__(self, n_steps, input_size, output_size, cell_size, batch_size):
        self.n_steps = n_steps
        self.input_size = input_size
        self.output_size = output_size
        self.cell_size = cell_size
        self.batch_size = batch_size
 
        # TensorBoard視覺化操作使用name_scope
        with tf.name_scope('inputs'):         #輸出變數
            self.xs = tf.placeholder(tf.float32, [None, n_steps, input_size], name='xs')
            self.ys = tf.placeholder(tf.float32, [None, n_steps, output_size], name='ys')
        with tf.variable_scope('in_hidden'):  #輸入層
            self.add_input_layer()
        with tf.variable_scope('LSTM_cell'):  #處理層
            self.add_cell()
        with tf.variable_scope('out_hidden'): #輸出層
            self.add_output_layer()
        with tf.name_scope('cost'):           #誤差
            self.compute_cost()
        with tf.name_scope('train'):          #訓練
            self.train_op = tf.train.AdamOptimizer(LR).minimize(self.cost)
 
    #--------------------------------定義核心三層結構-----------------------------
    # 輸入層
    def add_input_layer(self,):
        # 定義輸入層xs變數 將xs三維資料轉換成二維
        # [None, n_steps, input_size] => (batch*n_step, in_size)
        l_in_x = tf.reshape(self.xs, [-1, self.input_size], name='2_2D')
        # 定義輸入權重 (in_size, cell_size)
        Ws_in = self._weight_variable([self.input_size, self.cell_size])
        # 定義輸入偏置 (cell_size, )
        bs_in = self._bias_variable([self.cell_size,])
        # 定義輸出y變數 二維形狀 (batch * n_steps, cell_size)
        with tf.name_scope('Wx_plus_b'):
            l_in_y = tf.matmul(l_in_x, Ws_in) + bs_in
        # 返回結果形狀轉變為三維
        # l_in_y ==> (batch, n_steps, cell_size)
        self.l_in_y = tf.reshape(l_in_y, [-1, self.n_steps, self.cell_size], name='2_3D')
 
    # cell層
    def add_cell(self):
        # 選擇BasicLSTMCell模型
        # forget初始偏置為1.0(初始時不希望forget) 隨著訓練深入LSTM會選擇性忘記
        lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(self.cell_size, forget_bias=1.0, state_is_tuple=True)
        # 設定initial_state全為0 視覺化操作用name_scope
        with tf.name_scope('initial_state'):
            self.cell_init_state = lstm_cell.zero_state(self.batch_size, dtype=tf.float32)
        # RNN迴圈 每一步的輸出都儲存在cell_outputs序列中 cell_final_state為最終State並傳入下一個batch中
        # 常規RNN只有m_state LSTM包括c_state和m_state
        self.cell_outputs, self.cell_final_state = tf.nn.dynamic_rnn(
            lstm_cell, self.l_in_y, initial_state=self.cell_init_state, time_major=False)
 
    # 輸出層 (類似輸入層)
    def add_output_layer(self):
        # 轉換成二維 方能使用W*X+B
        # shape => (batch * steps, cell_size) 
        l_out_x = tf.reshape(self.cell_outputs, [-1, self.cell_size], name='2_2D')
        Ws_out = self._weight_variable([self.cell_size, self.output_size])
        bs_out = self._bias_variable([self.output_size, ])
        # 返回預測結果
        # shape => (batch * steps, output_size)
        with tf.name_scope('Wx_plus_b'):
            self.pred = tf.matmul(l_out_x, Ws_out) + bs_out
 
    #--------------------------------定義誤差計算函式-----------------------------     
    def compute_cost(self):
        # 使用seq2seq序列到序列模型
        # tf.nn.seq2seq.sequence_loss_by_example()
        losses = tf.contrib.legacy_seq2seq.sequence_loss_by_example(
            [tf.reshape(self.pred, [-1], name='reshape_pred')],
            [tf.reshape(self.ys, [-1], name='reshape_target')],
            [tf.ones([self.batch_size * self.n_steps], dtype=tf.float32)],
            average_across_timesteps=True,
            softmax_loss_function=self.msr_error,
            name='losses'
        )
        # 最終得到batch的總cost 它是一個數字
        with tf.name_scope('average_cost'):
            # 整個TensorFlow的loss求和 再除以batch size
            self.cost = tf.div(
                tf.reduce_sum(losses, name='losses_sum'),
                self.batch_size,
                name='average_cost')
            tf.summary.scalar('cost', self.cost)
 
    # 該函式用於計算
    # 相當於msr_error(self, y_pre, y_target) return tf.square(tf.sub(y_pre, y_target))
    def msr_error(self, logits, labels):
        return tf.square(tf.subtract(logits, labels))
    # 誤差計算
    def _weight_variable(self, shape, name='weights'):
        initializer = tf.random_normal_initializer(mean=0., stddev=1.,)
        return tf.get_variable(shape=shape, initializer=initializer, name=name)
    # 偏置計算
    def _bias_variable(self, shape, name='biases'):
        initializer = tf.constant_initializer(0.1)
        return tf.get_variable(name=name, shape=shape, initializer=initializer)
 
#----------------------------------主函式 訓練和預測----------------------------------     
if __name__ == '__main__':
    # 定義模型並初始化
    model = LSTMRNN(TIME_STEPS, INPUT_SIZE, OUTPUT_SIZE, CELL_SIZE, BATCH_SIZE)
    sess = tf.Session()
    merged = tf.summary.merge_all()
    writer = tf.summary.FileWriter("logs", sess.graph)
    sess.run(tf.initialize_all_variables())

此時會在Python檔案目錄下新建一個“logs”資料夾和events的檔案，如下圖所示。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

接下來嘗試開啟它。首先調出Anaconda Prompt，並啟用TensorFlow，接著去到events檔案的目錄，呼叫命令“tensorboard --logdir=logs執行即可，如下圖所示。注意，這裡只需要指引到資料夾，它就會自動索引到你的檔案。

activate tensorflow
cd\
cd C:\Users\xiuzhang\Desktop\TensorFlow\blog
tensorboard --logdir=logs

迴圈神經網路LSTM RNN迴歸：sin曲線預測

此時訪問網址“http://localhost:6006/”，選擇“Graphs”，執行之後如下圖所示，我們的神經網路就出現了。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

神經網路結構如下圖所示，包括輸入層、LSTM層、輸出層、cost誤差計算、train訓練等。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

詳細結構如下圖所示：

迴圈神經網路LSTM RNN迴歸：sin曲線預測

通常我們會將train部分放置一邊，選中“train”然後滑鼠右鍵點選“Remove from main graph”。核心結構如下，in_hidden是接受輸入的第一層，之後是LSTM_cell，最後是輸出層out_hidden。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

in_hidden： 包括了權重Weights和biases，計算公式Wx_plus_b。同時，它包括了reshape操作，2_2D和2_3D。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

out_hidden： 包括了權重weights、偏置biases、計算公式Wx_plus_b、二維資料2_2D，並且輸出結果為cost。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

cost： 計算誤差。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

中間是LSTM_cell： 包括RNN迴圈神經網路，初始化initial_state，之後會被state更新替換。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

注意版本問題，讀者可以結合自己的TensorFlow版本進行適當修改執行。作者版本版本資訊為：Python3.6、Anaconda3、Win10、Tensorflow1.15.0。

如果您報錯 AttributeError: module ‘tensorflow._api.v1.nn’ has no attribute ‘seq2seq’，這是TensorFlow 版本升級，方法呼叫更改。解決方式：

迴圈神經網路LSTM RNN迴歸：sin曲線預測

如果您報錯 TypeError: msr_error() got an unexpected keyword argument ‘labels’，msr_error() 函式得到一個意外的關鍵引數 ‘lables’。其解決方式：定義msr_error() 函式時，使用 labels，logits 指定，將

def msr_error(self, y_pre, y_target):
    return tf.square(tf.subtract(y_pre, y_target))

改為：

def msr_error(self, logits, labels):
    return tf.square(tf.subtract(logits, labels))

如果您報錯 ValueError: Variable in_hidden/weights already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? ，則重新啟動kernel即可執行。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

五.預測及曲線擬合

最後，我們在主函式中編寫RNN訓練學習和預測的程式碼。

首先我們來測試cost學習的結果。程式碼如下，if判斷中cell_init_state為前面已初始化的state，之後更新state（model.cell_init_state: state ），其實就是將Final State換成下一個batch的Initial State，從而符合我們定義的結構。

迴圈神經網路LSTM RNN迴歸：sin曲線預測

#----------------------------------主函式 訓練和預測----------------------------------     
if __name__ == '__main__':
    # 定義模型並初始化
    model = LSTMRNN(TIME_STEPS, INPUT_SIZE, OUTPUT_SIZE, CELL_SIZE, BATCH_SIZE)
    sess = tf.Session()
    merged = tf.summary.merge_all()
    writer = tf.summary.FileWriter("logs", sess.graph)
    sess.run(tf.initialize_all_variables())
    # Tensorboard視覺化展現神經網路結果
 
    #------------------------------RNN學習-------------------------------------    
    # 訓練模型 
    for i in range(200):
        # 用seq預測res (序列-seq 結果-res 輸入-xs)
        seq, res, xs = get_batch()
        # 第一步賦值 之後會更新cell_init_state
        if i == 0:
            feed_dict = {
                model.xs: seq,
                model.ys: res,
                # create initial state (前面cell_init_state已初始化state)
            }
        else:
            feed_dict = {
                model.xs: seq,
                model.ys: res,
                model.cell_init_state: state    
                # use last state as the initial state for this run
            }
 
        # state為final_state 
        _, cost, state, pred = sess.run(
                [model.train_op, model.cost, model.cell_final_state, model.pred], 
                feed_dict=feed_dict)
 
        # 每隔20步輸出結果
        if i % 20 == 0:
            print('cost: ', round(cost, 4))

每隔20步輸出結果，如下所示，誤差從最初的33到最後的0.335，神經網路在不斷學習，誤差在不斷減小。

cost:  33.1673
cost:  9.1332
cost:  3.8899
cost:  1.3271
cost:  0.2682
cost:  0.4912
cost:  1.0692
cost:  0.3812
cost:  0.63
cost:  0.335

接下來增加matplotlib視覺化的sin曲線動態擬合過程，最終完整程式碼如下所示：

# -*- coding: utf-8 -*-
"""
Created on Thu Jan  9 20:44:56 2020
@author: xiuzhang Eastmount CSDN
"""
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

#----------------------------------定義引數----------------------------------
BATCH_START = 0
TIME_STEPS = 20
BATCH_SIZE = 50          # BATCH數量
INPUT_SIZE = 1           # 輸入一個值
OUTPUT_SIZE = 1          # 輸出一個值
CELL_SIZE = 10           # Cell數量
LR = 0.006
BATCH_START_TEST = 0

# 獲取批量資料
def get_batch():
    global BATCH_START, TIME_STEPS
    # xs shape (50batch, 20steps)
    xs = np.arange(BATCH_START, BATCH_START+TIME_STEPS*BATCH_SIZE).reshape((BATCH_SIZE, TIME_STEPS)) / (10*np.pi)
    seq = np.sin(xs)
    res = np.cos(xs)
    BATCH_START += TIME_STEPS    
 
    # 顯示原始曲線
    # plt.plot(xs[0, :], res[0, :], 'r', xs[0, :], seq[0, :], 'b--')
    # plt.show()
 
    # 返回序列seq 結果res 輸入xs
    return [seq[:, :, np.newaxis], res[:, :, np.newaxis], xs]

#----------------------------------LSTM RNN----------------------------------
class LSTMRNN(object):
    # 初始化操作
    def __init__(self, n_steps, input_size, output_size, cell_size, batch_size):
        self.n_steps = n_steps
        self.input_size = input_size
        self.output_size = output_size
        self.cell_size = cell_size
        self.batch_size = batch_size
 
        # TensorBoard視覺化操作使用name_scope
        with tf.name_scope('inputs'):         #輸出變數
            self.xs = tf.placeholder(tf.float32, [None, n_steps, input_size], name='xs')
            self.ys = tf.placeholder(tf.float32, [None, n_steps, output_size], name='ys')
        with tf.variable_scope('in_hidden'):  #輸入層
            self.add_input_layer()
        with tf.variable_scope('LSTM_cell'):  #處理層
            self.add_cell()
        with tf.variable_scope('out_hidden'): #輸出層
            self.add_output_layer()
        with tf.name_scope('cost'):           #誤差
            self.compute_cost()
        with tf.name_scope('train'):          #訓練
            self.train_op = tf.train.AdamOptimizer(LR).minimize(self.cost)
 
    #--------------------------------定義核心三層結構-----------------------------
    # 輸入層
    def add_input_layer(self,):
        # 定義輸入層xs變數 將xs三維資料轉換成二維
        # [None, n_steps, input_size] => (batch*n_step, in_size)
        l_in_x = tf.reshape(self.xs, [-1, self.input_size], name='2_2D')
        # 定義輸入權重 (in_size, cell_size)
        Ws_in = self._weight_variable([self.input_size, self.cell_size])
        # 定義輸入偏置 (cell_size, )
        bs_in = self._bias_variable([self.cell_size,])
        # 定義輸出y變數 二維形狀 (batch * n_steps, cell_size)
        with tf.name_scope('Wx_plus_b'):
            l_in_y = tf.matmul(l_in_x, Ws_in) + bs_in
        # 返回結果形狀轉變為三維
        # l_in_y ==> (batch, n_steps, cell_size)
        self.l_in_y = tf.reshape(l_in_y, [-1, self.n_steps, self.cell_size], name='2_3D')
 
    # cell層
    def add_cell(self):
        # 選擇BasicLSTMCell模型
        # forget初始偏置為1.0(初始時不希望forget) 隨著訓練深入LSTM會選擇性忘記
        lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(self.cell_size, forget_bias=1.0, state_is_tuple=True)
        # 設定initial_state全為0 視覺化操作用name_scope
        with tf.name_scope('initial_state'):
            self.cell_init_state = lstm_cell.zero_state(self.batch_size, dtype=tf.float32)
        # RNN迴圈 每一步的輸出都儲存在cell_outputs序列中 cell_final_state為最終State並傳入下一個batch中
        # 常規RNN只有m_state LSTM包括c_state和m_state
        self.cell_outputs, self.cell_final_state = tf.nn.dynamic_rnn(
            lstm_cell, self.l_in_y, initial_state=self.cell_init_state, time_major=False)
 
    # 輸出層 (類似輸入層)
    def add_output_layer(self):
        # 轉換成二維 方能使用W*X+B
        # shape => (batch * steps, cell_size) 
        l_out_x = tf.reshape(self.cell_outputs, [-1, self.cell_size], name='2_2D')
        Ws_out = self._weight_variable([self.cell_size, self.output_size])
        bs_out = self._bias_variable([self.output_size, ])
        # 返回預測結果
        # shape => (batch * steps, output_size)
        with tf.name_scope('Wx_plus_b'):
            self.pred = tf.matmul(l_out_x, Ws_out) + bs_out
 
    #--------------------------------定義誤差計算函式-----------------------------     
    def compute_cost(self):
        # 使用seq2seq序列到序列模型
        # tf.nn.seq2seq.sequence_loss_by_example()
        losses = tf.contrib.legacy_seq2seq.sequence_loss_by_example(
            [tf.reshape(self.pred, [-1], name='reshape_pred')],
            [tf.reshape(self.ys, [-1], name='reshape_target')],
            [tf.ones([self.batch_size * self.n_steps], dtype=tf.float32)],
            average_across_timesteps=True,
            softmax_loss_function=self.msr_error,
            name='losses'
        )
        # 最終得到batch的總cost 它是一個數字
        with tf.name_scope('average_cost'):
            # 整個TensorFlow的loss求和 再除以batch size
            self.cost = tf.div(
                tf.reduce_sum(losses, name='losses_sum'),
                self.batch_size,
                name='average_cost')
            tf.summary.scalar('cost', self.cost)
 
    # 該函式用於計算
    # 相當於msr_error(self, y_pre, y_target) return tf.square(tf.sub(y_pre, y_target))
    def msr_error(self, logits, labels):
        return tf.square(tf.subtract(logits, labels))
    # 誤差計算
    def _weight_variable(self, shape, name='weights'):
        initializer = tf.random_normal_initializer(mean=0., stddev=1.,)
        return tf.get_variable(shape=shape, initializer=initializer, name=name)
    # 偏置計算
    def _bias_variable(self, shape, name='biases'):
        initializer = tf.constant_initializer(0.1)
        return tf.get_variable(name=name, shape=shape, initializer=initializer)
 
#----------------------------------主函式 訓練和預測----------------------------------     
if __name__ == '__main__':
    # 定義模型並初始化
    model = LSTMRNN(TIME_STEPS, INPUT_SIZE, OUTPUT_SIZE, CELL_SIZE, BATCH_SIZE)
    sess = tf.Session()
    merged = tf.summary.merge_all()
    writer = tf.summary.FileWriter("logs", sess.graph)
    sess.run(tf.initialize_all_variables())
    # Tensorboard視覺化展現神經網路結果
 
    #------------------------------RNN學習-------------------------------------     
    # 互動模式啟動
    plt.ion()
    plt.show()
 
    # 訓練模型 
    for i in range(200):
        # 用seq預測res (序列-seq 結果-res 輸入-xs)
        seq, res, xs = get_batch()
        # 第一步賦值 之後會更新cell_init_state
        if i == 0:
            feed_dict = {
                model.xs: seq,
                model.ys: res,
                # create initial state (前面cell_init_state已初始化state)
            }
        else:
            feed_dict = {
                model.xs: seq,
                model.ys: res,
                model.cell_init_state: state    
                # use last state as the initial state for this run
            }
 
        # state為final_state 
        _, cost, state, pred = sess.run(
                [model.train_op, model.cost, model.cell_final_state, model.pred], 
                feed_dict=feed_dict)

        # plotting
        # 獲取第一批資料xs[0,:] 獲取0到20區間的預測資料pred.flatten()[:TIME_STEPS]
        plt.plot(xs[0, :], res[0].flatten(), 'r', xs[0, :], pred.flatten()[:TIME_STEPS], 'b--')
        plt.ylim((-1.2, 1.2))
        plt.draw()
        plt.pause(0.3)
 
        # 每隔20步輸出結果
        if i % 20 == 0:
            print('cost: ', round(cost, 4))
            # result = sess.run(merged, feed_dict)
            # writer.add_summary(result, i)

寫道這裡，這篇文章終於寫完了。文章非常長，但希望對您有所幫助。LSTM RNN通過一組資料預測另一組資料。預測效果如下圖所示，紅色的實線表示需要預測的線，藍色的虛線表示RNN學習的線，它們在不斷地逼近，藍線學到了紅線的規律，最終將藍線基本擬合到紅線上。

在這裡插入圖片描述

六.總結

本文介紹完了，更多TensorFlow深度學習文章會繼續分享，接下來我們會分享監督學習、GAN、機器翻譯、文字識別、影像識別、語音識別等內容。如果讀者有什麼想學習的，也可以私聊我，我去學習並應用到你的領域。

最後，希望這篇基礎性文章對您有所幫助，如果文章中存在錯誤或不足之處，還請海涵~作為人工智慧的菜鳥，我希望自己能不斷進步並深入，後續將它應用於影像識別、網路安全、對抗樣本等領域，指導大家撰寫簡單的學術論文，一起加油！

程式碼下載地址（歡迎大家關注點贊）：

- https://github.com/eastmountyxz/AI-for-TensorFlow
- https://github.com/eastmountyxz/AI-for-Keras

點選關注，第一時間瞭解華為雲新鮮技術~

迴圈神經網路（RNN）
2020-07-14
神經網路RNN
迴圈神經網路 RNN
2020-12-21
神經網路RNN
（一）線性迴圈神經網路（RNN）
2019-02-21
神經網路RNN
RNN-迴圈神經網路和LSTM_01基礎
2018-05-27
RNN神經網路
（二）非線性迴圈神經網路（RNN）
2019-02-16
神經網路RNN
迴圈神經網路（Recurrent Neural Network，RNN）
2018-08-22
神經網路RNN
深度學習之RNN(迴圈神經網路)
2018-05-28
深度學習RNN神經網路
4.5 RNN迴圈神經網路（recurrent neural network）
2021-07-05
RNN神經網路
YJango的迴圈神經網路——實現LSTM
2018-08-13
Go神經網路
YJango的迴圈神經網路——scan實現LSTM
2018-08-13
Go神經網路
torch神經網路--線性迴歸
2024-10-05
神經網路
迴圈神經網路
2020-03-14
神經網路
從網路架構方面簡析迴圈神經網路RNN
2019-05-17
架構神經網路RNN
[譯] RNN 迴圈神經網路系列 2：文字分類
2019-03-01
RNN神經網路文字分類
一文讀懂LSTM和迴圈神經網路
2018-04-18
神經網路
[譯] RNN 迴圈神經網路系列 3：編碼、解碼器
2019-03-03
RNN神經網路
用於自然語言處理的迴圈神經網路RNN
2024-11-25
自然語言處理神經網路RNN
關於 RNN 迴圈神經網路的反向傳播求導
2021-01-11
RNN神經網路反向傳播求導
【神經網路篇】--RNN遞迴神經網路初始與詳解
2018-05-13
神經網路RNN遞迴
迴圈神經網路介紹
2018-08-12
神經網路
pytorch--迴圈神經網路
2020-12-22
PyTorch神經網路
從前饋到反饋：解析迴圈神經網路（RNN）及其tricks
2018-07-26
神經網路RNN
十 | 門控迴圈神經網路LSTM與GRU（附python演練）
2018-11-23
神經網路Python
第五週：迴圈神經網路
2020-08-22
神經網路
TensorFlow系列專題（七）：一文綜述RNN迴圈神經網路
2018-11-22
RNN神經網路
吳恩達《序列模型》課程筆記（1）– 迴圈神經網路（RNN）
2018-08-02
吳恩達模型筆記神經網路RNN
深度學習四從迴圈神經網路入手學習LSTM及GRU
2020-10-24
深度學習神經網路
動畫圖解迴圈神經網路
2019-09-09
動畫圖解神經網路
常見迴圈神經網路結構
2021-03-24
神經網路
前沿高階技術之遞迴神經網路（RNN）
2022-07-20
遞迴神經網路RNN
深度學習迴圈神經網路詳解
2018-05-28
深度學習神經網路
機器學習簡介之基礎理論- 線性迴歸、邏輯迴歸、神經網路
2019-04-02
機器學習邏輯迴歸神經網路
Python TensorFlow深度神經網路迴歸：keras.Sequential
2023-02-03
Python神經網路Keras
NLP與深度學習（二）迴圈神經網路
2021-08-28
深度學習神經網路
TensorFlow系列專題（八）：七步帶你實現RNN迴圈神經網路小示例
2018-11-22
RNN神經網路
精講深度學習RNN三大核心點，三分鐘掌握迴圈神經網路
2019-03-09
深度學習RNN神經網路
LSTM神經網路
2019-03-02
神經網路
迴圈神經網路設計同樣可以使用預訓練詞“嵌入”
2024-12-02
神經網路

迴圈神經網路LSTM RNN迴歸：sin曲線預測

一.RNN和LSTM回顧

1.RNN

(1) RNN原理

(2) RNN應用

2.LSTM

(1) 為什麼要引入LSTM呢？

(2) LSTM

二.LSTM RNN迴歸案例說明

(1) 普通RNN

(2) TensorFlow版本的BPTT

三.程式碼實現

第一步，開啟Anaconda，然後選擇已經搭建好的“tensorflow”環境，執行Spyder。

第二步，匯入擴充套件包。

第三步，編寫生成資料的函式get_batch()，它生成了sin曲線的序列。

第四步，編寫LSTMRNN類，它用於定義我們的迴圈神經網路結構，初始化操作和所需變數。

第五步，接著開始編寫三個函式（三層神經網路），它是RNN的核心結構。

第六步，定義計算誤差函式。

第七步，定義msr_error計算函式、誤差計算函式和偏置計算函式。

第八步，接下來定義主函式，進行訓練和預測操作，這裡先嚐試TensorBoard視覺化展現。

四.完整程式碼及視覺化展示

五.預測及曲線擬合

六.總結

相關文章