使用PyTorch從零開始構建Elman迴圈神經網路

【方向】發表於2018-03-29

原文網址 : https://flycode.co/archives/214357

本文以最簡單的RNNs模型為例：Elman迴圈神經網路，講述迴圈神經網路的工作原理，即便是你沒有太多迴圈神經網路（RNNs）的基礎知識，也可以很容易的理解。為了讓你更好的理解RNNs，我們使用Pytorch張量包和autograd庫從頭開始構建Elman迴圈神經網路。該文中完整程式碼在Github上是可實現的。

在這裡，假設你對前饋神經網路略有了解。Pytorch和autograd庫更為詳細的內容請檢視我的其他教程。

Elman迴圈神經網路

Jeff Elman首次提出了Elman迴圈神經網路，並發表在論文《Finding structure in time》中：它只是一個三層前饋神經網路，輸入層由一個輸入神經元x₁和一組上下文神經元單元{c₁ … c_n}組成。隱藏層前一時間步的神經元作為上下文神經元的輸入，在隱藏層中每個神經元都有一個上下文神經元。由於前一時間步的狀態作為輸入的一部分，因此我們可以說，Elman迴圈神經網路擁有一定的記憶體——上下文神經元代表一個記憶體。

預測正弦波

現在，我們來訓練RNNs學習正弦函式。在訓練過程中，一次只為模型提供一個資料，這就是為什麼我們只需要一個輸入神經元x₁，並且我們希望在下一時間步預測該值。輸入序列x由20個資料組成，並且目標序列與輸入序列相同。

5a336e128286628cf86977c17783f34d70d06e35

模型實現

首先匯入包。

e5048e42574aeaea8f76d0af60084ea0f24d3c9c

接下來，設定模型的超引數。設定輸入層的大小為7（6個上下文神經元和1個輸入神經元），seq_length用來定義輸入和目標序列的長度。

c8be968e1760e5b306d6e3a5bec48b5d46c12026

生成訓練資料：x是輸入序列，y是目標序列。

6fa08fc0e07c757d55b30fd33e064bb0347ae3b7

建立兩個權重矩陣。大小為（input_size，hidden_size）的矩陣w1用於隱藏連線的輸入，大小為（hidden_size，output_size）的矩陣w2用於隱藏連線的輸出。用零均值的正態分佈對權重矩陣進行初始化。

d8a4877fbd8b331ef7755cc0a7b4b1cec27df859

定義forward方法，其引數為input向量、context_state向量和兩個權重矩陣，連線input和context_state建立xh向量。對xh向量和權重矩陣w1執行點積運算，然後用tanh函式作為非線性函式，在RNNs中tanh比sigmoid效果要好。然後對新的context_state和權重矩陣w2再次執行點積運算。我們想要預測連續值，因此這個階段不使用任何非線性。

請注意，context_state向量將在下一時間步填充上下文神經元。這就是為什麼我們要返回context_state向量和out。

4ca6517a08cbd409471972aab15631a2447a6b98

訓練

訓練迴圈的結構如下：

1.外迴圈遍歷每個epoch。epoch被定義為所有的訓練資料全部通過訓練網路一次。在每個epoch開始時，將context_state向量初始化為0。

2.內部迴圈遍歷序列中的每個元素。執行forward方法進行正向傳遞，該方法返回pred和context_state，將用於下一個時間步。然後計算均方誤差（MSE）用於預測連續值。執行backward()方法計算梯度，然後更新權重w1和w2。每次迭代中呼叫zero_()方法清除梯度，否則梯度將會累計起來。最後將context_state向量包裝放到新變數中，以將其與歷史值分離開來。