LSTM 長短期記憶網路

Galois發表於2020-03-14

原文網址 : https://learnku.com/articles/41837?order_by=created_at&

由來

人類並不是每時每刻都從一片空白的大腦開始他們的思考。在你閱讀這篇文章時候，你都是基於自己已經擁有的對先前所見詞的理解來推斷當前詞的真實含義。我們不會將所有的東西都全部丟棄，然後用空白的大腦進行思考。我們的思想擁有永續性。

傳統的神經網路並不能做到這點，看起來也像是一種巨大的弊端。例如，假設你希望對電影中的每個時間點的時間型別進行分類。傳統的神經網路應該很難來處理這個問題——使用電影中先前的事件推斷後續的事件。

RNN 解決了這個問題。RNN 是包含迴圈的網路，允許資訊的持久化。

RNN 的關鍵點之一就是他們可以用來連線先前的資訊到當前的任務上，例如使用過去的視訊段來推測對當前段的理解。不幸的是，當時間間隔不斷增大時，RNN 會喪失學習到連線如此遠的資訊的能力。

幸運的是，LSTM 並沒有這個問題！

為什麼需要 LSTM

普通 RNN 的資訊不能長久傳播（存在於理論上）
引入選擇性機制

選擇性輸出
選擇性輸入
選擇性遺忘
選擇性 -> 門
Sigmoid 函式：[0, 1]

\displaystyle f(x)=\frac{1}{1+e^{-x}}

01H5v5zIGI.png!large

門限機制

向量A -> sigmoid -> [0.1, 0.9, 0.4, 0, 0.6]
向量B -> [13.8, 14, -7, -4, 30.0]
A為門限，B為資訊
A * B = [0.138, 12.6, -2.8, 0, 18.0]

LSTM 屬於迴圈神經網路的一種，詳細的迴圈神經網路參考迴圈神經網路。

oMdZvaTGDq.png!large

處理層的符號解釋：

vnzFRfpT51.png!large

網格結構 - Neural Network Layer
點積操作 - Pointwise Operation
向量傳遞 - Vector Transfer
向量拼接 - Concatenate
向量拷貝 - Copy

逐步解析LSTM
三門兩態：
LSTM 第一步是用來決定什麼資訊可以通過 cell state。這個決定由“forget gate”層通過sigmoid來控制，它會根據上一時刻的輸出通過或部分通過。如下：
「遺忘門」：
7eW0MyVTgR.png!large

第二步是產生我們需要更新的新資訊。這一步包含兩部分，第一個是一個“input gate”層通過\mathrm{sigmoid}來決定哪些值用來更新，第二個是一個\tanh層用來生成新的候選值相加，得到了候選值。
一二步結合起來就是丟掉不需要的資訊，新增新資訊的過程：

AOV6FEKyzk.png!large

最後一步是決定模型的輸出，首先是通過\mathrm{sigmoid}層來得到一個初始輸出，然後使用tanh將值縮放到-1到1間，再與\mathrm{sigmoid}得到的輸出逐對相乘，從而得到模型的輸出。

acgAGWBR9s.png!large

這顯然可以理解，首先\mathrm{sigmoid}函式的輸出是不考慮先前時刻學到的資訊的輸出，tanh函式是對先前學到資訊的壓縮處理，起到穩定數值的作用，兩者的結合學習就是遞迴神經網路的學習思想。至於模型是如何學習的，那就是後向傳播誤差學習權重的一個過程了。

這是 LSTM 的一個典型結構的理解，當然，它也會有一些結構上的變形，但思想基本不變。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

不要試圖用百米衝刺的方法完成馬拉松比賽。

LSTM - 長短期記憶網路
2021-02-08
白話--長短期記憶(LSTM)的幾個步驟，附程式碼！
2019-08-17
視覺化LSTM網路：探索「記憶」的形成
2018-03-31
視覺化
一步一步，看圖理解長短期記憶網路與門控迴圈網路
2018-10-13
解密長短時記憶網路（LSTM）：從理論到PyTorch實戰演示
2023-10-26
解密PyTorch
LSTM神經網路
2019-03-02
神經網路
清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路
2019-08-27
3D
RNN與LSTM網路簡述
2018-06-10
RNN
Filecoin旨在打造長期儲存網路，而非短期投資投機
2020-10-29
LSTM變種-GRU網路結構
2018-06-12
網路流量預測入門（三）之LSTM預測網路流量
2021-08-29
Win10系統怎樣清除網路記憶_win10清除所有網路記憶的步驟
2020-07-12
Win10
記憶體與IO，磁碟IO，網路IO
2020-09-26
記憶體
YJango的迴圈神經網路——實現LSTM
2018-08-13
Go神經網路
YJango的迴圈神經網路——scan實現LSTM
2018-08-13
Go神經網路
Memory Networks02 記憶網路經典論文
2021-03-12
王道C短期課程筆記
2021-01-01
筆記
一文讀懂LSTM和迴圈神經網路
2018-04-18
神經網路
深度解讀昇騰CANN記憶體複用技術，降低網路記憶體佔用
2024-07-09
記憶體
深度學習量化交易---0.2.基於長短時記憶網路預測股票價格1
2018-11-27
深度學習
RNN-迴圈神經網路和LSTM_01基礎
2018-05-27
RNN神經網路
網站關鍵詞需要長期最佳化還是短期最佳化？
2024-06-11
網站
告別記憶體OOM，解決MySQL記憶體增長問題
2024-06-04
記憶體OOMMySql
迴圈神經網路LSTM RNN迴歸：sin曲線預測
2021-09-11
神經網路RNN
記錄一次現網MySQL記憶體增長超限問題定位過程
2021-08-04
MySql記憶體
iOS Memory 記憶體詳解 (長文)
2019-07-29
iOS記憶體
簡單的聊聊網路請求中的記憶體拷貝
2019-02-23
記憶體
LSTM & Bi-LSTM & GRU
2020-12-18
Android-Fragment 切換造成記憶體溢位，導致記憶體增長
2018-04-04
AndroidFragment記憶體溢位
十 | 門控迴圈神經網路LSTM與GRU（附python演練）
2018-11-23
神經網路Python
設計一個基於 LSTM 神經網路的文字分類器
2024-11-26
神經網路文字分類
【MFC】BROWSEINFO設定路徑，支援記憶上次路徑
2020-11-04
案例剖析：利用LSTM深層神經網路進行時間序列預測
2018-09-10
神經網路
深度學習四從迴圈神經網路入手學習LSTM及GRU
2020-10-24
深度學習神經網路
美陸軍新深度神經網路框架為AI增強記憶力
2019-05-24
神經網路框架AI
領英報告：長期和短期投資回報率
2020-01-22
等長子網劃分、變長子網劃分（網路整理）
2020-10-04
【筆記】Android 網路
2018-06-22
筆記Android

LSTM 長短期記憶網路

由來

為什麼需要 LSTM

相關文章