Attention的基本原理與模型結構

遊離態GLZ不可能是金融技術宅發表於2020-11-28

我們嘗試用人記憶和理解事物的方式來思考人工智慧:
在這裡插入圖片描述

為什麼我們需要引入這種Attention機制,以seq2seq為例:
在這裡插入圖片描述

傳統的seq2seq可以理解為讓RNN從左往右看一遍要Encode的序列,並將記憶不斷存入隱藏層。但是隱藏層的維度是有限的,就像人類的記憶力有限,當序列很長時,讀到最後一個word時很可能已經對開頭的word發生遺忘,要以看一遍的記憶完整複述整個序列或者對序列做翻譯等操作,是存在侷限的。

因此我們可以藉助人類產生工作記憶的方式,在decode時計算當前隱藏層和之前序列隱藏層的關聯度,或者說當前這個decoder模組要關注的encoder隱藏層有哪些,要有多少關注度。
在這裡插入圖片描述
在這裡插入圖片描述

decoder端的隱藏層 z z z和encoder端隱藏層 h h h的關聯度 α \alpha α計算可以有幾種常見的方法:

  1. 利用餘弦相似度計算 c o s ( z , h ) cos(z,h) cos(z,h)
  2. 以[ z , h z,h z,h]為輸入, α \alpha α為目標輸入訓練全連線層
  3. α = h T W z \alpha = h^TWz α=hTWz W W W是可訓練引數

求得每一個decoder隱藏層 z 0 , z 1 . . . z i , . . . z n z_0,z_1...z_i,...z_n z0,z1...zi,...zn和encoder端隱藏層 h 0 , h 1 , . . . , h j , . . . h m h_0,h_1,...,h_j,...h_m h0,h1,...,hj,...hm的關聯度 α i j \alpha_i^j αij,並對其做softmax歸一化,得到 α 0 ^ , α 1 ^ . . . α n ^ \hat{\alpha_0},\hat{\alpha_1}...\hat{\alpha_n} α0^,α1^...αn^, c i = ∑ k α i k ^ h k c_i = \sum_k \hat{\alpha_i^k}h^k ci=kαik^hk

c i 和 z i c_i和z_i cizi作為decoder端RNN的輸入和隱藏層

相關文章