Illustrated Transformer筆記

peterzh6發表於2024-06-16

原文網址 : https://www.cnblogs.com/peterzh/p/18250058

Attention Is All You Need

編碼器端

Self-attention層

用處：將對其他相關單詞的“理解”融入我們當前正在處理的單詞的方法，類似於RNN透過保持隱藏狀態讓 RNN 將其已處理的先前單詞/向量的表示與當前正在處理的單詞/向量結合起來

將單詞輸入轉化為Embedding之後，將Embedding和Q K V三個矩陣相乘，便可以獲得一個查詢向量\(q_i\)、一個鍵向量\(k_i\)和一個值向量\(v_i\)

有了\(q_i\)和\(k_i\),我們就可以根據這個詞對輸入句子的每個單詞進行評分。分數決定了我們在某個位置編碼單詞時對輸入句子其他部分的關注程度。透過計算\(q_i \cdot k_i\)，獲得這個分數。
之後，我們將這些分數除以 8（論文中使用的關鍵向量維度64的平方根 - 8。這會導致更穩定的梯度。這裡可能還有其他可能的值，但這是預設值），然後將結果傳遞給 softmax 運算，最終再乘以\(v_i\)向量

使用矩陣表示上面的流程

\[Attention(Q, K, V) = Z = \text{softmax}\left(\frac {Q \cdot K^T}{\sqrt{d_k}}\right)V \]

Z矩陣就是self-attention的輸出

多頭注意力本質:多個獨立的Q K V矩陣

\[\mathrm{MultiHead}(Q, K, V) = \mathrm{Concat}(\mathrm{head_1}, ..., \mathrm{head_h})W^O \\ \text{where}~\mathrm{head_i} = \mathrm{Attention}(QW^Q_i, KW^K_i, VW^V_i) \]

但是前饋層並不期望八個（多頭的預設數目）矩陣——它期望一個矩陣（每個單詞一個向量）。所以我們需要一種方法將這八個矩陣壓縮成一個矩陣。我們該怎麼做呢？我們將矩陣連線起來，然後將它們乘以附加權重矩陣 \(W^O\)。

使用位置編碼表示序列的順序

到目前為止，我們所描述的模型缺少一件事，那就是解釋輸入序列中單詞順序的方法。

為了解決這個問題，Transformer 為每個輸入嵌入新增了一個向量。這些向量遵循模型學習到的特定模式，這有助於確定每個單詞的位置，或序列中不同單詞之間的距離。這裡的直覺是，將這些值新增到嵌入中後，一旦嵌入向量被投影到 \(Q/K/V\) 向量中並在點積注意期間，它們之間就會提供有意義的距離。

解碼器端

Encoder-Decoder Attention層

在上述公式中，\(d_k\) 表示的是矩陣的維度，而不是向量的維度。

具體來說，\(d_k\) 是注意力機制中查詢（query）和鍵（key）的維度大小。在自注意力機制（self-attention）中，輸入向量會被分成多個注意力頭，每個頭都會有自己的查詢、鍵和值。\(d_k\) 用來表示每個注意力頭中查詢和鍵的維度大小，以便在計算注意力權重時進行歸一化。

在公式中，\(Q\), \(K\) 和 \(V\) 都是矩陣形式的輸入，而 \(d_k\) 表示了查詢和鍵矩陣的維度大小。該維度大小通常與輸入矩陣的特徵維度相對應，以保持一致性和有效性。

為什麼採用self-attention

1、每層的計算量減少

2、在訓練時，可以平行計算

3、網路中長範圍的相關性，當兩個位置的輸入輸出之前的路徑更短時，更容易學習到兩者之間的相關性。感覺有點吸取了CNN和RNN中梯度消失和梯度爆炸的教訓

4、self-attention可以得到更具有解釋性的模型

來源:Illustrated Transformer

【論文閱讀筆記】Transformer——《Attention Is All You Need》
2024-11-08
筆記ORM
語言模型（五）—— Seq2Seq、Attention、Transformer學習筆記
2020-12-02
模型ORM筆記
FFmpeg開發筆記（五十七）使用Media3的Transformer加工影片檔案
2024-10-16
筆記ORM
transformer
2021-02-17
ORM
PbRL | Preference Transformer：反正感覺 transformer 很強大
2024-03-06
ORM
SciTech-BigDataAIML-LLM-Transformer Series- transformer-explainer
2024-08-22
AIORM
印象筆記 --- 方法分享筆記
2018-11-22
筆記
Transformer 估算 101
2023-05-19
ORM
圖解 Transformer
2020-08-28
圖解ORM
【transformer】安裝
2024-06-10
ORM
transformer model architecture
2024-07-21
ORM
筆記
2020-12-28
筆記
基於 Quanto 和 Diffusers 的記憶體高效 transformer 擴散模型
2024-08-30
記憶體ORM模型
nn.Transformer Layers
2024-03-08
ORM
QRNN A Potential Competitor to the Transformer
2020-10-12
RNNORM
dingo 極簡 Transformer
2019-05-21
GoORM
Transformer模型詳解
2022-01-29
ORM模型
ViT簡述【Transformer】
2023-02-27
ORM
docker 筆記
2024-09-10
Docker筆記
hybrid筆記
2019-03-20
筆記
Meteor筆記
2019-03-01
筆記
String筆記
2019-02-16
筆記
html 筆記
2019-02-16
HTML筆記
kafka 筆記
2019-01-09
Kafka筆記
路由筆記
2019-01-07
路由筆記
筆記1
2018-12-09
筆記
筆記-FMDB
2018-12-08
筆記
ES筆記
2019-04-03
筆記
筆記：Docker
2019-02-26
筆記Docker
Liunx筆記
2019-04-10
筆記
webSocket筆記
2019-01-21
Web筆記
Shadowsocks 筆記
2018-12-04
筆記
AbstractQueuedSynchronizer筆記
2019-04-02
筆記
筆記：Spring
2018-09-30
筆記Spring
jQuery筆記
2018-08-13
jQuery筆記
Restful 筆記
2018-09-25
REST筆記
Cookie筆記
2018-08-18
Cookie筆記
grpc 筆記
2018-07-23
RPC筆記