transformer

默盒發表於2021-02-17

原文網址 : https://www.cnblogs.com/ZhengPeng7/p/14409312.html

Transformer Model

性質:

1. Transformer是Seq2Seq類模型.
2. ransformer不是RNN.
3.僅依賴attention和全連線層.
準確率遠高於RNN類.

各種weights:

\(weights \space\space \alpha_{ij} = align(h_i, s_j)\).
Compute\(k_{:i} = W_K h_i\)and\(q_{:j} = W_Q S_j\).
Compute weights\(\alpha_{:j} = Softmax(K^T q_{:j}) \in \mathbb{R}^m\).
Context vector:\(c_j = \sum\limits_{i=1}^{m}{\alpha_{ij}v_{:m}}\).

Query:\(q_{:j} = W_Q s_j\)-- 匹配別人.
Key:\(k_{:i} = W_K h_i\)-- 等待被匹配.
Value:\(V_{:i} = W_V h_i\)-- 待加權平均.
\(W_Q, W_K, W_V\)皆為待學習引數.

\(Q-K-V\)的關係其實就是:\(h(P)與s(P)求對於h(P)的 attention\), 三個(P)處都是不同的可學習的W.

Attention Layer

Key:\(k_{:i} = W_K x_i\).

Value:\(v_{:i} = W_V x_i\).

Queries are based on decoder's inputs\(x_1^\prime, x_2^\prime, ..., x_t^\prime\).
Query:\(q_{:j} = W_Q x_j^\prime\).

符號彙總:

Attention layer:\(C = Attn(X, X^\prime)\).
- Encoder's inputs:\(X = [x_1, x_2, ..., x_m]\).
- Decoder's inputs:\(X^\prime = [x_1^\prime, x_2^\prime, ..., x_t^\prime]\).
- parameters:\(W_Q, W_K, W_V\).

Self-attention layer:\(C = Attn(X, X)\).
- RNN's inputs\(X = [x_1, x_2, ..., x_m]\).
- Parameters:\(W_Q, W_K, W_V\).

Summary:

Attention 最初用於Seq2Seq的RNN模型.
self-attention: 可用於所有RNN模型而不僅是Seq2Seq模型.
Attention 可以不依賴於RNN使用.

Transformer 架構:

Single-head self-attention

Multi-head self-attention:

l 個不共享權重的single-head self-attentions.
將所有single-head self-attentions的結果concat起來
- 假設single-head self-attention的輸出為dxm的矩陣, 則對應multi-head 的輸出shape為(ld)xm.

Transformer's Encoder:

Transformer's encoder = 6 stacked blocks.
1 encoder block $\approx$1 multi-head attention layer + 1 dense layer.

Transformer's Decoder:

Transformer's decoder = 6 stacked blocks.
1 decoder block\(\approx\)multi-head self-attention + multi-head attention + dense layer
Input shape: (512 x m, 512 x t), output shape: 512 x t.

Stacked Attention

BERT

BERT 是為了預訓練Transformer 的 encoder.
預測mask掉的單詞: 隨即遮擋15%的單詞:

預測下一個句子: 50%隨機抽樣句子或50%下一句, 給予false/true:

相關文章

PbRL | Preference Transformer：反正感覺 transformer 很強大
2024-03-06
ORM
SciTech-BigDataAIML-LLM-Transformer Series- transformer-explainer
2024-08-22
AIORM
Transformer 估算 101
2023-05-19
ORM
圖解 Transformer
2020-08-28
圖解ORM
【transformer】安裝
2024-06-10
ORM
transformer model architecture
2024-07-21
ORM
nn.Transformer Layers
2024-03-08
ORM
QRNN A Potential Competitor to the Transformer
2020-10-12
RNNORM
dingo 極簡 Transformer
2019-05-21
GoORM
Illustrated Transformer筆記
2024-06-16
ORM筆記
Transformer模型詳解
2022-01-29
ORM模型
ViT簡述【Transformer】
2023-02-27
ORM
Transformer的七十二變
2020-04-01
ORM
transformer->多模態
2024-09-08
ORM
ICCV2021 | Swin Transformer: 使用移位視窗的分層視覺Transformer
2021-11-28
ORM視覺
Transformer模型：Position Embedding實現
2024-08-25
ORM模型
Transformer的Pytorch實現【1】
2024-10-12
ORMPyTorch
理解BERT Transformer：Attention is not all you need！
2019-04-05
ORM
Transformer和MoE架構比較
2024-04-10
ORM架構
對Transformer的一些理解
2024-07-02
ORM
一句話解釋Transformer
2024-06-28
ORM
深度學習之Transformer網路
2022-12-27
深度學習ORM
你所不知道的 Transformer！
2021-06-01
ORM
Transformer演算法完全解讀
2022-07-07
ORM演算法
Transformer註解及PyTorch實現（下）
2018-11-06
ORMPyTorch
Transformer註解及PyTorch實現（上）
2018-11-06
ORMPyTorch
理解Transformer [資料探勘深度學習]
2024-04-24
ORM深度學習
Transformer優化之稀疏注意力
2020-10-01
ORM優化
Transformer中的位置編碼(Positional Encoding)
2024-10-19
ORMEncoding
transformer中的attention機制詳解
2024-07-02
ORM
Transformer模型中的權重矩陣
2024-06-04
ORM模型矩陣
一文帶你入門Transformer
2022-12-27
ORM
【機器學習】李宏毅——Transformer
2022-12-18
機器學習ORM
論文解讀（XR-Transformer）Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification
2022-04-01
ORMASTREM
利用 Universal Transformer，翻譯將無往不利！
2018-09-05
ORM
8.1 Attention（注意力機制）和Transformer
2020-01-08
ORM
一文看懂AI的 Transformer 架構！
2024-07-22
AIORM架構
Swin-Transformer網路結構詳解
2022-03-07
ORM