Attention的基本原理與模型結構

我們嘗試用人記憶和理解事物的方式來思考人工智慧：
在這裡插入圖片描述

為什麼我們需要引入這種Attention機制，以seq2seq為例：
在這裡插入圖片描述

傳統的seq2seq可以理解為讓RNN從左往右看一遍要Encode的序列，並將記憶不斷存入隱藏層。但是隱藏層的維度是有限的，就像人類的記憶力有限，當序列很長時，讀到最後一個word時很可能已經對開頭的word發生遺忘，要以看一遍的記憶完整複述整個序列或者對序列做翻譯等操作，是存在侷限的。

因此我們可以藉助人類產生工作記憶的方式，在decode時計算當前隱藏層和之前序列隱藏層的關聯度，或者說當前這個decoder模組要關注的encoder隱藏層有哪些，要有多少關注度。
在這裡插入圖片描述

decoder端的隱藏層 $z$ 和encoder端隱藏層 $h$ 的關聯度 $\alpha$ 計算可以有幾種常見的方法：

利用餘弦相似度計算 $c o s (z, h)$
以[ $z, h$ ]為輸入， $\alpha$ 為目標輸入訓練全連線層
$\alpha = h^TWz$ ， $W$ 是可訓練引數

求得每一個decoder隱藏層 $z_0,z_1...z_i,...z_n$ 和encoder端隱藏層 $h_0,h_1,...,h_j,...h_m$ 的關聯度 $\alpha_i^j$ ，並對其做softmax歸一化，得到 $\hat{\alpha_0},\hat{\alpha_1}...\hat{\alpha_n}$ , $c_i = \sum_k \hat{\alpha_i^k}h^k$

$c_i和z_i$ 作為decoder端RNN的輸入和隱藏層

機器閱讀理解Attention-over-Attention模型
2021-09-09
模型
OBJ模型檔案的結構、匯入與渲染
2018-04-20
OBJ模型
Attention與SelfAttention
2023-03-17
RealFormer: 殘差式 Attention 層的Transformer 模型
2022-02-08
ORM模型
中文巨量模型“源1.0”：模型結構與生成效果解析
2021-12-22
模型
Attention Model（注意力模型）思想初探
2018-09-29
模型
因果模型：邊緣結構模型MSM
2020-11-01
模型
大模型學習筆記：attention 機制
2024-11-24
大模型筆記
Redis資料結構—連結串列與字典的結構
2021-05-09
Redis資料結構
結構化與非結構化
2020-12-06
如何使得軟體架構與業務模型相結合？ - VLINGO
2021-11-09
架構模型Go
Stata實現結構方程模型
2020-10-13
模型
Qt 5模型/檢視結構
2020-11-28
QT模型
大模型API與前端的結合使用
2024-09-12
大模型API前端
順序結構與選擇結構
2024-08-14
python分支結構與迴圈結構
2022-01-15
Python
DOM（文件物件模型）：理解網頁結構與內容操作的關鍵技術
2024-03-29
物件模型網頁
域結構進化的馬爾可夫模型
2024-07-03
馬爾可夫模型
CNN結構演變總結（一）經典模型
2021-02-27
CNN模型
Self-Attention GAN 中的 self-attention 機制
2019-03-06
Attention
2024-03-15
類與結構體
2020-11-15
結構體
結構化資料與非結構化資料的差異
2022-03-01
注意力(Attention)與Seq2Seq的區別
2021-02-13
Python(二)：選擇結構與迴圈結構
2020-12-09
Python
「模型解讀」歷數GAN的5大基本結構
2019-07-14
模型
資料結構知識點--儲存結構與邏輯結構
2020-11-19
資料結構
HarmonyOS：應用程式包結構（1）Stage模型應用程式包結構
2024-10-21
模型
Attention模型方法綜述 | 多篇經典論文解讀
2018-06-11
模型
資料結構與演算法：圖形結構
2020-10-20
資料結構演算法
什麼是LLM大模型訓練，詳解Transformer結構模型
2024-06-04
大模型ORM
Swift 類與結構體
2019-03-01
Swift結構體
資料結構與排序
2019-04-03
資料結構排序
結構體與共用體
2024-03-20
結構體
SSD結構與工作原理
2020-10-29
JVM結構與機制
2018-03-06
JVM
Redis 雜湊結構記憶體模型剖析
2018-08-27
Redis記憶體模型
吳恩達《序列模型》課程筆記（3）– Sequence models & Attention mechanism
2018-08-02
吳恩達模型筆記

Attention的基本原理與模型結構

相關文章