關於attention中對padding的處理：mask

waterrr。發表於2024-05-21

原文網址 : https://www.cnblogs.com/waterrr404/p/18204669

padding

先問了下chatgpt:
我正在學習torch.nn.multiheadattention，請告訴我att_mask和key_padding_mask這兩個引數有什麼不同，分別用於處理什麼問題，以及輸出有什麼不同，並給出程式碼示例

chatgpt的回答：
torch.nn.MultiheadAttention 中的 attn_mask 和 key_padding_mask 是兩個非常重要的引數，用於處理不同的注意力機制中的問題。

`attn_mask` (Attention Mask)

attn_mask 用於在計算注意力權重時遮蔽某些位置。這在例如自迴歸生成模型中非常有用，可以防止模型在生成當前詞時看到未來的詞。它可以是一個 2D 的布林型矩陣，用於遮蔽特定位置，或是一個上三角矩陣，用於遮蔽未來的位置。

`key_padding_mask`

key_padding_mask 用於在計算注意力權重時忽略某些填充位置（padding）。這是在處理不同長度的序列時常用的技巧，確保模型不會將填充值（通常為0）作為有效的資訊來處理。

不同之處

attn_mask 是用來遮蔽未來的位置或指定位置，以防止資訊洩露或特定位置的資訊影響計算。
key_padding_mask 是用來忽略填充值的位置，確保這些填充值不會影響模型的注意力計算。

程式碼示例

import torch
import torch.nn as nn

# 建立一些示例資料
batch_size = 4
seq_length = 6
embed_dim = 8
num_heads = 2

# 模擬輸入 (batch_size, seq_length, embed_dim)
x = torch.rand(batch_size, seq_length, embed_dim)

# 模擬填充後的序列
padded_x = nn.utils.rnn.pad_sequence(
    [torch.rand(3, embed_dim), torch.rand(4, embed_dim), torch.rand(5, embed_dim), torch.rand(6, embed_dim)], 
    batch_first=True
)

# 建立 SelfAttention 例項
self_attention = nn.MultiheadAttention(embed_dim=embed_dim, num_heads=num_heads, batch_first=True)

# Attention mask: 遮蔽未來的位置（上三角矩陣）
attn_mask = torch.triu(torch.ones(seq_length, seq_length), diagonal=1).bool()

# Key padding mask: 遮蔽填充值（padding）
key_padding_mask = torch.tensor([
    [False, False, False, True, True, True],  # 只有前三個位置有效
    [False, False, False, False, True, True], # 只有前四個位置有效
    [False, False, False, False, False, True],# 只有前五個位置有效
    [False, False, False, False, False, False]# 所有位置都有效
])

# 計算注意力
attn_output, attn_weights = self_attention(x, x, x, attn_mask=attn_mask, key_padding_mask=key_padding_mask)

print("Attention Output:", attn_output)
print("Attention Weights:", attn_weights)

解釋程式碼

模擬輸入資料：建立一個隨機的輸入張量 x，形狀為 (batch_size, seq_length, embed_dim)。
模擬填充後的序列：使用 nn.utils.rnn.pad_sequence 建立一個填充後的序列 padded_x。
建立 SelfAttention 例項：例項化 nn.MultiheadAttention，設定 embed_dim 和 num_heads。
建立 Attention Mask：attn_mask 是一個上三角矩陣，用於遮蔽未來的位置。
建立 Key Padding Mask：key_padding_mask 是一個布林型張量，用於遮蔽填充值的位置。
計算注意力：呼叫 self_attention，傳入輸入張量、attn_mask 和 key_padding_mask。

輸出

Attention Output：經過注意力機制後的輸出張量。
Attention Weights：注意力權重，展示了每個位置的權重值。

這樣，你可以透過 attn_mask 和 key_padding_mask 靈活地控制注意力機制的行為，以適應不同的任務需求。

關於Python中的日期處理
2019-02-16
Python
關於 Eloquent ORM 對資料處理的思考
2019-04-16
ORM
Java 中關於 null 物件的容錯處理
2018-12-22
JavaNull物件
sql server對於日期的處理
2019-11-18
SQLServer
Spring Boot 中關於自定義異常處理的套路！
2019-04-19
Spring Boot
django2中關於時間處理策略
2019-03-05
Django
多對一處理和一對多處理的處理
2020-06-20
關於go的跨域處理 gin
2018-04-11
Go跨域
關於Android的幾種事件處理
2019-05-12
Android事件
關於linux病毒`kinsing` `kdevtmpfsi`的處理
2020-12-08
Linuxdev
Java中對時間的處理
2024-04-12
Java
關於GCD多工處理
2019-03-16
GC
關於php rsa加密處理
2022-01-20
PHP加密
關於高併發和分散式中的冪等處理
2019-05-16
分散式
KafkaConsumer對於事務訊息的處理
2018-08-30
Kafka
【C#】-對於Null值的處理方法
2024-08-14
C#Null
關於特殊符號&與& 的處理
2019-09-20
符號
Java--- 關於null的處理若干方法
2020-08-25
JavaNull
關於一類資料處理
2024-06-27
關於移動端IOS active失效的處理
2018-11-14
iOS
關於OT分類的一些處理
2019-05-11
關於laravel的錯誤頁面處理大家都是如何優雅的處理的呢？
2021-03-01
Laravel
關於運放中管子處於的區域
2024-05-22
對於數字或者字串有限的問題的處理
2019-05-12
字串
關於Cordova框架對URL攔截導致通訊丟失問題的處理
2018-12-04
框架
關於vue-cli開發環境中跨域的處理-配置代理
2018-04-20
Vue開發環境跨域
快手關於海量模型資料處理的實踐
2024-02-07
模型
關於 groupBy 分組查詢的分頁處理
2019-11-27
針對於早期版本的flutter開發的app的處理
2024-07-08
FlutterAPP
LoadRunner中多值關聯的3種處理方式
2019-08-16
對於linux go1.5版本的一種tcp監聽關閉處理方式
2018-07-23
LinuxGoTCP
Vue響應式原理 - 關於Array的特別處理
2019-08-17
Vue
關於nginx HTTP Strict Transport Security (HSTS) Policy Not Enabled 的處理
2024-10-22
NginxHTTP
C++之OpenCV入門到提高003：矩陣的掩膜（Mask）處理
2024-11-01
C++OpenCV矩陣
關於人像後期處理進階的相關技術步驟
2020-04-04
對Response中的響應體做統一處理
2021-09-01
Linux系統中對中斷的處理（學習筆記）
2024-03-26
Linux筆記
Self-Attention GAN 中的 self-attention 機制
2019-03-06

關於attention中對padding的處理：mask

attn_mask (Attention Mask)

key_padding_mask

不同之處

程式碼示例

解釋程式碼

輸出

相關文章

`attn_mask` (Attention Mask)

`key_padding_mask`