多頭注意力機制的python實現

小丑_jk發表於2024-07-09

原文網址 : https://www.cnblogs.com/xiaochouk/p/18292531

多頭注意力機制是一種用於處理序列資料的神經網路結構，在自然語言處理領域中得到廣泛應用。它可以幫助模型更好地理解和學習輸入序列中的資訊，提高模型在各種任務上的效能。

多頭注意力機制是基於注意力機制的改進版本，它引入了多個注意力頭，每個頭都可以關注輸入序列中不同位置的資訊。透過彙總多個頭的輸出，模型可以更全面地捕捉輸入序列中的特徵。

下面我們用一個簡單的例子來演示如何使用python實現多頭注意力機制。我們將使用pytorch框架來構建模型。

import torch
import torch.nn as nn
import torch.nn.functional as F
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model
        self.query_linear = nn.Linear(d_model, d_model)
        self.key_linear = nn.Linear(d_model, d_model)
        self.value_linear = nn.Linear(d_model, d_model)
        self.output_linear = nn.Linear(d_model, d_model)
    def forward(self, query, key, value):
        batch_size = query.size(0)
        query = self.query_linear(query)
        key = self.key_linear(key)
        value = self.value_linear(value)
        query = query.view(batch_size, -1, self.num_heads, self.d_model// self.num_heads).transpose(1,2)
        key = key.view(batch_size, -1, self.num_heads, self.d_model // self.num_heads).transpose(1,2)
        value = value.view(batch_size, -1, self.num_heads, self.d_model // self.num_heads).transpose(1,2)
        scores = torch.matmul(query, key.transpose(-2, -1)) / (self.d_model // self.num_heads) ** 0.5
        attention_weights = F.softmax(scores, dim = -1)
        output = torch.matmul(attention_weights, value)
        output = output.transpose(1,2).contiguous().view(batch_size, -1, self.d_model)
        return self.output_linear(output)
if __name__ == "__main__":
    query = torch.randn(5,10,20)
    key = torch.randn(5,10,20)
    value = torch.randn(5,10,20)
    multi_head_attention = MultiHeadAttention(d_model = 20, num_heads = 4)
    output = multi_head_attention(query, key, value)
    print("output.shape: ", output.shape)

　執行上面的程式碼，我們可以看到模型輸出的形狀為（5,10,20），說明多頭注意力機制成功執行並得到了輸出。

通俗理解自注意力機制和多頭注意力機制
2024-12-09
自注意力機制(2)-多頭自注意層
2024-09-23
transformer多頭注意力的不同框架實現（tensorflow+pytorch）
2020-11-18
ORM框架PyTorch
解讀注意力機制原理，教你使用Python實現深度學習模型
2024-05-27
Python深度學習模型
AAAI 2020 | 南京大學：利用多頭注意力機制生成多樣性翻譯
2020-01-11
AI
注意力機制
2024-04-07
三種Transformer模型中的注意力機制介紹及Pytorch實現：從自注意力到因果自注意力
2024-10-13
ORM模型PyTorch
帶自注意力機制的生成對抗網路，實現效果怎樣？
2018-06-06
淺談多型機制的意義及實現
2019-05-11
多型
計算機視覺中的注意力機制
2019-02-15
計算機視覺
什麼是注意力機制？
2024-04-07
attention注意力機制學習
2020-11-06
淺析注意力(Attention)機制
2024-11-17
CNN中的注意力機制綜合指南：從理論到Pytorch程式碼實現
2024-09-02
CNNPyTorch
物聯網學習教程—多型的實現機制
2019-08-16
多型
目標檢測中的注意力機制
2018-12-03
注意力機制----RNN中的self-attention
2020-11-08
RNN
結合指標網路的注意力機制(PAN模型)實現金融領域事件抽取
2019-08-30
指標模型事件
8.1 Attention（注意力機制）和Transformer
2020-01-08
ORM
深入理解圖注意力機制
2019-02-19
RAG新突破：塊狀注意力機制實現超低延遲檢索增強
2024-11-03
Spring AOP 的實現機制
2019-04-15
Spring
深度學習中的注意力機制(Attention Model)
2018-11-05
深度學習
為什麼使用自注意力機制？
2018-09-17
umich cv-6-2 注意力機制
2023-10-31
Python 3.6:多型的實現
2018-03-15
Python多型
哈佛大學提出變分注意力：用VAE重建注意力機制
2018-07-26
MySQL中的MVCC實現機制
2024-03-25
MySqlMVC
docker 實現 Redis 的哨兵機制
2019-09-25
DockerRedis
Js非同步機制的實現
2020-04-16
JS非同步
注意力機制在圖卷積中的應用
2019-04-15
卷積
解碼注意力Attention機制：從技術解析到PyTorch實戰
2023-11-01
PyTorch
iOS:利用訊息轉發機制實現多播委託
2019-01-16
iOS
軟體測試學習教程——Python實現反射機制
2019-09-09
Python反射
RNN-Encoder Decoder架構中引入的注意力機制
2018-06-15
RNN架構
併發機制的底層實現
2019-04-02
Nginx accept鎖的機制和實現
2018-12-01
Nginx
[轉載]Spring AOP的實現機制
2018-03-23
Spring

多頭注意力機制的python實現

相關文章