基於自注意力機制的輕量級人體姿態估計(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)

想你时风起發表於2024-04-11

原文網址 : https://www.cnblogs.com/wephilos/p/18119943

寫在前面

本文是一篇於2023年3月21日發表在2023 International Conference on Big Data, Environmental Industry and Materials Science（ICBDEIMS 2023)的一篇會議論文。

論文主要聚焦於解決單籤人體姿態估計網路模型中普遍存在的引數多、計算複雜度高、檢測時間長的問題，文章採用了沙漏結構來建立輕量級的單路徑網路模型，這個模型具有更少的引數和更短的計算時間，為了確保模型的準確性，文章中實現了一種減少引數數量的視窗自注意力機制，文章作者重新設計了自注意力模組，以實現有效提取區域性和全域性資訊，從而豐富模型學習的特徵資訊，該模組與反向殘差網路架構合併，建立了 WGNet 的獨立模組。最後，WGNet可以靈活地嵌入到模型的不同階段。

摘要

摘要原文：
To tackle the issues of numerous parameters, high computational complexity, and extended detection time prevalent in current human pose estimation network models, we have incorporated an hourglass structure to create a lightweight single-path network model, which has fewer parameters and a shorter computation time. To ensure model accuracy, we have implemented a window self-attention mechanism with a reduced parameter count. Additionally, we have redesigned this self-attention module to effectively extract local and global information, thereby enriching the feature information learned by the model. This module merges with the inverted residual network architecture, creating a separate module of WGNet. Finally, WGNet can be flexibly embedded into different stages of the model. Training and validation on COCO and MPII datasets demonstrate that this model reduces the number of parameters by 25%, computational complexity by 41%, and inference time by nearly two times, compared to Hrformer, which also utilizes the windowed self-attention mechanism, at the cost of only 3.5% accuracy.

為了解決當前人體姿態估計網路模型中普遍存在的引數多、計算複雜度高、檢測時間長的問題，我們採用沙漏結構來建立輕量級的單路徑網路模型，該模型具有更少的引數和更短的計算時間。為了確保模型的準確性，我們實現了一種減少引數數量的視窗自注意力機制。此外，我們重新設計了這個自注意力模組，以有效提取區域性和全域性資訊，從而豐富模型學習的特徵資訊。該模組與反向殘差網路架構合併，建立了 WGNet 的獨立模組。最後，WGNet可以靈活地嵌入到模型的不同階段。在 COCO 和 MPII 資料集上的訓練和驗證表明，與同樣利用視窗自注意力機制的 Hrformer 相比，該模型減少了 25% 的引數數量、41% 的計算複雜度和近兩倍的推理時間。成本準確率僅為3.5%。

Introduction 引言

人體姿態估計是人類行為分析、人機互動、醫療康復輔助等許多應用場景的必備任務。主要方法是透過構建神經網路來預測人體關鍵點的位置，因此提出具有高識別精度的模型是一個研究熱點。為了提高預測精度，研究人員大多構建深度複雜的網路模型，但這也使得引數數量較大，計算速度較慢，難以應用於真實場景，這是目前人體姿態估計任務中需要解決的問題。

為了減少模型引數的數量，我們可以直接削減模型的深度和寬度，但這犧牲了相當大的精度，因此必須仔細設計模型結構。此外，隨著Vaswani的自注意機制在各種預測任務中的主導地位，越來越多的研究者嘗試將其應用於計算機視覺任務。許多研究將自關注機制引入到人體姿態估計任務中，使模型相對於卷積網路具有較強的遠端建模能力、簡單的結構和較少的引數，使模型的重量有所減輕。關於網路輕量級的研究已經有了很多成熟的研究成果。

Lightweight Model Structure 輕量化模型結構

我們從引數數量、計算複雜度和推理時間等方面對模型進行了綜合評估，並設計了一個單分支輕量級人體姿態估計網路模型。整個模型如圖所示：

WGNet中自注意機制

WGNet中自注意力機制部分如圖所示：

首先，我們將輸入的featuremap劃分為多個相同大小的視窗，每個視窗分別計算自注意力;然後在每個視窗的相同位置取補丁並縫合在一起形成一個新視窗，每個視窗都進行自關注計算。

我們將WGNet中自我注意的計算量與原始自我注意(以下簡稱MHSA)進行比較。假設初始特徵高度、寬度和通道分別為h、w和C。對於MHSA，特徵中的每個patch透過q、k和v矩陣生成查詢(q)、鍵值(k)和值(v)，並使其長度與輸入特徵深度保持一致。C、q、k和v是需要學習的引數，分別進行初始化，根據變壓器中的自注意計算過程，加上生成查詢(q)、鍵(k)和值(v)的計算，得到MHSA計算結果如下(此處假設多頭數為1，忽略softmax函式的計算):

在WGNet中，為了便於自我關注，首先將特徵劃分為不同的視窗，讓視窗大小為h'和w'，然後得到視窗hw/h'w'。然後從每個視窗的相同位置提取斑塊，形成一個新視窗，並根據MHSA的計算步驟計算每個新視窗的計算量。我們讓每個patch的大小取4×3，然後將新視窗的數量乘以每個新視窗的計算次數，我們可以得到WGNet中自關注的計算量公式如下:

假設輸入影像大小為256×192，經過兩層下采樣後的尺寸為64×48。視窗大小需要被輸入大小整除。

注意力機制：

注意力機制是機器學習中一種廣泛應用於各種不同型別任務的資料處理方法。它在自然語言處理、影像處理和語音識別等領域得到了廣泛應用。

注意力機制存在許多不同的分類方式。

根據注意力機制關注的範圍不同，可以將其分為硬注意力（只關注一個元素），軟注意力，全域性注意力（關注全部元素），區域性注意力（以對齊位置為中心的視窗）和稀疏注意力（關注分佈稀疏的部分元素）等。
根據注意力機制的組合方式，可以將其分為協同注意力機制，層次注意力機制，多頭注意力機制等。
根據注意力的計算方式，可以將其分為點積注意力，自注意力和關鍵值注意力等。
根據注意力機制應用於不同領域的方式，可以將其分為通道域注意力，空間域注意力，時間域注意力和混合域注意力。

[1]夏慶鋒,許可兒,李明陽等.強化學習中的注意力機制研究綜述[J/OL].電腦科學與探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

自注意力機制

目前，自注意力是應用最廣泛的注意力機制之一，該機制反映了輸入和輸出序列中元素的相似性，併為學習過程中的不同元素分配不同的權值。

總而言之，自注意力機制廣泛應用於基於價值的演算法和演員評論家演算法，它目前主要實現了三種功能：評估資訊的重要性、消除虛假訊號和資料冗餘以及增強 RL 模型的可解釋性。但自注意力機制通常只關注輸入序列中區域性區域的資訊，而缺乏對整個序列的全域性感知。這可能在某些任務上限制了強化學習演算法的效能。下表為自注意力機制與強化學習結合演算法的總結。