神經網路加速器應用例項：影象分類

暗海風發表於2019-07-26

原文網址 : https://www.cnblogs.com/sea-wind/p/11247937.html

深度學習飛速發展過程中，人們發現原有的處理器無法滿足神經網路這種特定的大量計算，大量的開始針對這一應用進行專用晶片的設計。谷歌的張量處理單元（Tensor Processing Unit，後文簡稱TPU）是完成較早，具有代表性的一類設計，基於脈動陣列設計的矩陣計算加速單元，可以很好的加速神經網路的計算。本系列文章將利用公開的TPU V1相關資料，對其進行一定的簡化、推測和修改，來實際編寫一個簡單版本的谷歌TPU，以更確切的瞭解TPU的優勢和侷限性。

動手寫一個神經網路加速器系列目錄

擴充

TPU的邊界（規劃中）

重新審視深度神經網路中的並行（規劃中）

1. 不僅僅是硬體的AI Inference

在Simple TPU的設計和效能評估中，一個神經網路加速器的硬體雛形已經搭建完成了；在https://github.com/cea-wind/SimpleTPU上給出了相應的程式碼，和RTL模擬結果。在TPU中的脈動陣列及其實現和神經網路中的歸一化和池化的硬體實現中，針對硬體實現中的關鍵模組也進行了模擬分析。但是，最終並沒有給出一個可以實際執行的例子。這意味著，即使將這一部分程式碼應用到FPGA上，或者是實現在ASIC上後，也只有紙面效能卻並不可用。

和很多其他的硬體設計不同，以Xilinx的AI Inference 解決方案為例（即之前的深鑑科技），用於AI Inference的設計需要考慮神經網路計算中的多樣性，神經網路加速器是一個軟體+硬體的解決方案。Xilinx敘述如下圖（原始連結：https://www.xilinx.com/products/design-tools/ai-inference.html）。

從上往下看，這一套解決方案包括

主流的神經網路的框架的支援，包括caffe、Tensorflow和mxnet
提供模型壓縮和優化的工具，以期在硬體上又更好的效能
提供模型量化的功能，使得浮點模型轉化為定點模型
提供了Compiler，將模型對映為二進位制指令序列
和Compiler相結合的Hardware

這意味著想真正使用之前設計的神經網路加速器——SimpleTPU，還需要軟體的配合。即便模型壓縮不在考慮範圍內，也需要將模型量化為int8精度（SimpleTPU只支援int8乘法），同時利用Compiler生成指令序列。受限於個人能力，由於配套軟體的缺失，下面的例子中的量化和指令均由手工生成。也正是由於這一原因，網路結構會盡可能簡單，僅以保證本系列文章完整性為目的。

2. MLP分類例項

利用MLP對MNIST資料集進行手寫數字分類的網路結構定義如下

class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.hidden = nn.Linear(784,64)
        self.fc = nn.Linear(64,10)

    def forward(self, x):
        x = x.view(-1,784)
        x = self.hidden(x)
        x = self.fc(x)
        return F.log_softmax(x, dim=1)

生成指令後將其作為SimpleTPU的輸入，並對其進行RTL模擬（testbench已經寫好，直接執行即可），模擬結果如下圖所示

result

前16張圖的分類結果如下圖所示

result

根據計算結果，可以分析得到其效率為84%。（去除了13K個用於讀取圖片和寫回結果的時間，實際應用中，這一事件也會被計算時間覆蓋）

LOC	Layers	Nonlinear function	Weights	Batch Size	% of Deployed
2	2 FC	Relu	5M	512	16%

作為參考，谷歌TPU中的數值為（儘管Simple TPU效率較高，但由於規模不同，無法直接對比效率；由於SimpleTPU完全按TPU設計，實際效能不可能高於TPU）

3. MLP執行分析

通過模擬波形，可以更直觀的看出SimpleTPU的執行狀態。下圖中，讀取Weight、乘加運算單元和Pooling共同工作可以反應TPU中的指令並行和資料並行中提到的指令並行。(由上倒下的ap_start分別是MXU，POOL，LOAD WEIGHT和INSTR FETCH的工作指示訊號，同時拉高代表同時工作)

觀察MXU內部的訊號，可以看到計算過程中的資料並行（一條指令控制多組資料，且一個週期完成多組計算）。MXU每個週期都輸出psum取值，一共有32個psum，計算一個psum需要32次乘加計算。

SimpleTPU為什麼不夠快（效率並沒有接近100%）？這一問題可有下面的模擬波形看出（每次MXU啟動前後都有若干個週期沒有輸出有效結果）

由於每次MXU執行一條向量計算指令會又若干個空閒的週期（超過64個週期，損失了10%以上的效能），導致了SimpleTPU在這一個網路上效能只有84%。MXU在啟動之前需要32個週期來填滿整個脈動陣列，而在輸入結束後還需要32個週期來輸出最後的結果。當採用HLS編寫程式碼是，難以以這一控制力度來優化MXU的效能。如果採用Verilog HDL或者VHDL，可以採用指令之間的流水設計來消除這一延時。

4. CNN

由於手工對神經網路進行量化和layer間融合以及生成指令的複雜性，基於CNN的影象分類/分割網路的執行例項被無限期暫停了。

但是一個卷積計算的例項已經在TPU中的脈動陣列及其實現中給出，證明了SimpleTPU計算卷積的能力。

根據Simple TPU的設計和效能評估給出的特性，SimpleTPU可以高效支援絕大多數Operator，完成計算機視覺中的多種任務。當然，最大的缺陷在於SimpleTPU不顯式支援ResNet，無法直接計算residual connection中的加法；只能進行channel concatenate之後再利用一次乘加計算完成。

文字分類(下)-卷積神經網路(CNN)在文字分類上的應用
2018-07-25
文字分類卷積神經網路CNN
用神經網路來識別人物影象性別
2018-12-04
神經網路
TF2.keras 實現基於卷積神經網路的影象分類模型
2020-03-11
TF2Keras卷積神經網路模型
神經網路實現鳶尾花分類
2020-09-29
神經網路
神經網路似乎遵循一種令人費解的簡單策略來對影象進行分類
2019-02-17
神經網路
如何用Python和深度神經網路識別影象？
2018-06-28
Python神經網路
[譯] RNN 迴圈神經網路系列 2：文字分類
2019-03-01
RNN神經網路文字分類
圖卷積神經網路分類的pytorch實現
2023-02-20
卷積神經網路PyTorch
圖神經網路綜述：模型與應用
2018-12-26
神經網路模型
前饋神經網路進行MNIST資料集分類
2020-12-28
神經網路
【神經網路篇】--基於資料集cifa10的經典模型例項
2018-03-30
神經網路模型
清華NLP圖神經網路GNN論文分門別類，16大應用200+篇論文
2019-08-12
神經網路GNN
（二）神經網路入門之Logistic迴歸（分類問題）
2019-02-16
神經網路
TensorFlow搭建神經網路最佳實踐樣例
2020-04-06
神經網路
神經網路：numpy實現神經網路框架
2021-08-19
神經網路框架
圖神經網路在醫學影像中的應用
2019-12-30
神經網路
神經網路 | 基於MATLAB 深度學習工具實現簡單的數字分類問題（卷積神經網路）
2019-03-07
神經網路Matlab深度學習卷積
設計一個基於 LSTM 神經網路的文字分類器
2024-11-26
神經網路文字分類
神經網路
2018-11-30
神經網路
30分鐘講清楚深度神經網路
2021-09-09
神經網路
使用PaddleFluid和TensorFlow實現影象分類網路SE_ResNeXt
2018-06-20
UI
Adobe提出新型超解析度方法：用神經網路遷移參照影象紋理
2019-03-16
神經網路
dd應用例項
2020-10-19
細粒度影象分類
2019-01-25
LSTM神經網路
2019-03-02
神經網路
8、神經網路
2020-12-18
神經網路
TensorFlow應用之進階版卷積神經網路CNN在CIFAR-10資料集上分類
2020-04-06
卷積神經網路CNN
清華大學圖神經網路綜述：模型與應用
2019-05-21
神經網路模型
使用pytorch快速搭建神經網路實現二分類任務（包含示例）
2020-08-03
PyTorch神經網路
聊聊從腦神經到神經網路
2018-11-29
神經網路
圖神經網路GNN 庫，液體神經網路LNN/LFM
2024-10-07
神經網路GNN
用一個畫素攻陷神經網路
2018-10-14
神經網路
卷積神經網路-啟用函式
2024-04-11
卷積神經網路函式
機器學習之多類別神經網路：Softmax
2020-06-28
機器學習神經網路
優化基於FPGA的深度卷積神經網路的加速器設計
2018-04-18
優化FPGA卷積神經網路
自己動手實現神經網路分詞模型
2018-11-28
神經網路分詞模型
【神經網路篇】--RNN遞迴神經網路初始與詳解
2018-05-13
神經網路RNN遞迴
【深度學習篇】--神經網路中的卷積神經網路
2018-03-28
深度學習神經網路卷積