同樣網路結構，不一樣的推理速度？--記一次奇怪的踩坑

haoliuhust發表於2021-11-28

原文網址 : https://www.cnblogs.com/haoliuhust/p/15616776.html

背景

這是以前工程化過程中碰到的一個問題，一直沒有總結整理過。現象是這樣的，有一個網路結構（基本就是Resnet50), 以前已經工程化到MNN了。當時在PC上執行，單執行緒大概600ms。後來，模型效能提升了（模型結構沒有變化，只是資料增多），於是考慮升級模型，奇怪的是，執行卻要2s多，足足是原來的3倍多。在我當時的認知裡，結構不變，各種卷積，FC引數量都沒變，計算量應該是不變的，為啥會出現這麼大差距，百思不得其解。記錄下當時的排查和解決過程。

問題定位

首先模型在mxnet下沒問題，因此一開始認定是MNN的問題。所以往MNN提了issue, https://github.com/alibaba/MNN/issues/786, 並且後來用MNN/tools/下面的timeProfile去逐層測速（4執行緒下面），按層型別彙總：
原模型：

Sort by time cost !
Node Type Avg(ms) % Called times Flops Rate
Reshape 0.072720 0.040518 2.000000 0.000386
Pooling 0.365080 0.203415 4.000000 0.017411
Eltwise 0.559910 0.311970 24.000000 0.026874
PReLU 1.148671 0.640014 25.000000 0.056019
Scale 1.955981 1.089830 52.000000 0.077988
Convolution 175.379929 97.717857 54.000000 99.814148
total time : 179.475815 ms, total mflops : 6321.113770
main, 112, cost time: 17968.628906 ms

新模型：

Sort by time cost !
Node Type Avg(ms) % Called times Flops Rate
Reshape 0.072500 0.016967 2.000000 0.000386
Pooling 0.370410 0.086687 4.000000 0.017411
Eltwise 0.571718 0.133798 24.000000 0.026874
PReLU 1.229384 0.287711 25.000000 0.056019
Scale 1.930405 0.451770 52.000000 0.077988
Convolution 423.116730 99.021439 54.000000 99.814148
total time : 427.298096 ms, total mflops : 6321.113770
main, 112, cost time: 42751.425781 ms

可以看出差距主要是在卷積層，新模型的卷積層慢了很多。收到反饋比較慢···，所以我又去測試了其他框架，opencv_dnn, 情況依舊。所以在opencv也提交了issue:https://github.com/opencv/opencv/issues/17259, Opencv的回覆很快（點贊），並且復現了（OpenVino後端不能復現）。他們表示也很疑惑。這個時候MNN也回覆了，讓試試開啟/fp:fast編譯選項，不過我測試了還是無效，可能是windows上沒生效。Opencv團隊在開啟-DENABLE_FAST_MATH=ON後，速度差不多了，不過這個選項可能對精度有影響，因此不算最終解決方案，不過也能大概指出是跟數值計算有關樂。這時，一個大佬提出了 I zeroed all weights that were smaller than 1e-15 and both give the same efficiency. I suspect that the fusion process is leading to a lot of denormals by multiplying small numbers with small numbers. I have some doubts on my claim though because it's a bit unusual to have models filled with so many tiny weights to cause serious performance degradation.

Denormals have leading zeros in the mantissa which is not-so-normal representation. Normally, you would have leading zeros counted in the exponent to make room for having as many significant digits as possible in the mantissa. When the number becomes so small that you cannot make the exponent any smaller without an overflow, you will use leading zeros in the mantissa to store the value. Most hardware are optimized for handling normal numbers efficiently and often have alternate slow paths for dealing with denormals. When you enable fast math, you are also enabling flush-to-zero (treat denormals as zero). With FTZ, the hardware deals with them efficiently by simply ignoring them.

The CUDA backend didn't face this issue probably because the convolutions are largely implemented using fused multiply-add ops and the FMA pipeline can handle denormals. Only multi-instruction sequences like sqrt require special handling of denormals. 也就是由於出現了太多的denormal,中文是非規格化浮點數，可以簡單理解為非常小的浮點數，處理這種數的速度大大慢於規格化的浮點數。具體到我們這個問題，由於網路的權重基本都是小數，可能權重本身就太小了，慢慢出現很多很小的數（denormal number),導致了計算速度慢。我統計了2個模型權重中<1e^-15的個數，確實慢的要多很多。

問題解決

問題的根源是出現了過小的小數，並且通過OpenCV的回覆中測試了將權重過小的置為有符號的0，速度就大致一樣了，精度不會受影響。

@@ -414,6 +414,10 @@ public:
                 cv::multiply(originWeights.row(i), weightsMultipliers[i], weightsMat.row(i));
                 biasvec[i] *= wi;
             }
+            Mat mask = (abs(weightsMat) <= 1e-15f) & (weightsMat > 0);
+            weightsMat.setTo(0, mask);  // Flush to zero (FTZ) denormal weights
+            mask = (abs(weightsMat) <= 1e-15f) & (weightsMat < 0);
+            weightsMat.setTo(-0, mask);  // Flush to zero (FTZ) denormal weights
         }

仿照這個思路，我們可以將模型中權重e^-15次方的置為0，這個操作可以在原始模型上操作，也可以在模型轉換時操作，我選擇的是在MNN的轉換程式碼中修改，具體是tools/converter/source/optimizer/PostConverter.cpp，optimizeNet最後加上:

    auto& op_list=newNet->oplists;
    size_t cnt=0;
    for(auto& op :op_list)
    {
        if(op->type==MNN::OpType::OpType_Convolution||op->type==MNN::OpType::OpType_ConvolutionDepthwise)
        {
            auto conv2D = op->main.AsConvolution2D();
            for (auto& w: conv2D->weight)
            {
//                if(std::fpclassify(w)==FP_SUBNORMAL)
	            if(std::abs(w)<1e-15)
                {
                	cnt+=1;
                    if(w>0.0f)
                    {
                        w=0.0f;
                    }
                    else if(w<0.0f)
                    {
                        w=-0.0f;
                    }
                }
            }
        }
    }

    std::cout<<"weights too small cnt "<<cnt<<std::endl;

重新編譯轉換工具即可。不過其實我這樣的修改方式嚴格來說不完全正確，因為還有可能是在推理過程中產生這樣的小數，因此正確的方式是修改推理程式碼，在卷積運算元計算前和計算後把非規格浮點數忽略掉，不過這個操作改起來工作量就會大些了，因為用上面的方式已經解決我的問題了，這種改法我沒有去實施了，如果有興趣的可參考OpenCV的方式：https://github.com/opencv/opencv/pull/17295

總結

同樣的模型結構若一個模型權重含有的非常小的權重太多，是會嚴重影響推理速度的（CUDA, OpenVino不影響），可以在訓練時將這種權重置0，或者轉換模型時處理，精度不會受到影響。

React同構踩坑記錄
2018-04-23
React
同樣是黑客少年，但他們可能有不一樣的命運
2018-10-28
黑客
不一樣的django2.0筆記
2020-11-04
Django筆記
2019 總結不一樣！
2020-01-16
記一次docker上部署nuxt踩的坑
2020-08-23
DockerUX
記一次spring cloud踩坑
2018-12-13
SpringCloud
遊戲人避坑指南——怎樣才能減少踩坑的頻率？
2022-06-09
遊戲
Go新手容易踩的坑（控制結構相關）
2024-07-06
Go
【CVPR2018】物體檢測中的結構推理網路
2018-07-29
buu Reverse學習記錄(10) 不一樣的flag
2020-11-26
記一次營銷活動踩坑
2019-03-07
MUI的踩坑筆記
2018-08-07
UI筆記
Nginx的踩坑日記
2019-03-22
Nginx
同樣一張圖片為什麼使用 ssim 對比後會不一樣？？
2020-09-25
Steam使用者的“不一樣”
2019-11-22
SVM之不一樣的視角
2020-04-26
JDK1.8 不一樣的HashMap
2021-09-09
JDKHashMap
不一樣的角度理解Vue元件
2021-04-25
Vue元件
不一樣的Flink入門教程
2020-11-26
《網路是怎樣連線的》讀書筆記
2020-10-23
筆記
“每天不一樣”的武漢，遇上“雲”又會怎樣?
2018-09-05
AI和網路的結合，會碰撞出怎樣的火花？
2020-07-08
AI
同樣的工作、同樣的做需求，為什麼他們能進阿里
2018-07-08
阿里
怎樣將Gradle構建速度提升90%
2020-02-16
Gradle
新手如何操作自媒體？這樣操作避免踩坑
2021-03-11
踩坑日記,同域名不同埠.. cookie 會覆蓋...
2020-10-21
Cookie
一般後端返回的資料結構是資料庫中的儲存結構，與前端需要展示的結構不一樣對嗎？
2024-03-15
後端資料結構資料庫前端
《網路是怎樣連線的》讀書筆記一
2019-07-17
筆記
讀書筆記之《網路是怎樣連線的》
2022-06-19
筆記
不一樣的HTTP快取體驗
2018-06-24
HTTP快取
不一樣的 Android 堆疊抓取方案
2023-03-26
Android
不一樣的圖片載入方式
2021-07-27
Laya 踩坑日記 ---A* 導航尋路
2021-01-14
關於passive event listener的一次踩坑
2019-03-03
老外總結的14條Go介面最佳實踐，有些不一樣
2023-11-07
Go
removeChild踩坑記
2019-02-16
REM
vue 踩坑記
2018-12-03
Vue
mpVue 踩坑記
2018-08-08
Vue

同樣網路結構，不一樣的推理速度？--記一次奇怪的踩坑

背景

問題定位

問題解決

總結

相關文章