深度學習推理時融合BN，輕鬆獲得約5%的提速

ShellCollector發表於2020-12-01

原文網址 : https://blog.csdn.net/jacke121/article/details/110449025

批歸一化（Batch Normalization）因其可以加速神經網路訓練、使網路訓練更穩定，而且還有一定的正則化效果，所以得到了非常廣泛的應用。但是，在推理階段，BN層一般是可以完全融合到前面的卷積層的，而且絲毫不影響效能。

Batch Normalization是谷歌研究員於2015年提出的一種歸一化方法，其思想非常簡單，一句話概括就是，對一個神經元（或者一個卷積核）的輸出減去統計得到的均值，除以標準差，然後乘以一個可學習的係數，再加上一個偏置，這個過程就完成了。

下面我們簡單介紹一下BN訓練時怎麼做，推理的時候為什麼可以融合，以及怎麼樣融合。

一. BN訓練時如何做

二. BN推理時怎麼做

三. 在框架中如何融合

下面是來自博文[1]中的一個PyTorch例子，將ResNet18中一個卷積+BN層融合後，融合前後輸出的差值為-6.10425390790148e-11，也就是誤差在百億分之一，基本就是0了。

    import torch
    import torchvision

    def fuse(conv, bn):

        fused = torch.nn.Conv2d(
            conv.in_channels,
            conv.out_channels,
            kernel_size=conv.kernel_size,
            stride=conv.stride,
            padding=conv.padding,
            bias=True
        )

        # setting weights
        w_conv = conv.weight.clone().view(conv.out_channels, -1)
        w_bn = torch.diag(bn.weight.div(torch.sqrt(bn.eps+bn.running_var)))
        fused.weight.copy_( torch.mm(w_bn, w_conv).view(fused.weight.size()) )

        # setting bias
        if conv.bias is not None:
            b_conv = conv.bias
        else:
            b_conv = torch.zeros( conv.weight.size(0) )
        b_bn = bn.bias - bn.weight.mul(bn.running_mean).div(
                              torch.sqrt(bn.running_var + bn.eps)
                            )
        fused.bias.copy_( b_conv + b_bn )

        return fused

    # Testing
    # we need to turn off gradient calculation because we didn't write it
    torch.set_grad_enabled(False)
    x = torch.randn(16, 3, 256, 256)
    resnet18 = torchvision.models.resnet18(pretrained=True)
    # removing all learning variables, etc
    resnet18.eval()
    model = torch.nn.Sequential(
        resnet18.conv1,
        resnet18.bn1
    )
    f1 = model.forward(x)
    fused = fuse(model[0], model[1])
    f2 = fused.forward(x)
    d = (f1 - f2).mean().item()
    print("error:",d)

因為這麼一個線性操作的轉換，如果有誤差，那才真是見鬼了呢。

關於其他框架，如Keras、Caffe、TensorFlow的操作，與PyTorch基本一個原理，大家可以自己試驗一下。

筆者在測試時候，發現融合掉BN後，會有大概5%的提速，而且還可以減小視訊記憶體消耗，又絲毫不影響誤差，何樂而不為呢。

但是，融合BN僅限於Conv+BN或者是BN+Conv結構，中間不能加非線性層，例如Conv+ReLu+BN那就不行了。當然，一般結構都是Conv+BN+ReLu結構。

【深度學習筆記】Batch Normalization (BN)
2019-01-07
深度學習筆記BATORM
阿里開源！輕量級深度學習端側推理引擎 MNN
2019-05-07
阿里深度學習
使用代理IP輕鬆獲得韓國IP地址
2023-05-06
如何輕鬆學習 Kubernetes？
2020-05-06
怎麼輕鬆學習JavaScript
2018-04-05
JavaScript
5招輕鬆獲取Mac檔案路徑
2021-10-15
Mac
機器學習的未來——深度特徵融合
2018-03-07
機器學習特徵
[譯] 如何輕鬆地在樹莓派上使用深度學習檢測物件
2018-06-09
樹莓派深度學習物件
遷移學習中的BN問題
2020-11-03
遷移學習
[原始碼解析] 深度學習分散式訓練框架 horovod (5) --- 融合框架
2021-06-21
原始碼深度學習分散式框架
自媒體新手這樣運營讓你輕鬆獲得大票流量
2021-08-23
5分鐘輕鬆學正規表示式
2020-11-20
基於CPU的深度學習推理部署優化實踐
2018-12-24
深度學習優化
如何輕鬆學習Python資料分析？
2019-03-11
Python
Yii2 - Active Record 輕鬆學習
2019-07-31
深度學習網路模型的輕量化方法
2021-07-17
深度學習模型
CSDN 學習勳章獲得攻略
2022-06-17
實時深度學習
2020-12-31
深度學習
AI 學習之路——輕鬆初探 Python 篇（三）
2019-01-24
AIPython
如何輕鬆利用GPU加速機器學習？
2018-12-13
GPU機器學習
想輕鬆復現深度強化學習論文？看這篇經驗之談
2018-04-10
強化學習
substrate輕鬆學系列5：編寫pallet的Rust前置知識
2022-07-24
Rust
有輕功：用3行程式碼讓Python資料處理指令碼獲得4倍提速
2018-07-27
行程Python指令碼
31 天，從淺到深輕鬆學習 Kotlin
2018-05-30
Kotlin
萬字長文，帶你輕鬆學習 Spark
2022-05-21
Spark
時下火熱的 wGAN 將變革深度學習？這得從源頭講起
2019-01-03
深度學習
輕鬆讓圖片變得清晰Topaz Sharpen AI
2020-11-20
AI
僅1個例子輕鬆學習正規表示式
2022-03-22
深度學習--實戰 LeNet5
2023-04-24
深度學習
使Mybatis開發變得更加輕鬆的增強工具 — Ourbatis
2019-03-02
MyBatis
（資料科學學習手札149）用matplotlib輕鬆繪製漂亮的表格
2023-02-02
資料科學
深度學習中的Lipschitz約束：泛化與生成模型
2018-10-16
深度學習模型
鋪天蓋地的炒作下，我依然覺得深度強化學習是浪費時間
2020-02-16
強化學習
輕鬆掌握useAsyncData獲取非同步資料
2024-07-12
非同步
（資料科學學習手札90）Python+Kepler.gl輕鬆製作時間輪播地圖
2020-07-16
資料科學Python地圖
Vue學習路徑-輕鬆從基礎到實戰
2018-08-27
Vue
機器是如何學習推理的？
2019-01-07
substrate輕鬆學系列1：前言
2022-06-18

深度學習推理時融合BN，輕鬆獲得約5%的提速

一. BN訓練時如何做

二. BN推理時怎麼做

三. 在框架中如何融合

相關文章