深度學習論文翻譯解析（十九）：Searching for MobileNetV3

論文標題：Searching for MobileNetV3

論文作者：Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, Quoc V. Le, Hartwig Adam

論文地址：https://arxiv.org/abs/1905.02244.pdf

參考的 MobileNets 翻譯部落格：https://blog.csdn.net/Chunfengyanyulove/article/details/91358187（https://blog.csdn.net/thisiszdy/article/details/90167304）

宣告：小編翻譯論文僅為學習，如有侵權請聯絡小編刪除博文，謝謝！

　　小編是一個機器學習初學者，打算認真研究論文，但是英文水平有限，所以論文翻譯中用到了Google，並自己逐句檢查過，但還是會有顯得晦澀的地方，如有語法/專業名詞翻譯錯誤，還請見諒，並歡迎及時指出。

如果需要小編其他論文翻譯，請移步小編的GitHub地址

　　傳送門：請點選我

　　如果點選有誤：https://github.com/LeBron-Jian/DeepLearningNote

　　MobileNet V3 相關技術如下：

1，用 MnasNet 搜尋網路結構
2，用 V1 的深度可分離
3，用 V2 的倒置殘差線性瓶頸結構
4，引入 SE模組
5，新的啟用函式 h-swish(x)
6，網路搜尋中利用兩個策略：資源受限的 NAS 和 NetAdapt
7，修改 V2 最後部分減小計算

　　個人感覺沒有V1，V2 那麼驚豔（沒有革命性的東西），但是確實是對V2 各部分進行優化，結合了最新的東西，引入了新的啟用函式，堆了一堆trick 來提速。

1，摘要

　　我們展示了基於互補搜尋技術和新穎架構設計相結合的下一代 MobileNets。MobileNetV3通過結合硬體感知網路架構搜尋（NAS）和 NetAdapt演算法對移動設計如何協同工作，利用互補的方法來提高整體水平。通過這個過程，我們建立了兩個新的釋出的 mobileNet模型：MobileNetV3-Large 和 MobileNetV3-Small，他們針對高資源和低資源用例。然後將這些模型應用於目標檢測和語義分割。針對語義分割（或任何密集畫素預測）任務，我們提出了一種新的高效分割解碼器 Lite reduce Atrous Spatial Pyramid Pooling（LR-ASPP）。我們實現了移動分類，檢測和分割的最新技術成果。與 MobileNetV2 相比，MobileNetV3-Large 在 ImageNet 分類上的準確率提高了 3.2%，同時延遲降低了 20%。與 MobileNetV2 相比，MobileNetV3-small 的準確率高 6.6%，同時延遲降低了 5%。與 MobileNetV3-Large 檢測速度比 MobileNetV2 快 25%，在COCO檢測上的精度大致相等。MobileNetV3-Large LR-ASPP 的速度比 MobileNetV2 R-ASPP 快 30%，在城市景觀分割，MobileNetV3-Large LR-ASPP 比 MobileNet V2 R-ASPP 快 34%。

　　圖1，Pixel 1 延遲與 top-1 ImageNet 準確性之間的權衡。所有模型均使用輸入解析度 224。大V3和小V3使用乘數 0.75,1和1.25顯示最佳邊界。所有延遲都是使用 TFLite【1】在同一裝置的單個大核心上測量的。MobileNetV3-Small和 Large是我們建議的下一代移動模型。

　　圖2：MAdds 和 top-1 精度之間的衡量。這允許比較針對不同硬體或軟體框架的模型。所有 MobileNet V3 的輸入解析度均為 224，並使用乘數 0.35， 0.5， 0.75， 1 和 1.25 。有關其他解析度，請參考第6節。彩色效果最佳。

1，簡介

　　高效的神經網路在移動應用程式中變得無處不在，從而實現全新的裝置上的體驗。他們也是個人隱私的關鍵推動者，允許使用者獲得神經網路的好處，而不需要將資料傳送到伺服器進行評估。神經網路效率的提升不僅通過更高的精度和更低的延遲來改善使用者體驗，還通過降低功率損耗來幫助保持電池壽命。

　　本文描述了我們開發 MobilenetV3 大型和小型模型的方法，以提供下一代高精度高效的神經網路模型來驅動裝置上的計算機視覺。新的網路推動了最新技術的發展，並展示瞭如何將自動化搜尋與新的體系結構進步結合起來，以構建有效的模型。

　　本文的目標是開發最佳的移動計算機視覺架構，以優化移動裝置上的精確延遲交換。為了實現這一點，我們引入了（1）互補搜尋技術，（2）適用於移動裝置的非線性的新高效版本，（3）新的高效網路設計，（4）一個新的高效分割解碼器。我們提供了深入的實驗，以證明每種技術在廣泛的用例和行動電話上評估的有效性和價值。

　　論文組織如下。我們從第二節中有關工作的討論開始。第三節回顧了用於移動模型的高效構建塊。第四節回顧了體系結構搜尋以及 MnasNet 和 NetAdapt 演算法的互補性。第五節描述了通過聯合搜尋提高模型效率的新型架構設計。第六節介紹了大量的分類，檢測和分割實驗，以證明有效性和理解不同元素的貢獻。第七節載有結論和今後的工作。

2，相關工作

　　設計深度神經網路結構來實現精度和效率之間的最優平衡是近年來一個活躍的研究領域。無論是新穎的手工結構還是演算法神經結構搜尋，都在這一領域發揮了重要作用。

　　SqueezeNet【22】廣泛使用帶有擠壓和擴充套件模組的1*1 卷積，主要集中於減少引數的數量。最近的工作將關注點從減少引數轉移到減少操作的數量（MAdds）和實際測量的延遲。MobileNetV1【19】採用深度可分離卷積，大大提高了計算效率。MobileNetV2【39】在此基礎上進行了擴充套件，引入了一個具有反向殘差和線性瓶頸的資源高效塊。ShuffleNet【49】利用組卷積和通道洗牌操作進一步減少 MAdds。冷凝集【21】在訓練階段學習組卷積，以保持層與層之間有用的緊密連線，以便功能重用。ShiftNet【46】提出了與點向卷積交織的移位操作，以取代昂貴的空間卷積。

　　為了使體系結構設計過程自動化，首先引入了強化學習（RL）來搜尋具有競爭力的精度的高效體系結構【53， 54， 3， 27， 35】。一個完全可配置的搜尋空間可能會以指數級增長且難以處理。因此，早期的架構搜尋工作主要關注單元級結構搜尋，並且在所有層中重用相同的單元。最近，【43】探索了一個塊級分層搜尋空間，允許在網路的不同解析度塊上使用不同的層結構。為了降低搜尋的計算成本，在【28， 5， 45】中使用了可微架構搜尋框架，並進行了基於梯度的優化。針對現有網路適應受限移動平臺的問題，【48， 15， 12】提出了更高效的自動化網路簡化演算法。

　　量化【23， 25， 37， 41， 51， 52， 37】是另外一個重要的補充努力，以提高網路效率通過降低精度的演算法。最後，知識蒸餾【4， 17】提供了一種附加的補充方法，在大型“教師”網路的指導下生成精確的小型“學生”網路。

　　將上述翻譯總結一下，即目前常用的一些減少網路計算量的方法：

基於輕量化網路設計：比如 MobileNet 系列，ShuffleNet系列，Xception等，使用Group卷積，1*1 卷積等技術減少網路計算量的同時，儘可能的保證網路的精度。
模型剪枝：大網路往往存在一定的冗餘，通過減去冗餘部分，減少網路計算量。
量化：利用 TensorRT 量化，一般在 GPU 上可以提速幾倍
知識蒸餾：利用大模型（teacher model）來幫助小模型（student model）學習，提高 student modelde 精度。

　　mobileNet系列當然是典型的第一種方法。

3，高效的移動建築塊

　　移動模式已經建立在越來越高效的基礎之上。MobileNetV1【17】引入深度可分離卷積作為傳統卷積層的有效替代。深度可分離卷積通過將空間濾波與特徵生成機制分離，有效的分解了傳統卷積。深度可分離卷積由兩個獨立的層定義：用於空間濾波的輕量級深度卷積和用於特徵生成的較重的1*1點卷積。

　　MobileNetV2【37】引入了線性瓶頸和反向殘差結構，以便利用問題的低秩性質使層結構更加有效。這個結構如圖3所示，由1*1 展開卷積，深度卷積和1*1 投影層定義。當且僅當他們具有相同數量的通道時，輸入和輸出才通過剩餘連線進行連線。這種結構在輸入和輸出處保持了緊湊的表示，同時在內部擴充套件到高維特徵空間，以便增加非線性每個通道轉換的表達能力。

　　MnasNet 建立在 MobileNetV2 結構上，通過在瓶頸結構中引入基於擠壓和激勵的輕量級注意模組。注意：與【20】中提出的基於 ResNet 的模組相比，擠壓和激勵模組整合在不同的位置。模組位於展開中的深度過濾器之後，以便注意應用於最大的表示，如圖4所示。

　　對於MobileNet V3，我們使用這些層的組合作為構建塊，以便構建最有效的模型。層也升級與修改的 swish 非線性【34】。擠壓和激勵以及 swish 非線性都使用了 Sigmoid，它的計算效率很低，而且很難在定點演算法中保持精度，因此我們將其替換為硬 Sigmoid，如5.2 節所討論的。

4，網路搜尋

　　網路搜尋已被證明是發現和優化網路架構的一個非常強大的工具。對於MobilenetV3，我們使用平臺感知的 NAS 通過優化每個網路塊來搜尋全域性網路結構。然後，我們使用 NetAdapt 演算法搜尋每個層的過濾器數量。這些技術是互補的，可以結合起來為給定的硬體平臺有效的找到優化模型。

4.1 使用NAS感知平臺進行逐塊（Blockwise）搜尋

　　與【43】類似，我們採用平臺感知神經結構方法來尋找全域性網路結構。由於我們使用相同的基於RNN的控制器和相同的分解層次搜尋空間，所以對目標延遲在 80ms 左右的大型移動模型，我們發現了與【43】類似的結果。因此，我們只需重用與初始大型移動模型相同的 MnasNet-A1【43】，然後在其上應用 NetAdapt【48】和其他優化。

　　然而，我們發現原始的獎勵設計並沒有針對小型手機模型進行優化。具體來說，它使用一個多目標獎勵 ACC(m)*[LAT(m)/TAR]w 來近似 pareto 最優解，根據目標延遲 TAR 為每個模型 m 平衡模型精度 ACC(m) 和延遲 LAT(m) 。我們觀察到精度變化更顯著延遲小模型，因此，我們需要一個較小的重量係數 w=0.15（vs 原始 w=-0.07）來彌補大精度變化不同的延遲。在新的權重因子 w 的增強下，我們從頭開始一個新的架構搜尋，以找到初始的 seed 模型，然後應用 NetAdapt 和其他優化來獲得最終的 MobileNetV3-Small模型。

4.2 使用NetAdapt 進行 Layerwise 搜尋

　　我們在架構搜尋中使用的第二種技術是 NetAdapt【48】。這種方法是對平臺感知 NAS 的補充：它允許以順序的方式對單個層進行微調，而不是試圖推斷出粗糙但全域性的體系結構。詳細請參閱原文。簡而言之，這項技術的進展如下：

　　1，從平臺感知 NAS 發現的種子網路體系結構開始。

　　2，對於每一個步驟：

　　　　（a）提出一套新的建議。每個提議都表示對體系結構的修改，與前一步相比，該體系結構至少可以減少延遲。

　　　　（b）對於每一個提議，我們使用前一個步驟的預先訓練的模型，並填充新提出的架構，適當地截斷和隨機初始化缺失的權重。對於 T 步的每個建議進行微調，以獲得對精度的粗略估計。

　　　　（c）根據某種標準選擇最佳建議

　　3，重複前面的步驟，直到達到目標延遲。

　　在【48】中，度量是為了最小化精度的變化。我們修改了這個演算法，使延遲變化和精度變化的比例最小化。也就是說，對於每個 NetAdapt 步驟中生成的所有建議，我們選擇一個最大化的建議： ACC/latency。延遲滿足2（a）中的約束。直覺告訴我們，由於我們的建議是離散的，所以我們更喜歡最大化權衡曲線斜率的建議。

　　這個過程重複進行，直到延遲達到目標，然後從頭開始重新培訓新的體系結構。我們使用與在【46】中為 MobileNetV2 相同的提案生成器。具體來說，我們允許以下兩種建議：

　　1，減少任何擴充套件層的尺寸

　　2，減少共享相同瓶頸大小的所有塊中的瓶頸——以維護剩餘連線

　　在我們的實驗中，我們使用 T=10000，並發現雖然它增加了提案的初始微調的準確性。然而，當從零開始訓練時，它通常不會改變最終的精度。設 δ = 0.01|L|，其中L為種子模型的延遲。

5，網路提升

　　除了網路搜尋，我們還為模型引入了一些新的元件，以進一步改進最終模型。在網路的開始和結束階段，我們重新設計了計算昂貴的層。我們還引入了一種新的非線性，h-swish，它是最近的 swish非線性的改進版本，計算速度更快，更易於量化。

5.1 重新規劃昂貴的層

　　一旦通過架構搜尋找到模型，我們就會發現，一些最後的層以及一些較早的層比其他層更昂貴。我們建議對體系結構進行一些修改，以減少這些慢層的延遲，同時保持準確性。這些修改超出了當前搜尋空間的範圍。

　　第一個修改將重新處理網路的最後幾層是如何互動的，以便生成最終層功能更有效率。目前的模型基於 MobileNetV2 的倒瓶頸結構和變體，使用1*1 卷積作為最後一層，以擴充套件高維特徵空間。這一層非常重要，因為它具有豐富的預測功能。然而，這是以額外的延遲為代價的。

　　為了減少延遲並保留高維特徵，我們將該層移到最終的平均池之外。最後一組特徵現在計算為 1*1 空間解析度，而不是 7*7 的空間解析度。這種設計選擇的結果是，在計算和延遲方面，特徵的計算變得幾乎是免費的。

　　一旦降低了該特徵生成層的成本，就不再需要以前的瓶頸投影層來減少計算量。該觀察勻速我們刪除前一個瓶頸層中的投影和過濾層，從而進一步降低計算複雜度。原始階段和優化後的階段如圖5所示。有效的最後一個階段將延遲減少 10毫秒，即 15% 的執行時間，並將運算元量減少了 3000 萬個 MAdd ，幾乎沒有損失精度。第六節包含了詳細的結果。

　　另一個昂貴的層是初始化過濾器集。目前的移動模型傾向於在一個完整的 3*3 卷積中使用 32個濾波器來構建初始濾波器庫進行邊緣檢測。通常這些過濾器是彼此的映象。我們嘗試減少濾波器的數量，並使用不同的非線性來嘗試減少冗餘。我們決定對這一層使用硬 swish 非線性，因為它的表現和其他非線性測試。我們能夠將過濾器的數量減少到 16 個，同時保持與使用 ReLU 或 swish 的 32個過濾器相同的精度。這節省了額外的 3 毫秒和 1000 萬 MAdds。

5.2 非線性

　　在【36,13,16】中引入了一種稱為 swish 的非線性，當作為 ReLU 的替代時，它可以顯著提高神經網路的精度。非線性定義為：

　　雖然這種非線性提高了精度，但是在嵌入式環境中，它的成本是非零的，因為在移動裝置上計算Sigmoid函式要昂貴的多。我們用兩種方法處理這個問題。

　　1，我們將 Sigmoid 函式替換為它的分段線性硬模擬：ReLU6(x + 3)/6，類似於【11,44】。較小的區別是，我們使用的是 ReLU6，而不是自定義的裁剪常量。類似的，Swish的硬版本也變成了

　　最近在【2】中也提出了類似的 hard-swish 版本。圖6顯示了 Sigmoid和 Swish 非線性的軟，硬版本的比較。我們選擇常量的動機是簡單，並且與原始的平滑版本很好地匹配。在我們的實驗中，我們發現所有這些函式的硬版本在精度上沒有明顯的差異，但是從部署的角度來看，他們具有多種優勢。首先，幾乎所有的軟體和硬體框架上都可以使用 ReLU6 的優化實現。其次，在量子化模式下，它消除了由於近似 Sigmoid 的不同實現而帶來的潛在的數值精度損失。最後，即使優化了量化的 Sigmoid實現，其速度也比相應的 ReLU 慢的多。在我們的實驗中，使用量化模式下的 swish 替換 h-swish 使推理延遲增加了 15%。

　　2，隨著我們深入網路，應用非線性的成本會降低，因為每層啟用記憶體通常在解析度下降時減半。順便說一句，我們發現 swish 的大多數好處都是通過只在更深的層中使用他們實現的。因此，在我們的架構中，我們只在模型的後半部分使用 h-swish。我們參照表1和表2來獲得精確的佈局。

　　即使有了這些優化，h-swish 仍然會引入一些延遲成本。然而正如我們在第六節證明準確性和延遲的淨效應是沒有優化積極的，大量使用時一個優化的實現基於分段函式。即使這些優化，h-swish還介紹了延遲成本。然而正如我們在第六節證明準確性和延遲的淨效益是積極沒有優化，大量使用時一個優化的實現基於分段函式。

5.3 大的壓縮和啟用

　　在【43】中，壓縮和啟用瓶頸的大小與卷積瓶頸的大小有關。取而代之的是，我們將他們全部替換為固定為膨脹層通道數的 1/4。我們發現這樣做可以在適當增加引數數量的情況下提高精度，並沒有明顯的延遲成本。

5.4 MobileNetV3 定義

　　MobileNetV3 被定義為兩個模型：MobileNetV3-Large 和 MobileNetV3-Small。這些模型針對的是高資源用例和低資源用例。通過應用平臺感知的 NAS 和 NetAdapt 進行網路搜尋，並結合本節定義的網路改進，可以建立模型，我們網路的完整規範見表1和表2。

6，實驗

　　我們提供了實驗結果來證明新的 MobileNet V3模型的有效性。我們報告實驗分類，檢測和分割的結果。我們也報告各種消融研究，以闡明各種設計決策的影響。

6.1 分類

　　由於已經成為標準，我們在所有分類實驗中都是由 ImageNet【38】，並將準確度與各種資源實驗度量（如延遲和乘法加法（MAdds））進行比較。

　　實驗的分類部分，土豪谷歌實驗了16塊 TPU，batchsize設定為 4096進行訓練，然後作者選擇在谷歌的 Pixel Phone 進行測試。

6.1.1 訓練設定

　　我們在 4*4 TPU Pod【24】上使用 0.9 動量的標準 TensorFlow RMSProp Optimizer 進行同步訓練。我們使用初始學習率為 0.1，批次大小為 4096（每個晶片 128 張圖片），學習率衰減率為 0.01 每三個週期。我們使用 dropout of 0.8 ，l2 的權重衰減為 1e-5.用於與 Inception【40】相同的影像預處理。最後，我們使用衰減為 0.9999 的指數移動平均。我們所有的卷積層都使用批次處理歸一化層，平均衰減為 0.99。

6.1.2 測試設定

　　為了測試延遲，我們使用標準的谷歌畫素手機，並通過標準的 TFLite 基準測試工具執行所有網路。我們在所有測試中都使用單執行緒大核心。我們沒有報告多核推理時間，因為我們發現這種設定對移動應用程式不太實用。

　　上圖為作者在ImageNet網路的測試結果，結果可以看出 V3 Large 相比較於 V2 1.0 精度上提高了大約3個點，但是速度上從 64降到了51（Pixel-1 手機），V3 small 相較於 V2 0.35 ，精度提升了大約 7個點，速度稍有提升，從 16.5ms 到 15.8ms（Pixel-1 手機）

6.2 結果

　　如圖1所示，我們的模型優於目前的技術狀態，如 MnasNet，ProxylessNas 和 MobileNetV2。我們在表3中報告了不同畫素手機上的浮點效能。我們在表4中包括量化結果。

　　在圖7中，我們展示了MobileNet V3 效能權衡作為乘法和解析度的函式。請注意，MobileNetV3-Small 的效能比 MobilenetV3-Large 的效能好很多，其乘法器縮放到與效能匹配的倍數接近3%。另一方面，決議提供了比乘數更好的權衡。但是，需要注意的是，解析度通常是由問題決定的（例如分割和檢測問題通常需要更高的解析度），因此不能總是用作可調引數。

　　表5中非線性的影響 我們研究在哪裡插入 h-swish 非線性以及使用一個優化的改進實現了獨立的實現。可看出，使用一個優化的 h-swish 節省 6 ms（超過 10%的執行時）。優化 h-swish 比起傳統的 ReLU 只會增加一個額外 1ms

　　圖8顯示了基於非線性的選擇和網路的有效邊界寬度。MobileNetV3 使用 h-swish 中間的網路和支配 ReLU。有趣的是要注意，新增 h-swish 整個網路是略優於插值擴大網路的前沿。

　　其他元件的影響 在圖9中，我們展示了不同元件的引入是如何沿著延遲/準確率曲線移動的。

　　上圖對比了在不同谷歌手機上面，模型量化後（float量化，非int8量化）的耗時，其中P-1，P-2，P-3 分別代表的是不同效能的手機。這裡說一下 V3-Large網路，可見量化後，Top-1 精度從下面的 70.9 上升到 73.8ms，符合政策情況，在P1-P3的加速效果來看P1 加速了 8ms，P2加速了6ms，P-3加速了5ms，與V2網路相比，提速快一些。但是V3-Small 在量化後提速效果不大。

　　上圖是作者實驗了使用不同解析度以及不同的模型深度的精度的對比，解析度分別選擇的是【96,128,160,192,224,256】，深度分辨選為原來的【0.35,0.5,0.75,1.0,1.25】。可見，其實resolution 對於精度以及速度的平衡效果更好，可以達到更快的速度，同時精度沒有改變模型深度低，反而更高。

　　上圖展示了MobileNet V3中單個元件的影響，過程是測試移動到右邊。

6.3 檢測

　　在 SSDLite中，我們使用 MobileNet V3作為骨幹特徵題器的替代，並與COCO dataset 上的其他骨幹網路進行了對比。

　　在MobileNet V2之後，我們將第一層 SSDLite 附加到輸出步長為 16 的最後一個特徵提取器層，並將第二層 SSDLite 附加到輸出步長為 32 的最後一個特徵提取器層。根據檢測文獻，我們將這兩個特徵提取層分別稱為 C4和 C5.對於MobileNet V3-Large，C4是第13 個瓶頸塊的膨脹層。對於 MobileNetV3-Small ,C4是第9個瓶頸層的膨脹層。對這兩個網路，C5都是池化層之前的一層。

　　我們還將 C4和 C5之間的所有特徵層的通道數減少2。這是因為 MobileNetV3的最後幾層被調優為輸出 1000 類，當將 90 個類轉移到 COCO 時，這可能是多餘的。

　　COCO 測試集的結果如表6所示。在通道縮減的情況下，MobileNetV3-Large 比具有幾乎相同對映的 MobileNetV2快 25%。在相同的延遲下，MobileNet V3 比 MobileNet V2和 MnasNet 高 2.4 和 0.5 。對於這兩種 MobileNet V3模型，通道減少技巧在沒有地圖丟失的情況下可以減少大約 15% 的延遲，這表明 ImageNet 分類和 COCO物件檢測可能更喜歡不同的特徵提取器形狀。

6.4 語義分割

　　在本小節中，我們使用 MobileNetV2 和提出的 MobileNetV3作為移動語義分割的網路骨架。此外，我們比較了兩個分割頭。第一個是在【39】中提出的 R-ASPP。R-ASPP是一種無源空間金字塔池化模組的簡化設計，它只是採用由11個卷積和一個全域性平均池化操作組成的兩個分支。在本文中，我們提出了另一種輕量級分割頭，稱為 Lite R-ASPP（或 LR-ASPP），如圖10所示，Lite R-ASPP是對 R-ASPP的改進，它部署全域性平均池化的方式類似於擠壓-啟用模組，其中我們使用了一個大的池核心，具有較大的步長（以節省一些計算），並且模組中只有一個 11 個卷積。我們對 MobileNet V3 的最後一個塊應用 Atrous Conv 來提取更密集的特性，並進一步從底層特性新增一個跳過連線來捕獲更詳細的資訊。

　　我們使用獨立 mIOU 對 CityScapes 資料集進行了實驗，只使用了fine 註釋。我們採用與【8,39】相同的訓練方案。我們所有的模型都是從零開始訓練，沒有使用ImageNet[36] 進行預訓練，並且使用單尺度輸入進行評估。與目標檢測類似，我們發現我們可以在不顯著降低效能的情況下，將網路主幹最後一塊的通道減少2倍。我們認為這是因為主幹網路設計了 1000 類 ImageNet 影像分類，而Cityscapes 只有 19類，這意味著主幹網路存在一定的通道冗餘。

7，總結和未來工作

　　在這篇文章中，我們介紹了 MobilenetV3大大小小的模型，展示了在移動分類，檢測和分割方面的最新技術。我們描述了我們的努力，利用多種型別的網路架構搜尋以及先進的網路設計，以交付下一代移動模型。我們還展示瞭如何適應非線性，如swish 和應用壓縮和激勵的量化友好和有效的方式，將他們作為有效的工具引入移動模型領域。我們還介紹了一種新的輕量級分割解碼器，稱為 LR-ASPP。儘管如何將自動搜尋技術與人類直覺最好地結合起來仍然是一個懸而未決的問題，但我們很高興的展示了這些初步的積極結果，並將在未來的工作中繼續改進這些方法。