谷歌開源最新語義影像分割模型DeepLab-v3+

机器之心發表於2018-03-13

原文網址 : http://www.jiqizhixin.com/articles/2018-03-13-3

剛剛，谷歌開源了語義影像分割模型 DeepLab-v3+，DeepLab-v3+結合了空間金字塔池化模組和編碼器-解碼器結構的優勢，是自三年前的 DeepLab 以來的最新、效能最優的版本。

GitHub 地址：https://github.com/tensorflow/models/tree/master/research/deeplab

語義影像分割任務是指將語義標籤（例如「道路」、「天空」、「人」、「狗」）分配給影像中的每一個畫素，這種技術有很多新應用，例如，Pixel 2 和 Pixel 2 XL 智慧手機中肖像模式的合成淺景深效應，以及移動裝置的實時語義分割等。分配這些語義標籤的時候需要精準定位目標的輪廓，因此相比其他的視覺實體識別任務（如影像級分類或邊界框級檢測等），該任務需要更高的定位準確率。

谷歌開源最新語義影像分割模型DeepLab-v3+

今天，谷歌開源了其最新、效能最優的語義影像分割模型 DeepLab-v3+ [1]，該模型使用 TensorFlow 實現。DeepLab-v3+ 模型建立在一種強大的卷積神經網路主幹架構上 [2,3]，以得到最準確的結果，該模型適用於伺服器端的部署。此外，谷歌還分享了他們的 TensorFlow 模型訓練和評估程式碼，以及在 Pascal VOC 2012 和 Cityscapes 基準語義分割任務上預訓練的模型。

自三年前谷歌釋出第一個版本的 DeepLab 模型 [4] 以來，CNN 特徵提取器、目標尺度建模技術、語境資訊處理、模型訓練流程、深度學習硬體和軟體的不斷改進和優化，促使該模型升級到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通過新增一個簡單而有效的解碼器模組以精煉分割結果（尤其是在目標邊界處），將 DeepLab-v3 擴充套件為 DeepLab-v3+。他們還進一步將深度可分卷積（depthwise separable convolution）應用到金字塔型的空洞池化（Atrous Spatial Pyramid Pooling，ASPP）[5, 6] 和解碼器模組上，以得到更快更強大的語義分割編碼器-解碼器網路。

谷歌開源最新語義影像分割模型DeepLab-v3+

現代語義影像分割系統都是建立在卷積神經網路之上，並達到了五年前無法想象的準確率，這得歸功於方法、硬體和資料集的優化。谷歌希望通過和社群共享該系統，學界和業界能更容易地復現和提升當前最優系統，在新的資料集上訓練模型，以及為該技術開發新的應用。

論文：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

谷歌開源最新語義影像分割模型DeepLab-v3+

論文連結：https://arxiv.org/abs/1802.02611

摘要：深度神經網路使用空間金字塔池化模組或編碼器-解碼器結構執行語義分割任務。前者通過在多個 rate、多個有效視野上用濾波器探測輸入特徵或執行池化操作，來編碼多尺度的上下文資訊；後者通過逐漸恢復空間資訊來捕捉更加精細的目標邊界。在這項研究中，我們將二者的優勢結合起來。具體來說，我們通過新增一個簡單有效的解碼器模組以精煉分割結果（尤其是目標邊界），將 DeepLab-v3 擴充套件為本文提出的新模型 DeepLab-v3+。我們進一步探索了 Xception 模型，並將深度可分卷積應用到金字塔型的空洞池化（ASPP）和解碼器模組上，以得到更快更強大的編碼器-解碼器網路。我們在 PASCAL VOC 2012 語義影像分割資料集上證明了該模型的有效性，在沒有任何後處理的情況下該模型達到了 89% 的準確率。

參考閱讀：

資源 | 從全連線層到大型卷積核：深度學習語義分割全指南

原文連結：https://research.googleblog.com/2018/03/semantic-image-segmentation-with.html

谷歌開源最新語義影象分割模型DeepLab-v3+
2018-03-13
谷歌模型
Pixellib語義分割-影像背景替換
2024-06-22
影像語義分割資料增強——imgaug（二）
2020-11-02
Ai影像分割模型PaddleSeg——自定義資料集處理
2021-08-10
AI模型
三維點雲語義分割模型介紹
2018-11-18
模型
31-語義分割
2024-08-29
使用LabVIEW實現基於pytorch的DeepLabv3影像語義分割
2022-11-04
ViewPyTorch
標註案例分享：自動駕駛影像語義分割丨曼孚科技
2020-12-29
自動駕駛
Meta AI 開源萬物可分割 AI 模型(SAM)
2023-04-11
AI模型
剛剛，Meta開源「分割一切」2.0模型，影片也能分割了
2024-07-30
模型
常用語義分割資料集
2021-01-03
推理水平對標OpenAI o1！阿里雲通義開源最新推理模型QwQ
2024-11-28
OpenAI阿里模型
李飛飛等人提出Auto-DeepLab：自動搜尋影像語義分割架構
2019-01-14
架構
技術圈週刊｜谷歌釋出最新開源 AI 大模型 Gemma，筆記本上即可執行
2024-02-24
谷歌AI大模型Gemma筆記
10個最新開源大模型Llama 3應用
2024-04-22
大模型
如何使用Mask RCNN模型進行影像實體分割？
2019-03-04
CNN模型
谷歌提出最新引數優化方法Adafactor，已在TensorFlow中開源
2019-03-04
谷歌優化
【影像分割】基於四叉樹影像分割matlab
2020-11-02
Matlab
語義分割的標準度量MIoU
2020-10-28
蘋果OpenELM：開源小語言模型
2024-04-25
蘋果模型
基於Go的語義解析開源庫FMR，“屠榜”模型外的NLP利器
2019-09-30
Go模型
谷歌釋出人體影像分割工具BodyPix 2.0，可在iPhone上流暢執行
2019-11-20
谷歌iPhone
人工智慧大模型之開源大語言模型彙總（國內外開源專案模型彙總）
2024-06-21
人工智慧大模型
開源大語言模型作為 LangChain 智慧體
2024-02-22
模型LangChain智慧體
語義分割網路 U-Net 詳解
2019-08-28
效能超越何愷明Mask R-CNN！華科大開源影像分割新方法
2019-05-15
CNN
港科大開源VideoVAE+，影片重建質量全面超越最新模型
2024-12-30
IDE模型
谷歌宣佈開源AdaNet！
2018-11-02
谷歌
OLAP多維語義模型（一）
2024-01-02
模型
CosyVoice多語言、音色和情感控制模型，one-shot零樣本語音克隆模型本地部署(Win/Mac),通義實驗室開源
2024-07-07
模型Mac
詳解計算機視覺五大技術：影像分類、物件檢測、目標跟蹤、語義分割和例項分割...
2018-04-19
計算機視覺物件
演算法影像崗-影像分類與影像分割
2020-11-08
演算法
精度高、模型小、速度快！梯形DenseNets結構實現語義分割新高度！
2019-05-16
模型SENet
ChatGPT要慌了？谷歌推出最新AI大模型Gemma（可本地部署）
2024-03-02
ChatGPT谷歌AI大模型Gemma
開源專案中，如何遵循語義化版本控制
2020-12-01
知物由學 | 弱監督語義分割：從影像級標註快進到畫素級預測
2022-03-30
YOLOv9：在自定義資料上進行影像分割訓練
2024-04-22
YOLO
谷歌開源的 GAN 庫–TFGAN
2019-03-01
谷歌

谷歌開源最新語義影像分割模型DeepLab-v3+

資源 | 從全連線層到大型卷積核：深度學習語義分割全指南

相關文章