Kaggle競賽第一名解決方案：使用預訓練權重輕鬆改進U-Net

機器之心發表於2018-01-21

程式碼地址（包含預訓練權重）：https://github.com/ternaus/TernausNet

隨著處理密集計算的計算機硬體的發展和平民化，研究者能夠處理擁有數百萬引數的模型。卷積神經網路在影像分類、目標識別、場景理解等領域都取得了極大的成功。對幾乎所有的計算機視覺問題，基於 CNN 的方法都優於其他技術，在很多情況下甚至超越了人類專家。目前，幾乎所有的計算機視覺應用嘗試使用深度學習技術來改進傳統方法。它們影響到我們的日常生活，且這些技術的潛在應用場景似乎也很驚人。

可靠的影像分割是計算機視覺領域的重要任務之一。該問題對醫療影像領域極為重要，可以提高診斷能力，在場景理解領域中有助於創造安全的自動駕駛汽車。密集影像分割本質上是把影像分為有意義的區域，可看作是畫素級別的分類任務。處理此類問題最直接（也緩慢）的方法是手動分割影像。然而，這種方法極為耗時，而且人類資料管理員不可避免地會出錯、存在不一致問題。自動化該過程能提供儘可能快的、系統性的影像分割。該過程需要達到一定的準確率，以在生產環境中使用。

在過去幾年中，研究者提出了不同的方法來解決該問題：創造一種 CNN，為一整張輸入影像在單個前向傳遞中生成分割圖。其中，最成功的最優方法基於全卷積網路（FCN）[2]。其核心思想是將 CNN 中的全連線層替換成卷積層，成為強大的特徵提取器，直接輸出空間特徵圖，而不是全連線層輸出的分類分數。然後，上取樣這些圖，生成密集的逐畫素輸出。該方法以端到端的方式訓練 CNN，分割任意大小的輸入影像。此外，在 PASCAL VOC 等標準資料集上，該方法極大地改進了分割的準確率。

後來，這一方法進一步被改進為 U-Net 神經網路 [4]，U-Net 架構使用跳過連線（skip connection）將低層特徵圖與高層特徵圖結合起來，帶來精確的畫素級定位。在上取樣部分，大量的特徵通道向更高的解析度層傳播上下文資訊。在衛星影像分析、醫療影像分析等二值影像分割競賽中，這種型別的網路架構已經證明了自己。

在此論文中，作者展示瞭如何使用預訓練權重輕鬆改進 U-Net 的效能。作者還將它應用到航空影像標註資料集 [8] 中，該資料集包含多個城市的高清航空影像。這些影像的每個畫素都被標註為「建築」或「非建築」類別。該架構另一個成功應用案例與初始化方案是 Kaggle Carvana 影像分割競賽 [9]，本論文作者之一使用它作為解決方案的一部分，獲得了第一名。

II. 網路架構

通常，U-Net 架構包含一個收縮路徑來捕捉上下文資訊，以及一個對稱的擴張路徑以進行精準的定位（見圖 1）。收縮路徑遵循典型的卷積網路架構，即交替卷積和池化運算，並逐步下采樣特徵圖，同時逐層增加特徵圖的數量。擴張路徑的每個階段由一個特徵圖上取樣和緊隨的卷積構成。