華科白翔教授團隊ECCV2018 OCR論文：Mask TextSpotter

深度学习大讲堂發表於2018-08-21

原文網址 : https://www.jiqizhixin.com/articles/2018-08-24-12

華中科技大學白翔老師團隊在自然場景文字檢測與識別領域成果頗豐，這篇被ECCV2018接收的論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出，最近，基於深度神經網路的模型已經主導了場景文字檢測和識別領域。在該文中，研究了場景“text spotting”的問題，其旨在自然影像中同時進行文字檢測和識別。

該文受到Mask R-CNN的啟發提出了一種用於場景text spotting的可端到端訓練的神經網路模型：Mask TextSpotter。與以前使用端到端可訓練深度神經網路完成text spotting的方法不同，Mask TextSpotter利用簡單且平滑的端到端學習過程，通過語義分割獲得精確的文字檢測和識別。此外，它在處理不規則形狀的文字例項（例如，彎曲文字）方面優於之前的方法。

在 ICDAR2013、ICDAR2015和Total-Text資料庫上的實驗表明，所提出的方法在場景文字檢測和端到端文字識別任務中都達到了state-of-the-art的水平。

彎曲形狀文字檢測與識別的例子：

左圖是水平text spotting方法的結果，它的檢測框是水平的；中間圖是具有方向的text spotting方法的結果，它的檢測框傾斜；右圖是該文提出的Mask TextSpotter演算法的結果，它的檢測框不是外接矩形而是一個最小外接多邊形，對這種彎曲文字達到了更精確的文字檢測和識別。

網路架構

網路架構由四部分組成，骨幹網feature pyramid network (FPN) ，文字候選區域生成網路region proposal network (RPN) ，文字包圍盒迴歸網路Fast R-CNN ，文字例項分割與字元分割網路mask branch。

訓練階段

RPN首先生成大量的文字候選區域，然後這些候選區域的RoI特徵被送入Fast R-CNN branch和mask branch，由它們去分別生成精確的文字候選包圍盒（text candidate boxes）、文字例項分割圖（text instance segmentation maps）、字元分割圖（character segmentation maps）。

尤其值得一提的是Mask Branch，如下圖：

它將輸入的RoI（固定大小16*64）經過4層卷積層和1層反摺積層，生成38通道的圖（大小32*128），包括一個全域性文字例項圖——它給出了文字區域的精確定位，無論文字排列的形狀如何它都能分割出來，還包括36個字元圖（對應於字元0～9，A～Z），一個字元背景圖（排除字元後的的所有背景區域），在後處理階段字元背景圖會被用到。

這是一個多工模型，其Loss 組成：

推理階段

推理階段mask branch的輸入RoIs來自於Fast R-CNN的輸出。

推理的過程如下：首先輸入一幅測試影像，通過Fast R-CNN獲取候選文字區域，然後通過NMS（非極大抑制）過濾掉冗餘的候選區域，剩下的候選區域resize後送入mask branch，得到全域性文字例項圖，和字元圖。通過計算全域性文字例項圖的輪廓可以直接得到包圍文字的多邊形，通過在字元圖上使用提出的pixel voting方法生成字元序列。