今年的ICCV,商湯科技及聯合實驗室共有57篇論文入選ICCV 2019(包含11篇Oral),同時在Open Images、COCO、LVIS等13項重要競賽中奪冠!
本文簡要介紹商湯科技研究團隊在ICCV2019上錄用的一篇文章:Geometry Normalization Networks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網路。該文章通過對待處理影像的特徵圖進行幾何變換,從而將待處理影像中幾何分佈差異較大的文字框歸一化到一定的幾何分佈範圍內,提高了自然場景下文字測檢的效果。
一、研究背景
隨著深度學習的迅速發展,計算機視覺技術對實際生產具有影響越來越重要的影響。對影像中的文字進行檢測和識別,有助於計算機理解視覺內容。由於卷積神經網路(CNN)方法的通用性,自然場景文字檢測受益於常規物體檢測而快速發展。但由於自然場景中的文字在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰。對於尺度變化問題,現有方法一般通過使用一個檢測頭(detection header)對不同層級的特徵進行檢測,利用NMS融合結果後作為輸出或者使用類似FPN [1]的網路將多尺度特徵融合然後進行文字檢測。對於角度變化問題,現有方法一般通過直接回歸文字框角度或使用對方向敏感的卷積來預測任意方向。但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detection header)僅在所有訓練樣本中一個子集進行學習,這可能導致效能欠佳。
作者研究了幾何分佈對場景文字檢測的影響,發現基於CNN的檢測器只能捕獲有限的文字幾何分佈,但充分利用所有訓練的樣本可以提高其泛化能力。為了解決上述難題,作者提出了一種新穎的幾何規範化模組(GNM)。每個自然場景圖片中的文字例項可以通過GNM歸一化到一定的幾何分佈範圍內。這樣所有訓練樣本均被歸一化為有限的分佈,因此可以有效地訓練一個共享的文字檢測頭。本文提出的GNM是通用的,可以直接將該模組插入到任何基於CNN的文字檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)併發布。
二、方法描述
Fig. 1是GNNets的整體網路結構圖。總體網路結構由Backbone,GNM,Shared Text Detection Header組成。通過Backbone提取的特徵圖會被輸入到具有多個分支的幾何規範化模組(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。SNU有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。 通過SNU和ONU的不同組合,GNM會生成不同的幾何歸一化特徵圖,這些特徵圖將被輸入到一個共享文字檢測標頭中。
Fig. 2是作者提出的ONU模組的示意圖。通過應用ONU可以更改文字框方向。如圖所示“綠色”框是原始框,“灰色”框是轉換過程中的中間框,“紅色”框是ONU的輸出的結果框。 θ和θ’分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是O,Or,Of,Or + f的過程的示意圖。 由上圖可以簡單明瞭的表示ONU具有將[0,π/4],[-π/2,-π/4],[-π/4,0]和[π/4,π/2]角度的文字轉換為在[0,π/4]角度的文字。 Fig. 3展示了GNM在網路中的結構設定。對於SNU中的S使用1x1的卷積操作和3x3的卷積操作;S1/2使用1X1的卷積,步長為2的下采樣以及3x3的卷積。對於ONU中的O,Or,Of,Or + f中的Operations則分別採用不操作,旋轉feature maps,翻轉feature maps和旋轉後再翻轉feature maps。
由於多分支網路的影響,作者提出了一個針對GNNets的抽樣訓練策略。 在訓練期間,作者隨機取樣一個文字例項,並通過旋轉和調整大小7次來對其進行擴充,以使GNM的每個分支在每批次中都具有有效的文字例項用於訓練。 這樣可以對GNM的所有分支進行統一訓練。並且在訓練過程中如果文字例項不在預先設定的幾何區間內,則忽略分支中的該文字例項。在測試過程中,作者將GNM中所有分支輸出文字框相應地反向投影到原始比例和方向。 不在分支預先設定的幾何區間內的文字框會被丟棄。 其餘的文字框通過NMS合併。
三、實驗結果
Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017 MLT.
與原始的PSENet[2] 相比,作者提出的GNNets在ICDAR 2015[3]和ICDAR 2017 MLT [4]上分別實現了約1.3%和2.1%的效能提升。與ICDAR 2015上的EAST[5]和ITN [6]相比,GNNet的F-score比它們分別高出8%和9%。與FTSN [7]相比,獲得了4.5%的效能提升。GNNets在ICDAR 2015上的表現優於FOTS [8],在ICDAR 2017 MLT上的F-score更超出其7.3%。並且FOTS使用了文字識別的資料。在單尺度測試中,作者提出的GNNets在ICDAR 2015和ICDAR 2017 MLT上均達到了state-of-the-art的效能。Fig. 5視覺化了GNNets和其他文字檢測方法在ICDAR 2015和ICDAR 2017 MLT上的檢測結果。
四、總結及討論1.在本文中,作者提出了一種新穎的幾何歸一化模組(GNM)以生成多個幾何感知特徵圖。並且GNM是通用的,可以應用到任何基於CNN的檢測器中,以構建端到端的幾何歸一化網路(GNNet)。實驗表明,GNNet在檢測幾何分佈較大的文字例項方面相較於baseline表現出出色的效能。並且,GNNet在兩個文字檢測主流的資料集上較最新的方法獲得了顯著的效能提升。
2.文中研究了幾何分佈對場景文字檢測的影響,發現基於CNN的檢測器只能捕獲有限的文字幾何分佈,但充分利用所有訓練的樣本可以提高其泛化能力,對後續文字檢測以及其他相關領域有啟發性影響。
3.綜上所述,文字檢測是OCR任務的首要前提,但自然場景下文字的字型變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰,本文為我們提出了目前研究方向上忽略的點,並提供了一個新穎的解決方法,但是相較與常規物體檢測,文字檢測領域仍然有其特殊性以及較大的提升空間。
參考文獻
[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR, 2017.
[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. Shape Robust Text Detection with Progressive Scale Expansion Network. arXiv preprint arXiv:1806.02559, 2018.
[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on Robust Reading. In ICDAR, 2015.
[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and Script Identification. http://rrc.cvc.uab.es/?ch=8&com=introduction, 2017.
[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR, 2017.
[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao. Geometry-Aware Scene Text Detection with Instance Transformation Network. In CVPR, 2018.
[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, and Weidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene Text Detection. In ICPR, 2018.
[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots: Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.