GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

AIBigbull2050發表於2019-12-16
導語:ICCV 論文解讀 - 商湯

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

雷鋒網AI科技評論按:本文由商湯科技投稿,簡要介紹商湯科技研究團隊在 ICCV2019 上錄用的一篇文章:Geometry NormalizationNetworks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網路。

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

該文章透過對待處理影像的特徵圖進行幾何變換,從而將待處理影像中幾何分佈差異較大的文字框歸一化到一定的幾何分佈範圍內,提高了自然場景下文字測檢的效果。


一、研究背景

隨著深度學習的迅速發展,計算機視覺技術對實際生產具有影響越來越重要的影響。對影像中的文字進行檢測和識別,有助於計算機理解視覺內容。

由於卷積神經網路(CNN)方法的通用性,自然場景文字檢測受益於常規物體檢測而快速發展。但由於自然場景中的文字在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰。

對於尺度變化問題,現有方法一般透過使用一個檢測頭(detection header)對不同層級的特徵進行檢測,利用 NMS 融合結果後作為輸出或者使用類似 FPN [1] 的網路將多尺度特徵融合然後進行文字檢測。

對於角度變化問題,現有方法一般透過直接回歸文字框角度或使用對方向敏感的卷積來預測任意方向。

但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detectionheader)僅在所有訓練樣本中一個子集進行學習,這可能導致效能欠佳。

作者研究了幾何分佈對場景文字檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文字幾何分佈,但充分利用所有訓練的樣本可以提高其泛化能力。

為了解決上述難題,作者提出了一種新穎的幾何規範化模組(GNM)。每個自然場景圖片中的文字例項可以透過 GNM 歸一化到一定的幾何分佈範圍內。這樣所有訓練樣本均被歸一化為有限的分佈,因此可以有效地訓練一個共享的文字檢測頭。

本文提出的 GNM 是通用的,可以直接將該模組插入到任何基於 CNN 的文字檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)併發布。雷鋒網 (公眾號:雷鋒網)


二、方法描述 

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

Fig.1. Overall architecture.

Fig. 1 是 GNNets 的整體網路結構圖。總體網路結構由 Backbone,GNM,SharedText Detection Header 組成。透過 Backbone 提取的特徵圖會被輸入到具有多個分支的幾何規範化模組(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。

SNU 有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。透過 SNU 和 ONU 的不同組合,GNM 會生成不同的幾何歸一化特徵圖,這些特徵圖將被輸入到一個共享文字檢測標頭中。 

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

Fig.2. ONU.

Fig.2 是作者提出的 ONU 模組的示意圖。透過應用 ONU 可以更改文字框方向。如圖所示「綠色」框是原始框,「灰色」框是轉換過程中的中間框,「紅色」框是 ONU 的輸出的結果框。

θ和θ' 分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是 O,Or,Of,Or + f 的過程的示意圖。由上圖可以簡單明瞭的表示 ONU 具有將 [0,π/4],[-π/2,-π/4],[-π/4,0] 和 [π/4,π/2] 角度的文字轉換為在 [0,π/4] 角度的文字。

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

Fig.3. Architecture of GNM.

 Fig. 3 展示了 GNM 在網路中的結構設定。對於 SNU 中的 S 使用 1x1 的卷積操作和 3x3 的卷積操作;S1/2 使用 1X1 的卷積,步長為 2 的下采樣以及 3x3 的卷積。對於 ONU 中的 O,Or,Of,Or + f 中的 Operations 則分別採用不操作,旋轉 feature maps,翻轉 feature maps 和旋轉後再翻轉 feature maps。

由於多分支網路的影響,作者提出了一個針對 GNNets 的抽樣訓練策略。

在訓練期間,作者隨機取樣一個文字例項,並透過旋轉和調整大小 7 次來對其進行擴充,以使 GNM 的每個分支在每批次中都具有有效的文字例項用於訓練。這樣可以對 GNM 的所有分支進行統一訓練。並且在訓練過程中如果文字例項不在預先設定的幾何區間內,則忽略分支中的該文字例項。

在測試過程中,作者將 GNM 中所有分支輸出文字框相應地反向投影到原始比例和方向。不在分支預先設定的幾何區間內的文字框會被丟棄。其餘的文字框透過 NMS 合併。


三、實驗結果

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017MLT.

與原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分別實現了約 1.3%和 2.1%的效能提升。

與 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比,GNNet 的 F-score 比它們分別高出 8%和 9%。與 FTSN [7] 相比,獲得了 4.5%的效能提升。GNNets 在 ICDAR 2015 上的表現優於 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。並且 FOTS 使用了文字識別的資料。

在單尺度測試中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均達到了 state-of-the-art 的效能。Fig. 5 視覺化了 GNNets 和其他文字檢測方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的檢測結果。

GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019

Fig.5. Qualitative results on ICDAR2015 and ICDAR 2017 MLT. The right column shows GNNets results.


四、總結及討論

1、在本文中,作者提出了一種新穎的幾何歸一化模組(GNM)以生成多個幾何感知特徵圖。並且 GNM 是通用的,可以應用到任何基於 CNN 的檢測器中,以構建端到端的幾何歸一化網路(GNNet)。

實驗表明,GNNet 在檢測幾何分佈較大的文字例項方面相較於 baseline 表現出出色的效能。並且,GNNet 在兩個文字檢測主流的資料集上較最新的方法獲得了顯著的效能提升。

2、文中研究了幾何分佈對場景文字檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文字幾何分佈,但充分利用所有訓練的樣本可以提高其泛化能力,對後續文字檢測以及其他相關領域有啟發性影響。

3、綜上所述,文字檢測是 OCR 任務的首要前提,但自然場景下文字的字型變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰,本文為我們提出了目前研究方向上忽略的點,並提供了一個新穎的解決方法,但是相較與常規物體檢測,文字檢測領域仍然有其特殊性以及較大的提升空間。


參考文獻

[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR,2017.

[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.

[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.

[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification. 2017.

[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.

[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.

[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.

[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2668759/,如需轉載,請註明出處,否則將追究法律責任。

相關文章