GNNets:自然場景下文字檢測的幾何歸一化網路 | ICCV 2019
雷鋒網AI科技評論按:本文由商湯科技投稿,簡要介紹商湯科技研究團隊在 ICCV2019 上錄用的一篇文章:Geometry NormalizationNetworks for Accurate Scene Text Detection(GNNets),針對自然場景下文字檢測的幾何歸一化網路。
該文章透過對待處理影像的特徵圖進行幾何變換,從而將待處理影像中幾何分佈差異較大的文字框歸一化到一定的幾何分佈範圍內,提高了自然場景下文字測檢的效果。
一、研究背景
隨著深度學習的迅速發展,計算機視覺技術對實際生產具有影響越來越重要的影響。對影像中的文字進行檢測和識別,有助於計算機理解視覺內容。
由於卷積神經網路(CNN)方法的通用性,自然場景文字檢測受益於常規物體檢測而快速發展。但由於自然場景中的文字在實際應用場景中具有較大的幾何變化(例如寬高比或文字方向),所以其自身仍存在巨大的挑戰。
對於尺度變化問題,現有方法一般透過使用一個檢測頭(detection header)對不同層級的特徵進行檢測,利用 NMS 融合結果後作為輸出或者使用類似 FPN [1] 的網路將多尺度特徵融合然後進行文字檢測。
對於角度變化問題,現有方法一般透過直接回歸文字框角度或使用對方向敏感的卷積來預測任意方向。
但目前的方法中要求檢測頭(detection header)需要學習到文字巨大的幾何差異或者檢測頭(detectionheader)僅在所有訓練樣本中一個子集進行學習,這可能導致效能欠佳。
作者研究了幾何分佈對場景文字檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文字幾何分佈,但充分利用所有訓練的樣本可以提高其泛化能力。
為了解決上述難題,作者提出了一種新穎的幾何規範化模組(GNM)。每個自然場景圖片中的文字例項可以透過 GNM 歸一化到一定的幾何分佈範圍內。這樣所有訓練樣本均被歸一化為有限的分佈,因此可以有效地訓練一個共享的文字檢測頭。
本文提出的 GNM 是通用的,可以直接將該模組插入到任何基於 CNN 的文字檢測器中。為了驗證提出方法的有效性,作者針對文字方向的差異性新建了一個測試集(Benchmark)併發布。雷鋒網 (公眾號:雷鋒網)
二、方法描述
Fig.1. Overall architecture.
Fig. 1 是 GNNets 的整體網路結構圖。總體網路結構由 Backbone,GNM,SharedText Detection Header 組成。透過 Backbone 提取的特徵圖會被輸入到具有多個分支的幾何規範化模組(GNM)中,每個分支由一個尺度歸一化單元(SNU)和方向歸一化單元(ONU)組成。
SNU 有兩個不同比例的尺歸一化單位(S,S1/2)和四個方向歸一化單位(O,Or,Of,Or + f)。透過 SNU 和 ONU 的不同組合,GNM 會生成不同的幾何歸一化特徵圖,這些特徵圖將被輸入到一個共享文字檢測標頭中。
Fig.2. ONU.
Fig.2 是作者提出的 ONU 模組的示意圖。透過應用 ONU 可以更改文字框方向。如圖所示「綠色」框是原始框,「灰色」框是轉換過程中的中間框,「紅色」框是 ONU 的輸出的結果框。
θ和θ' 分別是原始框和結果框的角度。(a),(b),(c)和(d)分別是 O,Or,Of,Or + f 的過程的示意圖。由上圖可以簡單明瞭的表示 ONU 具有將 [0,π/4],[-π/2,-π/4],[-π/4,0] 和 [π/4,π/2] 角度的文字轉換為在 [0,π/4] 角度的文字。
Fig.3. Architecture of GNM.
Fig. 3 展示了 GNM 在網路中的結構設定。對於 SNU 中的 S 使用 1x1 的卷積操作和 3x3 的卷積操作;S1/2 使用 1X1 的卷積,步長為 2 的下采樣以及 3x3 的卷積。對於 ONU 中的 O,Or,Of,Or + f 中的 Operations 則分別採用不操作,旋轉 feature maps,翻轉 feature maps 和旋轉後再翻轉 feature maps。
由於多分支網路的影響,作者提出了一個針對 GNNets 的抽樣訓練策略。
在訓練期間,作者隨機取樣一個文字例項,並透過旋轉和調整大小 7 次來對其進行擴充,以使 GNM 的每個分支在每批次中都具有有效的文字例項用於訓練。這樣可以對 GNM 的所有分支進行統一訓練。並且在訓練過程中如果文字例項不在預先設定的幾何區間內,則忽略分支中的該文字例項。
在測試過程中,作者將 GNM 中所有分支輸出文字框相應地反向投影到原始比例和方向。不在分支預先設定的幾何區間內的文字框會被丟棄。其餘的文字框透過 NMS 合併。
三、實驗結果
Table 1. Comparison with the state-of-the-art methods on both ICDAR 2015 and ICDAR 2017MLT.
與原始的 PSENet[2] 相比,作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分別實現了約 1.3%和 2.1%的效能提升。
與 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比,GNNet 的 F-score 比它們分別高出 8%和 9%。與 FTSN [7] 相比,獲得了 4.5%的效能提升。GNNets 在 ICDAR 2015 上的表現優於 FOTS [8],在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3%。並且 FOTS 使用了文字識別的資料。
在單尺度測試中,作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均達到了 state-of-the-art 的效能。Fig. 5 視覺化了 GNNets 和其他文字檢測方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的檢測結果。
Fig.5. Qualitative results on ICDAR2015 and ICDAR 2017 MLT. The right column shows GNNets results.
四、總結及討論
1、在本文中,作者提出了一種新穎的幾何歸一化模組(GNM)以生成多個幾何感知特徵圖。並且 GNM 是通用的,可以應用到任何基於 CNN 的檢測器中,以構建端到端的幾何歸一化網路(GNNet)。
實驗表明,GNNet 在檢測幾何分佈較大的文字例項方面相較於 baseline 表現出出色的效能。並且,GNNet 在兩個文字檢測主流的資料集上較最新的方法獲得了顯著的效能提升。
2、文中研究了幾何分佈對場景文字檢測的影響,發現基於 CNN 的檢測器只能捕獲有限的文字幾何分佈,但充分利用所有訓練的樣本可以提高其泛化能力,對後續文字檢測以及其他相關領域有啟發性影響。
3、綜上所述,文字檢測是 OCR 任務的首要前提,但自然場景下文字的字型變化、懸殊的寬高比、任意角度給檢測任務帶來巨大的挑戰,本文為我們提出了目前研究方向上忽略的點,並提供了一個新穎的解決方法,但是相較與常規物體檢測,文字檢測領域仍然有其特殊性以及較大的提升空間。
參考文獻
[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR,2017.
[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.
[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.
[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification. 2017.
[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.
[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.
[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.
[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2668759/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 商湯ICCV論文解讀:自然場景下文字檢測的幾何歸一化網路(GNNets)GNN
- 文字識別(五)--自然場景文字檢測技術綜述(CTPN, SegLink, EAST)AST
- 自然場景文字檢測工程中使用所以程式碼和理論
- CTPN/CRNN的OCR自然場景文字識別理解(一)RNN
- 阿里提出IncepText:全新多向場景文字檢測模組阿里
- CCE叢集VPC網路模式下幾種訪問場景模式
- NAVER提出字元級別的文字檢測網路:CRAFT字元Raft
- 影片場景下的自然語言處理應用自然語言處理
- 031、none和host網路的適用場景(2019-02-18 週一)None
- 利用 OpenAI 的文字生成模型,自動生成測試用例的幾個場景示例OpenAI模型
- 視訊場景下的自然語言處理應用自然語言處理
- 【私有云場景案例分享③】批次回歸測試自動化流程
- AR的平面檢測和利用SceneKit構建幾何體
- 海量短文字場景下的去重演算法演算法
- 基於深度學習的場景文字檢測和識別(Scene Text Detection and Recognition)綜述深度學習
- 基於工控場景的DNS隧道檢測方案DNS
- Malwarebytes:2019年全球網路威脅檢測報告
- 曠視科技提出統一感知解析網路UPerNet,優化場景理解優化
- ICCV2019 | 港科大、清華與曠視提出基於元學習的自動化神經網路通道剪枝網路神經網路
- 幾個場景下用flink如何解決的思考
- PON網路應用場景
- 視訊場景切換檢測的FPGA實現FPGA
- 展望2021 | 網路安全市場的2021將何去何從?
- 曠視科技提出統一感知解析網路UPerNet,最佳化場景理解
- 全域性索引失效帶來的幾個測試場景索引
- Peer Dependency 一些使用場景的歸納總結
- 深入解讀雲場景下的網路抖動 | 龍蜥技術
- ICCV 2019 提前看 | 三篇論文,解讀神經網路壓縮神經網路
- 李佩:阿里本地生活線上線下融合場景中的影像檢測技術阿里
- 文字挖掘和文字分析的九大應用場景
- API自動化測試平臺,支援場景化的API測試API
- 檢測網路狀態 - flutterFlutter
- JS 檢測網路頻寬JS
- ICCV 2019 | 港大提出影片顯著物體檢測演算法MGA,大幅提升分割精度演算法
- CCE雲原生混部場景下的測試案例
- Cobar提出的一種在分庫場景下對Order By / Limit 的優化MIT優化
- 一階段目標檢測網路-RetinaNet 詳解NaN
- Go測試技術分享(一):場景化介面Case編寫Go