阿里提出IncepText:全新多向場景文字檢測模組

機器之心發表於2018-05-07

文字檢測在很多應用中扮演著重要的角色,但這也是一個頗具挑戰性的任務。阿里近期提出的端到端場景文字檢測器 IncepText 在多個資料集的測試中實現了業內最佳水平,並已釋出了開放的 OCR 產品介面。本研究的論文已被即將在 7 月於瑞典舉行的 IJCAI 2018 大會接收。

場景文字檢測是眾多計算機視覺應用中最具挑戰性的任務之一,它會應用在多語言翻譯、影象檢索自動駕駛等場景中。其中,首當其衝的挑戰是場景文字會包含各種影象,如街景、海報、選單、室內場景等。此外,場景文字在前景文字和背景物件中都有很大的變化,並且還具有不同的光照、模糊和方向條件。

在過去幾年裡,場景文字檢測方向湧現了很多傑出的演算法。文字檢測的關鍵在於設計正確區分文字區域和非文字區域的特徵。多數傳統方法如 MSER [Neumann and Matas,2010] 和 FASText [Busta et al.,2015] 都使用手動設計的文字特徵。

但這些方法不足以處理複雜的場景文字。最近,基於卷積神經網路(CNN)的方法在文字檢測和識別 l 領域取得了傲人的成果 [He et al., 2016b; Tian et al., 2016; Zhou et al., 2017; He et al., 2017]。基於 CNN 的模型具有強大的特徵表示能力,且更深的 CNN 模型能夠提取更高階別或更抽象的特徵。

在該領域,主要有兩種型別的場景文字檢測方法,即間接回歸和直接回歸。間接回歸方法預測 box proposals 的座標,如 CTPN [Tian et al。,2016] 和 RRPN [Ma et al。,2017] 等研究。這些方法都是基於 FasterRCNN [Ren et al.,2015] 框架。

近期,直接回歸方法在場景文字檢測上已經取得了不俗的表現,例如,East [Zhou et al,2017] 和 DDR [He et al,2017] 等研究。

在阿里的論文中,研究人員受到 FCIS 例項分割啟發試圖解決這個問題 [Li et al。,2016]。與普通的物體檢測不同,場景文字經常會遇到很大的尺度,長寬比及方向的變化。因此,我們設計了一個創新性的 Inception-Text 模組來解決這些挑戰。

該模組受 GoogLeNet 中的 Inception 模組 [Szegedy et al,2015] 的啟發得出,研究人員採用多個不同卷積核的卷積分支來處理不同長寬比和比例的文字。我們在每個分支後面接一個可變形的卷積層以適應多方向文字。

相比原型,另一個改進是我們用可變形的 PSROI 池化層來替換 FCIS 中的 PSROI 池化層 [Dai et al,2017a]。根據實驗來看,可變形的 PSROI 池化層在分類任務中表現更好。

本研究的主要貢獻如下:

  • 我們提出了一個用於多方向場景文字檢測的新的 Inception-Text 模組。實驗表明,該模組可以大幅提高準確率,且計算成本很低。

  • 我們提出使用可變形的 PSROI 池化模組來處理多方向的文字。在對可變形 PSROI 池化和量化評估學習到的偏移部分進行的量化研究表明,它可以有效處理任意方向的場景文字。

  • 我們在三個基準資料集 ICDAR2015,RCTW-17 和 MSRA-TD500 上評估了新方法,結果表明新的方法在沒有任何額外資料的情況下,在幾個基準測試中都取得了業內最優的表現。

  • 我們提出的方法已在阿里公開發布的 OCR 產品中作為 API 服務實現。

在這篇論文中,我們會首先簡要介紹場景文字檢測,主要關注多方向場景文字檢測。然後詳細講解新提出的方法,並在三個公共基準資料集上給出實驗結果。最後進行總結,並討論未來的工作。

提出的方法

我們提出的方法基於最初被提出用於例項分割的 FCIS [Li et al,2016] 框架。我們設計了一個創新的 Inception-Text 模組,並使用可變形的 PSROI 池化層來擴充套件該框架。圖 1 給出了我們提出的模型體系結構的概述。

在圖 1 中,基礎特徵提取模組是 ResNet50 [He et al,2016a]。精細的特徵資訊對於分割任務尤為重要,對於場景文字檢測,第 5 階段的下采樣可能會丟失一些有用的資訊。

因此,我們在第 5 階段利用帶孔卷積演算法(hole algorithm)[Long et al,2015] 維持感受野。這一階段的步長也由 2 改為 1,並且為了彌補步長減小帶來的問題,這一階段的所有卷積濾波器都使用帶孔卷積來補償減小的步幅。

為了預測小文字區域的準確位置,還需要考慮低階別特徵。如圖 1 所示,res4f 層和 res5c 層上取樣 2 倍,再與 res3d 層相加。這兩個融合的特徵圖後面接著用於場景文字檢測的 Inception-Text 模組。

我們用可變形 PSROI 池化來替換 FCIS 中的 PSROI 池化,因為標準 PSROI 池化只能處理水平文字,而場景文字方向總是不確定的。類似於 FCIS,我們獲得瞭如圖 1 所示的帶有 mask 和分類分數的文字框,然後根據他們的分數將 NMS 應用到框中。

對於每個未被抑制的框,我們要找到它的相似框,即與其自身 IoU> = 0.5 的框。未抑制的框預測的 mask 與其相似框通過使用分類分數作為它們的平均權重逐畫素地進行加權平均來合併。然後使用一個簡單的最小四邊形演算法來生成方向框。

阿里提出IncepText:全新多向場景文字檢測模組

圖 1:IncepText 體系結構。該圖中的基礎特徵提取模組是 ResNet-50。Inception-Text 模組在特徵融合層後面,原始 PSROI 池化被替換為可變形的 PSROI 池化

阿里提出IncepText:全新多向場景文字檢測模組

圖 2: Inception-Text 模組。

阿里提出IncepText:全新多向場景文字檢測模組

圖 3:標準卷積和可變形卷積之間的比較。標準卷積(a)中的感受野是固定的,而可變形卷積(b)的感受野是自適應的。

阿里提出IncepText:全新多向場景文字檢測模組

圖 8:我們的方法在 ICDAR2015(a)、RCTW-17(b)、MSRA-TD500(c)上的檢測結果。(d)中列出了一些失敗案例。紅色框是 ground-truth 實景框,而綠色框是預測結果。黃色橢圓的邊界框表示錯誤結果。

阿里提出IncepText:全新多向場景文字檢測模組

表 2:ICDAR2015 附帶場景文字定位任務的結果。

論文:IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection(IncepText:一種新的具有可變形 PSROI 池化的用於多向場景文字檢測的 Inception-Text 模組)


阿里提出IncepText:全新多向場景文字檢測模組

論文連結:https://arxiv.org/abs/1805.01167

摘要:附帶場景文字檢測,尤其是多向文字檢測,是眾多計算機視覺應用中最具挑戰性的任務之一。與常見的物體檢測任務不同,場景文字的長寬比,尺度和方向常常會發生巨大變化。

為了解決這一問題,我們從例項分割的角度提出了一種創新性的端到端場景文字檢測器 IncepText。我們設計了一個新的 Inception-Text 模組,並引入了可變形的 PSROI 池化來處理多向文字檢測。基於 ICDAR2015,RCTW-17 和 MSRA-TD500 資料集的大量擴充實驗證明了我們方法的高效和可行性。

我們提出的方法在 ICDAR2015 比賽中獲得第一名,並在其他資料集上獲得最好的效能。此外,我們還發布了公眾可訪問的 OCR 產品介面。

相關文章