全球計算機視覺三大頂會之一 ECCV 2018 (European Conference on Computer Vision)即將於9月8 -14日在德國慕尼黑拉開帷幕。屆時,曠視首席科學家孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。而在此之前,曠視科技將陸續推出 ECCV 2018 接受論文系列解讀。本文是第 3 篇解讀,一個用於檢測任意形狀文字的靈活表徵——TextSnake。
論文名稱:TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes
論文連結:https://arxiv.org/abs/1807.01544
導語
無論深度學習之前或是之後,文字識別一直是計算機視覺領域的重要研究課題之一,因為在現實世界的場景之中,文字幾乎無處不在。機器之眼要看懂世界,首先要很好地做到檢測和識別場景文字。深度學習的出現,使得這一技術獲得飛躍發展,但仍有一些障礙要克服。由於受限於傳統的文字表徵方法,一些隨意形狀的文字比如曲形文字不能得到完善的處理。麻煩的是,曲形文字在現實世界中很常見。有鑑於此,曠視科技提出一個可以檢測任意形狀文字的靈活表徵——TextSnake,基於這一表徵的文字檢測器在很大程度上優化解決了任意形狀文字的檢測和識別問題,並在相關資料集上取得了當前最優或有競爭力的結果。表徵屬於基礎技術中的基礎,其創新也可謂創新中的創新,非常根本,這表明曠視科技不僅有真做原創技術的決心,有技術信仰,更有行動方面的實錘;而這一技術的優異表現經過工程化的塑造,也會落實到曠視科技的產品線之中,轉化為商業價值。具體而言,該技術的底層創新將會加速智慧零售,智慧城市,自動駕駛,網際網路文娛,社交網路等行業的應用落地。
背景
近年來,從自然場景中提取文字資訊,即場景文字檢測與識別,成為了學術研究的熱點。究其原因有二,應用前景和學術價值。一方面,場景文字檢測與識別在一系列的實際應用中發揮著日益重要的作用,比如場景理解,產品搜尋,自動駕駛等;另一方面,場景文字自身的獨特屬性使其有別於一般物體。
作為文字資訊提取的前提條件之一,文字檢測在深度神經網路和大型資料集的助力之下,取得了長足進展,出現了大量創新性工作,並在基準資料集上取得了優異的表現。
但是,現有大多數的文字檢測方法有一個共同的假設:文字例項的形狀大體上是線性的,因此可以採用相對簡單的表徵(軸對齊矩形,旋轉矩形,四邊形)去描述它們。儘管存在不少進步,但是在處理不規則形狀的文字例項時,依然會暴漏出短板。如圖 1 所示,對於帶有透視變形(perspective distortion)的曲形文字(curved text)來講,傳統的表徵方法在精確估計幾何屬性方面顯得力不從心。
圖 1:文字例項不同表徵方法的對比。(a)軸對齊矩形。(b)旋轉矩形。(c)四邊形。(d)TextSnake。
設計思想
事實上,曲形文字的情況在現實世界中很常見。本文提出一種更為靈活的表徵,可以很好地擬合任意形狀的文字,比如水平文字,多方向文字,曲形文字。這種表徵通過一系列有序、彼此重疊的圓盤(disk)描述文字,每個圓盤位於文字區域的中心軸上,並帶有可以變化的半徑和方向。由於其在適應文字結構多樣性方面的優異表現,就像蛇一樣改變形狀適應外部環境,該方法被命名為 TextSnake。文字例項的幾何屬性(比如中心軸點,半徑,方向)則通過一個全卷積網路(FCN)進行評估。
除了 ICDAR 2015 和 MSRA-TD500 之外,TextSnake 的有效性還在 Total-Text 和 SCUT-CTW1500 (兩個新公佈的針對曲形文字的資料集)上獲得了驗證,並取得了當前最優的表現;此外,該方法還在水平文字和多方向文字上超越先前方法,即使是在單一尺度測試模式之下。具體而言,TextSnake 獲得顯著提升,在 Total-Text 資料集上 F-measure 超越基線 40%。
總結一下,本文貢獻主要有 3 個方面:(1)本文提出一種靈活而通用的表徵,可用於任意形狀的場景文字;(2)基於這一表示,本文提出一種有效的場景文字檢測方法;(3)該方法在包含若干個不同形式(水平,多方向,曲形)的文字例項資料集上取得了當前最優的結果。
方法
本節將首先介紹針對任意形狀文字的新表徵,接著描述本文提出的新方法及訓練細節。
表徵
圖 2:TextSnake 圖示
TextSnake 將一個文字區域(黃色)表徵為一系列有序而重疊的圓盤(藍色),其中每個圓盤都由一條中心線(綠色,即對稱軸或骨架)貫穿,並帶有可變的半徑 r 和方向 θ 。直觀講,TextSnake 能夠改變其形狀以適應不同的變化,比如旋轉,縮放,彎曲。
從數學上看,包含若干個字元的文字例項 t 可被看作是一個序列 S(t) 。S(t) = {D_0,D_1,··· ,D_i,··· ,D_n} ,其中 D_i 表示第 i 個圓盤,n 表示圓盤的數量。每個圓盤 D 帶有一組幾何屬性, r 被定義為 t 的區域性寬度的一半,方向 θ 是貫穿中心點 c 的中心線的正切。由此,通過計算 S(t) 中圓盤的重合,文字區域 t 可輕易被重建。
注意,圓盤並非一一對應於文字例項的字元。但是圓盤序列的幾何屬性可以改正不規則形狀的文字例項,並將其轉化為對文字識別器更加友好的矩形等。
Pipeline
圖 3:方法框架圖:網路輸出與後處理
為檢測任意形狀的文字,本文藉助 FCN 模型預測文字例項的幾何屬性。基於 FCN 的網路預測文字中心線(TCL),文字區域(TR)以及幾何屬性(包括 r,cosθ,sinθ)的分值圖。由於 TCL 是 TR 的一部分,通過 TR 而得到 Masked TCL。假定 TCL 沒有彼此重合,需要藉助並查集(disjoint set)執行例項分割。Striding Algorithm 用於提取中心軸點,並最終重建文字例項。
架構
圖 4:網路架構。藍色方塊表示 VGG-16 的卷積階段
在 FPN 和 U-net 的啟發下,本文提出一個方案,可逐漸融合來自主幹網路不同層級的特徵。主幹網路可以是用於影像分類的卷積網路,比如 VGG-16/19 和 ResNet。這些網路可以被分成 5 個卷積階段(stage)和若干個額外的全連線層。本文移除全連線層,並在每個階段之後將特徵圖饋送至特徵融合網路。出於與其他網路進行公平而直接對比的考慮,本文選擇 VGG-16 作為主幹網路。
預測
饋送之後,網路輸出 TCL,TR 以及幾何圖。對於 TCL 和 TR,閾值分別設為 T_tcl
和 T_tr;接著,TCL 和 TR 的交叉點給出 TCL 最後的預測。通過並查集,可以有效把 TCL 畫素分割進不同的文字例項。最後,Striding Algorithm 被設計以提取用來表示文字例項形狀和程式(course)的有序點,同時重建文字例項區域。
圖 5:後處理演算法圖示
Striding Algorithm 的流程如圖 5 所示。它主要包含 3 個部分:Act(a)Centralizing ,Act(b) Striding 和 Act(c)Sliding 。首先,本文隨機選擇一個畫素作為起點,並將其中心化。接著,搜尋過程分支為兩個相反的方向——striding 和 centralizing 直到結束。這一過程將在兩個相反方向上生成兩個有序點,並可結合以生成最終的中心軸,它符合文字的程式,並精確描述形狀。
實驗
本節在標準資料集上評估了 TextSnake 的場景文字檢測能力,並與先前同類方法進行了對比,資料集主要有 SynthText,TotalText,CTW1500,ICDAR 2015,MSRA-TD500。本節還給出了有關 TextSnake 的演算法分析與討論。
Total-Text & CTW1500
Total-Text & CTW1500 資料集上展開的是有關曲形文字的實驗,其優異表現證明了TextSnake 在處理曲形文字方面的有效性。表 1 & 表 2 分別是兩個資料集上不同方法的量化結果。
表 1:Total-Text 上不同方法的量化結果。TextSnake 在精度、查全率、F 值上分別取得了
82.7%,74.5%,78.4% 的成績,大幅超越先前方法。
表 2:CTW1500 上不同方法的量化結果。TextSnake 在精度、查全率、F 值上分別取得了
67.9%,85.3%,75.6% 的成績。
ICDAR 2015
ICDAR 2015 上進行的是有關偶然場景文字的實驗。在單一尺度測試中,TextSnake 超越了絕大多數現有方法(包括那些在多尺度中評估的方法),這證明了 TextSnake 的通用性以及已經可用於複雜場景的多方向文字。
表 3:ICDAR 2015 上不同方法的量化結果。∗ 表示多尺度,† 表示模型的主幹網路不是 VGG-16
MSRA-TD500
本文在 MSRA-TD500 上進行有關長直文字線的實驗。其中 TextSnake 的 F 值 78.3% 優於其他方法。
表 4:MSRA-TD500 上不同方法的量化結果。† 表示模型的主幹網路不是 VGG-16
分析與討論
TextSnake 之所以出類拔萃,在於其對文字例項的程式及形狀的精確描述具有預測的能力(見圖 8)。而這一能力來自對 TCL 進行的預測,它要比整個文字例項窄很多。這樣做有兩個優勢:1)纖細的 TCL 可以更好地描述程式和形狀;2)TCL 彼此不會重疊,因此例項分割得以一種十分簡單而直接的方式完成,由此簡化 pipeline。
圖 8:TextSnake 定性結果。上:已檢測文字輪廓(黃色)和 groundtruth 註解(綠色)。下:TR(紅色)和 TCL(黃色)的分值合圖。從左到右影像分別來自 ICDAR 2015,TotalText,CTW1500 和 MSRA-TD500。
此外,本文還利用區域性幾何屬性描繪文字例項的結構,把已預測的曲形文字例項轉化為規範形式,這大大減輕了後續識別階段的工作。
圖 9:通過已預測的幾何屬性把文字例項轉化為規範形式
為進一步驗證 TextSnake 的泛化能力,本文在不包含曲形文字的資料集上進行了訓練和微調,並在含有曲形文字的兩個資料集上做了評估。在沒有曲形文字微調的情況下,TextSnake 依然表現良好,並顯著超越其他三個競爭者 SegLink,EAST 和 PixelLink,這要歸功於 TextSnake 作為靈活表徵的優秀泛化能力(見表 5)。
表 5:不同方法下的交叉驗證集結果對比
TextSnake 把文字看作一個區域性元素的集合,而不是一個整體,並通過整合元素的方式做決策。因此,TextSnake 最後的預測可以保持文字程式和形狀的最大量資訊,這是該演算法勝任不同形狀文字例項的主要原因。
結論
本文提出一種全新而靈活的表徵——TextSnake,可以描述任意形狀的場景文字,包括水平文字,多方向文字和曲形文字。基於 TextSnake 的文字檢測新方法已在兩個新開源的曲形文字資料集(Total-Text 和 SCUT-CTW1500)和兩個經典資料集(ICDAR 2015 和 MSRA-TD500)上取得了當前最優或有競爭力的結果,證實了該方法的有效性。未來,本文作者將嘗試開發一個針對任意形式文字的端到端識別系統。
參考文獻
[1] Zhou et al. EAST: An Efficient and Accurate Scene Text Detector. CVPR 2017
[2] Shi et al. Detecting Oriented Text in Natural Images by Linking Segments. CVPR 2017
[3] Yao et al. Scene text detection via holistic, multi-channel prediction. arXiv:1606.09002
[4] Zhang et al. Multi-oriented text detection with fully convolutional networks. CVPR 2016
[5] He et al. Deep direct regression for multi-oriented scene text detection. ICCV 2017