基於深度學習的場景文字檢測和識別(Scene Text Detection and Recognition)綜述

To_1_oT發表於2020-12-04

1. 引言

文字是人類最重要的創作之一,它使人們在時空上可以有效地、可靠的傳播或獲取資訊。

場景中的文字的檢測和識別對我們理解世界很有幫助,它應用在影像搜尋、即時翻譯、機器人導航、工業自動化等領域。

一個場景文字識別檢測示例:
在這裡插入圖片描述

目前,場景文字檢測和識別主要存在3個難點:

  • 自然場景中文字多樣性和變異性:文字的顏色、大小、字型、形狀、方向、寬高比等屬性變化較多。
  • 背景的複雜性和干擾:背景存在與文字相似的形狀的物體(例如磚塊、窗戶、交通標誌等);存在遮擋問題。
  • 不完善的成像條件(低解析度、失真、模糊、低/高亮度、陰影等)。

近些年來也獲得了較大的發展,主要內容有:

  • 融入深度學習,基於深度學習方法。
  • 面向挑戰的演算法模型和資料集(例如,長文字、模糊文字、彎取文字等)。
  • 輔助技術的發展,例如合成資料。

場景文字檢測和識別任務主要細分為文字檢測、文字識別、檢測和識別同時進行以及輔助方法四個子任務。

2. 文字檢測

文字檢測一般都是基於常規目標檢測方法進行改進得來的。發展主要經過了3個階段:首先是多步驟方式、接著是一般的目標檢測方法,最後是基於文字元件的特殊表示的方法。
在這裡插入圖片描述

主要介紹後兩種。

2.1 啟發自目標檢測的方法

在此階段,通過修改通用目標檢測器的區域提議和邊界框迴歸模組來直接定位文字例項來設計場景文字檢測演算法。
在這裡插入圖片描述
如圖所示。它們主要由堆疊的卷積層組成,這些卷積層將輸入影像編碼為特徵圖。 特徵圖上的每個空間位置都對應於輸入影像的一個區域。 然後將特徵圖輸入到分類器中,以預測每個空間位置處文字例項的存在和定位。

  • (a)與YOLO相似,基於每個anchor位置的預設邊界框對偏移量進行迴歸。
  • (b)SSD的變體,在不同比例的特徵圖上進行預測。
  • (c)預測每個anchor的位置並直接使邊界框迴歸。
  • (d)分兩個階段的方法,並有一個額外階段來校正初始迴歸結果。

具體來說:

  • 受一階段目標檢測器的啟發,TextBoxes [1] 使用SSD,並把預設框更改為適應文字的不同方向和寬高比的具有不同寬高比規格的四邊形。
  • EAST [2] 通過採用U形設計整合了不同層次的特徵,輸入影像被編碼為一個多通道特徵圖,在每個空間位置處的要素都用於直接回歸文字例項。
  • 基於兩階段檢測框架的方法,其中第二階段根據ROI Pooling獲得的特徵校正定位結果。
  • 在 [3] 中,旋轉區域建議網路適用於生成旋轉區域建議,以便適合任意方向的文字,而不是與軸對齊的矩形。
  • 在FEN [4] 中,使用了不同大小的ROI Pooling的加權總和。 通過利用文字得分對4種不同大小的pooling 進行最終預測。
  • [5] 建議遞迴執行ROI和定位分支,以修改文字例項的預測位置。 這是在邊界框的邊界處捕獲特徵的好方法,該方式比區域建議網路(RPN)更好地定位文字。
  • [6] 建議使用引數化例項轉換網路(Instance Transformation Network-ITN),該網路學會預測適當的仿射轉換,在基礎網路提取的最後一個特徵層上執行,以糾正面向文字的例項。 使用ITN可以進行端到端的訓練。
  • 為了適應形狀不規則的文字,[7] 提出了具有多達14個頂點的邊界多邊形,然後利用Bi-LSTM[8] 層以細化頂點的預測座標。
  • 用類似的方法,[9] 建議使用遞迴神經網路(RNN)來讀取基於RPN的兩階段物體解碼器編碼的特徵,並預測可變長度的邊界多邊形。 該方法不需要後期處理或複雜的中間步驟,並且在Total-Text上實現了更快的10.0 FPS速度。

此階段的主要貢獻是簡化了檢測pipeline並提高了效率。 但是,當面對彎曲,定向或長文字時,由於一階段方法的感受野的限制,效能仍然受到限制。而對於兩階段方法,則效率受到限制。

2.2 基於子文字元件(Sub-Text Components)的方法

文字檢測與常規目標檢測之間的主要區別在於:文字在整體上是同質的,並具有其區域性性。同質性指的是文字例項的任何部分仍然是文字的屬性。區域性性指的是人們不必看到整個文字例項就知道它屬於某些文字。這樣的屬性催生出僅預測子文字元件然後組合它們為一個文字例項的檢測方法。這種方法可以應用於彎曲、長和定向文字中。
在這裡插入圖片描述

  • (a)以SSD為基礎網路,預測每個anchor位置的詞段,以及相鄰anchor之間的連線。
  • (b)對於每個畫素,預測文字/非文字分類以及它是否與相鄰畫素屬於同一文字。
  • (c)預測每個文字的四個角點並將屬於同一文字例項的那些角點分組。
  • (d)預測文字/非文字和區域性幾何形狀,用於重建文字例項。

具體來說,根據級別不同主要分為三種:畫素級、元件級以及字元級。

2.2.1 畫素級方法

  • 使用全卷積神經網路端到端地學習生成密集的預測圖,以指示原始影像中的每個畫素是否屬於任何文字例項。 然後,後處理方法取決於哪些畫素屬於同一文字例項,將畫素分組在一起。 基本上,它們可以看作是例項分割的一種特殊情況。 由於文字可以出現在使預測畫素相互連線的簇中,因此畫素級方法的核心是將文字例項彼此分開。
  • [11] 通過新增額外的輸出通道來指示相鄰畫素之間的連結,學習預測兩個相鄰畫素是否屬於同一文字例項。
  • 邊界學習方法[12] 假設邊界可以很好地分隔文字例項,則將每個畫素分為三類:文字,邊界和背景。
  • 在[13] 中,畫素根據其顏色一致性和邊緣資訊進行聚類。 融合的影像段稱為超畫素。 這些超畫素還用於提取字元和預測文字例項。
  • 在分割框架上,[14] 建議新增一個損失項,以使屬於不同文字例項的畫素嵌入向量之間的歐幾里得距離最大化,並最小化屬於同一例項的畫素嵌入向量之間的歐幾里得距離,以更好地分離相鄰文字。
  • [15] 建議預測不同收縮比例的文字區域,並逐個擴大檢測到的文字區域,直到與其他例項碰撞為止。 但是,不同尺度的預測本身就是上述邊界學習的一種變體。

2.2.2 元件級

元件級方法通常以中等粒度進行預測。 元件是指文字例項的區域性區域,有時與一個或多個字元重疊。

  • 代表性的元件級方法是連線主義者文字提案網路(CTPN)[16]。 CTPN模型繼承了anchor和場景文字檢測和識別的思想:7個遞迴神經網路用於序列標記。 在CNN上堆疊RNN。 最終特徵圖中的每個位置代表由相應anchor指定的區域中的特徵。 假設文字水平顯示,要素的每一行將被送入RNN並標記為文字/非文字。 還可以預測諸如段大小的幾何形狀。 CTPN是第一個使用深層神經網路預測場景文字片段並將其連線的方法。
  • [17] 通過考慮段之間的多方向連結來擴充套件CTPN。段的檢測基於SSD,其中每個預設框代表一個文字段。 預設框之間的連結被預測為指示相鄰的段是否屬於同一文字例項。 [18] 通過使用圖卷積網路來預測段之間的連結,從而進一步改善SegLink。
  • 角點定位方法[19] 建議檢測每個文字例項的四個角點。由於每個文字例項僅具有4個角,因此預測結果及其相對位置可以指示應將哪些角分組到同一文字例項中。
  • [20] 認為文字可以表示為沿著文字中心線(TCL)的一系列滑動圓盤,這與文字例項的執行方向一致,如圖所示:在這裡插入圖片描述
    它以新穎的表示形式提出了一個新模型TextSnake,該模型可學習預測區域性屬性,包括TCL /非TCL,文字區域/非文字區域,半徑和方向。 TCL畫素和文字區域畫素的交集給出了畫素級TCL的最終預測。 然後使用區域性幾何圖形以有序點列表的形式提取TCL。 使用TCL和半徑,可以重建文字行。 它可以在多個彎曲文字資料集以及更廣泛使用的資料集上實現最新的效能。 值得注意的是,[21] 提出跨不同資料集的交叉驗證測試,其中模型僅在具有純文字例項的資料集上進行微調,然後在彎曲資料集上進行測試。 在所有現有的彎曲文字資料集中,TextSnake與F1-Score中的其他基線相比,效能最多可提高20%。

2.2.3 字元級

  • 字元級表示是另一種有效的方法。 [22] 建議學習字元中心及其之間的連結的分割圖。 元件和連結都以高斯熱圖的形式進行預測。 但是,由於現實世界的資料集很少配備字元級標籤,因此,此方法需要迭代的弱監督。

總體而言,基於子文字成分的檢測在文字例項的形狀和縱橫比方面具有更好的靈活性和泛化能力。 主要缺點是,用於將片段分組為文字例項的模組或後處理步驟可能容易受到噪聲的影響,並且此步驟的效率高度依賴於實際實現,因此在不同平臺之間可能會有所不同。

3. 字元識別

場景文字識別的輸入是僅包含一個單詞的裁剪的文字例項影像。在深度學習時代,場景文字識別模型使用CNN將影像編碼到特徵空間中。 各方法的主要區別在於文字內容解碼模組。

兩種主要技術是連線主義者的時間分類(CTC)和編碼器-解碼器框架。 主流框架如圖所示:
在這裡插入圖片描述

  • (a)表示序列標籤模型,並使用CTC進行訓練和推理。
  • (b)表示一個序列到序列模型,並且可以使用交叉熵直接學習。
  • (c)表示基於細分的方法。

CTC和編碼器-解碼器框架最初都是為一維順序輸入資料設計的,因此適用於識別直線文字和水平文字,CNN可以將它們編碼為一系列特徵幀而不會丟失重要資訊。 但是,定向和彎曲文字中的字元分佈在二維空間上。 有效地在特徵空間中表示定向文字和彎曲文字以適應CTC和編碼器-解碼器框架(其解碼需要一維輸入)仍然是一個挑戰。 對於定向和彎曲的文字,將特徵直接壓縮為一維形式可能會丟失相關資訊,並會引起背景噪聲,從而導致識別精度下降。

3.1 基於CTC的方法

如果將CTC應用到場景文字識別中,則將輸入影像視為一系列垂直畫素幀。 網路輸出每幀預測,指示每幀標籤的概率分佈。然後應用CTC規則將每幀預測編輯為文字字串。 在訓練期間,將損失計算為可以通過CTC規則生成目標序列的所有可能的每幀預測的負對數概率的總和。因此,CTC方法使其僅使用單詞級註釋即可進行端到端訓練,而無需使用字元級註釋。

  • 最初的基於CTC的方法為卷積遞迴神經網路(CRNN)。 這些模型是通過將RNN堆疊在CNN之上並使用CTC進行訓練和推理而構成的。 DTRN[23] 是第一個CRNN模型。 它在輸入影像上滑動CNN模型以生成卷積特徵切片,然後將其輸入RNN。 [24] 利用CNN不受輸入空間大小限制的特性,採用全卷積方法對輸入影像進行整體編碼以生成特徵切片,從而進一步改進了DTRN。
  • [25] 替換RNN,採用堆疊的卷積層來有效捕獲輸入序列的上下文相關性,其特點是計算複雜度較低,平行計算更容易。
  • [26] 通過使用字元模型滑動文字行影像來同時檢測和識別字元,這是在標記有文字記錄的文字行影像上端到端學習的。

3.2 基於Encoder-Decoder的方法

[27] 最初提出了一種用於序列到序列學習的編碼器-解碼器框架,用於機器翻譯。 編碼器RNN讀取輸入序列,並將其最終的潛在狀態傳遞給解碼器RNN,解碼器RNN以自迴歸的方式生成輸出。 編碼器-解碼器框架的主要優點是它提供可變長度的輸出,可以滿足場景文字識別的任務設定。 編碼器-解碼器框架通常與注意力機制結合,後者共同學習對齊輸入序列和輸出序列。

  • [28] 提出了具有注意力模型的遞迴迴圈神經網路,用於無詞典場景文字識別。 該模型首先將輸入影像傳遞給遞迴卷積層,以提取編碼的影像特徵,然後通過具有隱式學習的字元級語言統計資訊的遞迴神經網路將它們解碼為輸出字元。 基於注意力的機制執行軟特徵選擇,以更好地使用影像特徵。
  • [29] 觀察了現有基於注意力的方法中的注意力漂移問題,並建議對注意力得分實施區域性監督以減弱它。
  • [30] 提出了一種編輯概率(edit probability-EP)度量標準,以處理GT字串與注意力的概率分佈輸出序列之間的失準。 與前面提到的通常採用逐幀最大似然損失的基於注意力的方法不同,EP嘗試根據輸入影像上的概率分佈的輸出序列來估計生成字串的概率,同時考慮丟失或多餘字元的可能出現。
  • [31] 提出了一種有效的基於注意力的編碼器-解碼器模型,其在二進位制約束下訓練編碼器部分以減少計算成本。

CTC和編碼器-解碼器框架都簡化了識別流程,並使得僅使用單詞級註釋而不是字元級註釋來訓練場景文字識別器成為可能。 與CTC相比,Encoder-Decoder框架的解碼器模組是隱式語言模型,因此它可以包含更多的語言先驗。出於同樣的原因,編碼器-解碼器框架需要具有較大詞彙量的較大訓練資料集。 否則,當識別訓練中看不見的單詞時,模型可能會退化。 相反,CTC較少依賴語言模型,並且具有更好的字元到畫素對齊方式。 因此,對於字符集較大的中文和日語等語言,CTC可能會更好。 這兩種方法的主要缺點是它們假定文字是筆直的,因此不能適應不規則的文字。

3.3 適應不規則文字識別的方法

  • 糾正模組(Rectification-modules)是不規則文字識別的流行解決方案。[32]提出了一種文字識別系統,該系統將空間轉換網路(Spatial
    Transformer Network -STN)[33]和基於注意力的序列識別網路相結合。STN模組使用全連線層預測文字邊界多邊形,以進行Thin-Plate-Spline轉換,從而將輸入的不規則文字影像校正為更規範的形式,即垂直的文字。糾正(Rectification)被證明是一種成功的策略,併成為ICDAR 2019 ArT2不規則文字識別競賽中獲獎解決方案的基礎[34] 。
  • 還存在一些基於糾正的識別的改進版本。[35] 建議多次糾正,以逐步糾正文字。 它們還用多項式函式代替文字邊界多邊形來表示形狀。
  • [36] 建議以類似於TextSnake的方式預測區域性屬性,例如文字中心區域內畫素的半徑和方向值。 方向定義為基礎字元框的方向,而不是文字邊界多邊形。 基於這些屬性,以糾正字元的透視畸變的方式重建邊界多邊形。
  • [37] 引入了輔助密集字元檢測任務,以鼓勵學習有利於文字模式的視覺表示。並且他們採用對齊損失來調整每個時間步的估計注意力。 此外,他們使用座標圖作為第二輸入以增強空間意識。
  • [38] 認為大多數方法將文字影像編碼為特徵的一維序列,是不夠的。 它們將輸入影像編碼為四個方向的四個特徵序列:水平,水平反轉,垂直和垂直反轉。 應用加權機制來組合四個特徵序列。
  • [39] 提出了一種分層注意力機制(hierarchical attention
    mechanism -HAM),該機制由迴圈RoIWarp層和字元級注意力層組成。 他們採用區域性變換對單個字元的變形進行建模,從而提高了效率,並且可以處理難以通過單個全域性轉換建模的不同型別的變形。
  • [40] 將識別任務轉換為語義分割,並將每種字元型別都視為一個類別。 該方法對形狀不敏感,因此對不規則的文字有效,但是缺少端到端訓練和序列學習使其易於出現單字元錯誤,尤其是在影像質量較低時。 它也是第一個通過填充和轉換測試影像來評估其識別方法的魯棒性的方法。
  • 解決不規則場景文字識別的另一種解決方案是二維注意力[41] ,這已在[42] 中得到了驗證。與順序編碼器-解碼器框架不同,二維注意力模型保持二維編碼特徵,並且針對所有空間位置計算注意力得分。 與空間注意力類似,[43] 建議首先檢測字元,然後,特徵沿著字元中心線進行插值和聚集,形成連續的特徵幀。
  • 除了上述技術,[44] 表明,簡單地將特徵圖從2維展平到1維並將結果序列特徵饋送到基於RNN的注意力編解碼器模型就足以在不規則文字上產生最新的識別結果, 是一個簡單而有效的解決方案。
  • 除了量身定製的模型設計,[45] 合成了彎曲文字資料集,這在不犧牲純文字資料集的情況下顯著提高了現實世界中彎曲文字資料集的識別效能。

儘管已經提出了許多優雅而整潔的解決方案,但僅基於相對較小的資料集CUTE80(僅包含288個單詞樣本)對它們進行評估和比較。 此外,這些作品中使用的訓練資料集僅包含極少比例的不規則文字樣本。 對更大的資料集和更合適的訓練資料集進行評估可能有助於我們更好地理解這些方法。

3.4 其他方法

  • [46] 在影像分類的框架下,通過將影像分類為一組預定義的詞彙來執行單詞識別。該模型由合成影像訓練,並在僅包含英語單詞的某些基準上達到了最新的效能。 但是,此方法的應用非常有限,因為它不能應用於識別看不見的序列,例如電話號碼和電子郵件地址。
  • 為了提高在困難情況下的效能,例如遮擋給單字元識別帶來歧義,[47] 提出了一種基於轉換器的語義推理模組,該模組執行從解碼器的粗略,容易出錯的文字輸出到精細的語言校準輸出的轉換,這與機器翻譯的審議網路有些相似[48]:先翻譯然後重新編寫句子。

儘管到目前為止我們已經看到了識別方法的進步,但是識別方法的評估卻比較落後。 由於大多數檢測方法都可以檢測到定向的和不規則的文字,甚至可以糾正它們,因此識別此類文字似乎顯得多餘。 另一方面,很少驗證當使用略微不同的邊界框裁剪時識別的魯棒性。 在現實情況下,這種魯棒性可能更為重要。

3.5 End-to-End System

在過去,文字檢測和識別通常被視為兩個獨立的子問題來完成從影像中讀取文字。最近,許多端到端的文字檢測和識別系統(也稱為文字定位系統)已經被提出,是現在的趨勢。
在這裡插入圖片描述

  • (a) :在SEE中,檢測結果用網格矩陣表示。影像區域在輸入到識別分支之前被裁剪和變換。
  • (b) :一些方法從特徵圖中裁剪並將其輸入到識別分支。
  • (c) :當(a)和(b)使用基於CTC和基於注意力的識別分支時,也可以將每個字元作為通用目標檢測併合成文字。

3.5.1 Two-Step Pipelines

雖然早期的工作(Wang等人,2011年,2012年)首先檢測輸入影像中的單個字元,但最近的系統通常在單詞級別或行級別檢測和識別文字。其中一些系統首先使用文字檢測模型生成文字建議,然後使用另一個文字識別模型對其進行識別。

  • [49] 使用邊緣盒建議和經過訓練的聚合通道特徵檢測器的組合來生成候選字邊界框。提案框在被髮送到識別模型之前被過濾和修正。
  • [50] 將基於SSD的文字檢測器與CRNN相結合,以識別影像中的文字。

在這些方法中,檢測到的單詞是從影像中裁剪出來的,因此,檢測和識別是兩個獨立的步驟。這兩種方法的一個主要缺點是檢測和識別模型之間的誤差傳播會導致效能較差。

3.5.2 Two-Stage Pipelines

最近提出了端到端可訓練網路來解決上一問題,其中裁剪並輸入到識別模組的是特徵圖不是圖片。

  • [51] 提出了一種利用STN迴圈關注輸入影像中的每個單詞,然後分別識別它們的解決方案。聯合網路以弱監督方式訓練,不使用字邊界盒標籤。
  • [52] 用基於編解碼器的文字識別模型代替了Faster-RCNN中的物體分類模組,組成了文字識別系統。
  • [53] 和 [54] 分別採用EAST和YOLOv2作為檢測分支,並有一個類似的文字識別分支,其中文字建議通過雙線性取樣彙集到固定高度張量中,然後由基於CTC的識別模組轉錄成字串。
  • [55] 還採用EAST生成文字建議,並在基於注意的識別分支中引入字元空間資訊作為顯式監督。
  • [56] 提出了一種改進的Mask R-CNN。對於每個感興趣的區域,生成字元分割圖,指示單個字元的存在和位置。將這些字元從左到右排序的後處理步驟將給出最終結果。
  • 與上述基於定向邊界框執行ROI Pooling的工作不同,[57] 建議使用軸對齊的邊界框,並使用0/1文字分割掩碼來mask裁剪的特徵。

3.5.3 One-Stage Pipeline

除了兩階段的方法,[58] 並行預測字元和文字邊界框以及字元型別分割圖。然後使用文字邊界框對字元框進行分組,以形成最終的單詞轉錄結果。這是第一個單階段的方法。

3.6 輔助技術

3.6.1 合成資料

大多數深度學習模型都需要資料。只有當有足夠的資料可用時,才能保證它們的效能。在文字檢測和識別領域,這個問題更為迫切,因為大多數人工標註的資料集都很小,通常只包含1K-2K個資料例項。幸運的是,已經有一些工作生成了相對高質量的資料,並被廣泛用於訓練模型,以獲得更好的效能。

  • [59] 建議生成用於文字識別的合成資料。他們的方法是重排字型、邊框/陰影、顏色和分佈後,將文字與來自人類標籤資料集的隨機裁剪的自然影像混合在一起。結果表明,僅對這些合成資料進行訓練就可以達到最先進的效能,並且合成資料可以作為所有資料集的補充資料來源。
  • SynthText [60] 首先提出在自然場景影像中嵌入文字,然後用於文字檢測的訓練。而以往的研究大多隻在裁剪區域嵌入文字,這些合成資料僅用於文字識別。在整個自然影像上嵌入文字帶來了新的挑戰,因為它需要保持語義的一致性。為了生成更真實的資料,SynthText使用深度預測和語義分割。語義分割將畫素集合成語義簇,每個文字例項嵌入在一個語義面上,而不是重疊在多個語義面上。密集深度圖進一步用於確定文字例項的方向和變形。僅在SynthText上訓練的模型在許多文字檢測資料集上達到了最先進的水平。後來在其他工作以及初始預訓練中使用。
  • 此外,[61] 將文字合成與其他深度學習技術相結合,以生成更真實的樣本。它們引入了選擇性的語義分割,使得單詞例項只出現在可感知的物體上,例如桌子或牆上,而不是某人的臉上。在他們的方法中,文字渲染是根據影像進行調整的,這樣既能適應藝術風格,又不會顯得尷尬。
  • SynthText3D[62] 使用著名的開源遊戲引擎Unreal engine 4(UE4)和UnrealCV合成場景文字影像。文字與場景一起渲染,因此可以實現不同的照明條件、天氣和自然遮擋。然而,SynthText3D只是遵循SynthText的流水線,只使用遊戲引擎提供的真實深度和分割圖。因此,synthext3d依賴於手動選擇相機檢視,這限制了它的可伸縮性。此外,本文提出的文字區域是通過裁剪從分割圖中提取的最大矩形邊界框生成的,因此僅限於大的、定義良好的區域的中間部分,這是一個不利的位置偏差。
  • Unaltext [63] 是另一個使用遊戲引擎合成場景文字影像的作品。它的特點是在合成過程中與三維世界進行深入的互動。提出了一種基於光線投射的三維場景漫遊演算法,能夠自動生成不同的攝像機檢視。文字區域建議模組基於碰撞檢測,可以將文字放到整個曲面上,從而消除位置偏差。unaltext實現了顯著的加速和更好的檢測器效能。

文字編輯: 最近提出的文字編輯任務也值得一提([64]、[65])。兩部作品都試圖替換文字內容,同時保留自然影像中的文字樣式,例如字元、文字字型和顏色的空間排列。文字編輯本身在諸如使用手機攝像頭的即時翻譯等應用程式中非常有用。雖然我們還沒有看到任何相關的實驗結果,但是它在增強現有場景文字影像方面也有很大的潛力。

3.6.2 弱監督/半監督

…(待補充)

4. 資料集及評估

4.1 資料集

在這裡插入圖片描述
上圖是從一些資料集中選取一些有代表性的影像樣本

然後選擇了一些有代表性的資料集並討論了它們的特點:

  • ICDAR 2015 [66] 資料集側重於小型和定向文字。這些圖片是由谷歌眼鏡拍攝的,不考慮影像質量。影像中很大比例的文字非常小、模糊、遮擋和多方向,這使得它非常具有挑戰性。
  • ICDAR MLT 2017和2019 [67] 資料集分別包含9種和10種語言的指令碼。它們是迄今為止唯一的多語言資料集。
  • Total Text [68] 有很大比例的曲線文字,而以前的資料集只包含很少的曲線文字,這些影像主要取自街道廣告牌,並標註為頂點數可變的多邊形。
  • The Chinese Text in the Wild (CTW)[69] 資料集包含32285幅高解析度街景影像,在字元級別進行註釋,包括其底層字元型別、邊界框和詳細屬性,例如是否使用word-art。該資料集是今為止最大的資料集,也是唯一包含詳細註釋的資料集。但是,它只為中文文字提供註釋,而忽略了其他語言,例如英語。
  • LSVT [70] 由兩個資料集組成。一種是用單詞邊界框和單詞內容完全標記的。另一個,雖然大得多,但只使用主導文字例項的單詞內容進行註釋。作者建議研究這樣的部分標記資料,這些資料要在製作上簡單得多。
  • IIIT 5K Word [71] 是最大的場景文字識別資料集,包含數字和自然場景影像。它在字型、顏色、大小和其他噪音方面的差異使它成為迄今為止最具挑戰性的一個。

4.2 評估方法

作為不同演算法效能比較的指標,通常參考它們的精確度、召回率和F1分數。要計算這些效能指標,首先應該將預測的文字例項列表與GT標籤相匹配。

  • 精度,表示為P,計算為預測的文字例項與GT標籤匹配的比例。
  • Recall,用R表示,是在預測結果中有對應的GT標籤的比例。
  • F1分數計算公式為 F 1 = 2 ∗ P ∗ R P + R F_{1}=\frac{2 * P * R}{P+R} F1=P+R2PR,同時考慮精度和召回率。預測的例項和GT例項之間的匹配是第一位的。

4.2.1 文字檢測

文字檢測主要有兩種不同的協議,基於IOU的PASCAL Eval和基於重疊的DetEval。它們在預測文字例項和GT例項的匹配標準上存在差異。

在下面的部分中,使用這些符號: S G T S_{GT} SGT是GT邊界框的面積, S P S_{P} SP是預測邊界框的面積, S I S_{I} SI是預測和GT邊界框的相交面積, S U S_{U} SU是他們聯合的面積。

  • DetEval:精確度(即 S I S P \frac{S_{I}}{S_{P}} SPSI)和召回(即 S I S G T \frac{S_{I}}{S_{GT}} SGTSI)施加了限制。只有當兩者都大於各自的閾值時,它們才會匹配在一起。
  • PASCAL:基本思想是,如果預測和GT的交集,即 S I S U \frac{S_{I}}{S_{U}} SUSI大於指定的閾值,則預測和GT邊界框將匹配在一起。

大多數方法遵循兩種評估協議中的任何一種,但有一些小的修改:

  • ICDAR-2003/2005:匹配分數m的計算方法與IOU類似。它被定義為相交面積與包含兩者的最小矩形邊界框的面積之比。
  • ICDAR-2011/2013:ICDAR2003/2005評估協議的一個主要缺陷是它只考慮一對一匹配。它沒有考慮一對一、多對多、多對一的匹配,低估了實際效能。因此,ICDAR2011/2013採用:一對一匹配的得分為1,其他兩種型別的匹配被懲罰為小於1的常數,通常設定為0.8。
  • MSRA-TD 500:提出了一種新的旋轉邊界框盒評估協議,其中預測和GT邊界框都圍繞其中心水平旋轉。只有當標準IOU分數高於閾值且原始邊界框的旋轉小於預定義值(在實踐中為Pi/4)時,才匹配它們。
  • TIoU:緊密性IoU考慮到場景文字識別對檢測結果中的缺失部分和多餘部分非常敏感。未檢索的區域將導致識別結果中缺少字元,冗餘區域將導致意外字元。建議的度量標準通過按缺失區域的比例和與其他文字重疊的多餘區域的比例縮小IOUs來懲罰IOUs。

現有評價方案的主要缺點是隻考慮在任意選擇的置信閾值下對測試集的最優F1分數。應該用一般目標檢測中廣泛採用的平均精度(AP)度量來評估他們的方法。F1分數只是精度-召回率曲線上的單點,而AP值考慮了整個精度-召回率曲線。因此,AP是一個更全面的指標,建議這一領域的研究人員使用AP而不是單獨使用F1分數。

4.2.2 文字識別和端到端系統

在場景文字識別中,預測的文字串直接與GT進行比較。效能評估是在字元級的識別率(即識別多少個字元)或單詞級(預測的單詞是否與GT完全相同)。ICDAR還引入了基於編輯距離的效能評估。在端到端評估中,首先以與文字檢測相似的方式執行匹配,然後比較文字內容。

端到端系統使用最廣泛的資料集是ICDAR 2013(Karatzas et al.,2013)和ICDAR 2015(Karatzas et al.,2015)。對這兩個資料集的評估是在兩種不同的設定下進行的,即Word Spotting setting 和 End-toEnd setting [http://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf]。在Word Spotting下,效能評估只關注場景影像中出現在預先設計的詞彙表中的文字例項,而忽略其他文字例項。相反,出現在場景影像中的所有文字例項都包含在“端到端”下。三種不同的詞彙表提供給候選文字。它們包括強語境化、弱語境化和泛化(Strongly Contextualised, Weakly Contextualised, and Generic)。

對幾種廣泛採用的基準資料集的最新方法的評價結果彙總如下表(用*表示多尺度效能的方法。由於一些工作中使用了不同的主幹特徵抽取器,所以除非沒有提供,否則只報告基於ResNet-50的效能):

(1)Detection on ICDAR 2013
在這裡插入圖片描述
(2)Detection on ICDAR MLT 2017
在這裡插入圖片描述
(3) Detection on ICDAR 2015
在這裡插入圖片描述

(4)Detection and end-to-end on Total-Text
在這裡插入圖片描述
(5)Detection on CTW1500
在這裡插入圖片描述
(6)Detection on MSRA-TD 500
在這裡插入圖片描述
(7)識別
在這裡插入圖片描述
(8)Performance of End-to-End and Word Spotting on ICDAR 2015 and ICDAR 2013
在這裡插入圖片描述
請注意,當前場景文字識別的評估可能存在問題。大多數研究人員在引用同一個資料集時實際上使用了不同的子集,從而導致了效能的差異。此外,在廣泛採用的基準資料集中,有一半的註釋是不完善的,例如忽略區分大小寫和標點符號,併為這些資料集提供新的註釋。儘管大多數論文聲稱訓練他們的模型以區分大小寫的方式識別,並且還包括標點符號,但他們可能會在評估時將其輸出限制為數字和不區分大小寫的字元。

參考文獻

[1] Liao, B. Shi, X. Bai, X. Wang, and W. Liu.Textboxes: A fast text detector with a single deep neural network. In AAAI, pages 4161–4167, 2017
[2] Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He,and J. Liang. EAST: An efficient and accurate scene text detector. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[3] Ma, W. Shao, H. Ye, L. Wang, H. Wang, Y. Zheng,and X. Xue. Arbitrary-oriented scene text detection via rotation proposals. In IEEE Transactions on Multimedia, 2018, 2017.
[4] Zhang, Y. Liu, L. Jin, and C. Luo. Feature enhancement network: A refined scene text detector. In Proceedings of AAAI, 2018, 2018.
[5] Zhan and S. Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, 2019.
[6] Wang, L. Zhao, X. Li, X. Wang, and D. Tao.Geometry-aware scene text detection with instance transformation network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1381–1389, 2018.
[7] Liu, L. Jin, S. Zhang, and S. Zhang. Detecting curve text in the wild: New dataset and new solution. arXiv preprint arXiv:1712.02170, 2017.
[8] Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[9] Wang, Y. Jiang, Z. Luo, C.-L. Liu, H. Choi, and S. Kim. Arbitrary shape scene text detection with adaptive text region representation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6449–6458, 2019b.
[10]
[11] Deng, H. Liu, X. Li, and D. Cai. Pixellink: Detecting
scene text via instance segmentation. In Proceedings of AAAI, 2018, 2018.
[12] Wu and P. Natarajan. Self-organized text detection
with minimal post-processing via border learning. In Proceedings of the IEEE Conference on CVPR, pages
5000–5009, 2017
[13] Wang, F. Yin, and C.-L. Liu. Scene text detection with novel superpixel based character candidate extraction. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 929–934. IEEE, 2017.
[14] Tian, M. Shu, P. Lyu, R. Li, C. Zhou, X. Shen, and
J. Jia. Learning shape-aware embedding for scene text detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4234–4243, 2019
[15] . Wang, E. Xie, X. Li, W. Hou, T. Lu, G. Yu, and S. Shao. Shape robust text detection with progressive scale expansion network. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019a
[16] Tian, W. Huang, T. He, P. He, and Y. Qiao. Detecting text in natural image with connectionist text proposal network. In In Proceedings of European Conference on Computer Vision (ECCV), pages 56–72. Springer, 2016.
[17] Shi, X. Bai, and S. Belongie. Detecting oriented text in natural images by linking segments. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017a.
[18] Zhang, X. Zhu, J.-B. Hou, C. Liu, C. Yang,H. Wang, and X.-C. Yin. Deep relational reasoning graph network for arbitrary shape text detection. arXiv preprint arXiv:2003.07493, 2020.
[19] Lyu, C. Yao, W. Wu, S. Yan, and X. Bai. Multioriented scene text detection via corner localization and region segmentation. In 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018b.
[20] Long, J. Ruan, W. Zhang, X. He, W. Wu, and C. Yao. Textsnake: A flexible representation for detecting text of arbitrary shapes. In In Proceedings of European Conference on Computer Vision (ECCV),2018.
[21]
[22] Baek, B. Lee, D. Han, S. Yun, and H. Lee. Character region awareness for text detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 9365–9374, 2019b.
[23] He, W. Huang, Y. Qiao, C. C. Loy, and X. Tang. Reading scene text in deep convolutional sequences. In Thirtieth AAAI conference on artificial intelligence, 2016.
[24] Shi, X. Bai, and C. Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE
transactions on pattern analysis and machine intelligence, 39(11):2298–2304, 2017b.
[25] Gao, Y. Chen, J. Wang, and H. Lu. Reading scene text with attention convolutional sequence modeling. arXiv preprint arXiv:1709.04303, 2017.
[26] Yin, Y.-C. Wu, X.-Y. Zhang, and C.-L. Liu. Scene text recognition with sliding convolutional character models. arXiv preprint arXiv:1709.01727, 2017.
[27] Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104– 3112, 2014.
[28] Liu, C. Chen, K.-Y. K. Wong, Z. Su, and J. Han. Star-net: A spatial attention residue network for scene text recognition. In BMVC, volume 2, page 7,2016b.
[29] Cheng, F. Bai, Y. Xu, G. Zheng, S. Pu, and S. Zhou. Focusing attention: Towards accurate text recognition in natural images. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 5086–5094. IEEE, 2017a.
[30] Bai, Z. Cheng, Y. Niu, S. Pu, and S. Zhou. Edit probability for scene text recognition. In CVPR 2018, 2018.
[31] Liu, Y. Li, F. Ren, H. Yu, and W. Goh. Squeezedtext:A real-time scene text recognition by binary convolutional encoder-decoder network. AAAI, 2018d.
[32] Shi, X. Wang, P. Lyu, C. Yao, and X. Bai. Robust scene text recognition with automatic rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4168–4176, 2016.
[33] Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In Advances in neural information processing systems, pages 2017–2025, 2015.
[34] Long, Y. Guan, B. Wang, K. Bian, and C. Yao. Alchemy: Techniques for rectification based irregular scene text recognition. arXiv preprint arXiv:1908.11834, 2019.
[35] Zhan and S. Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019.
[36] Yang, Y. Guan, M. Liao, X. He, K. Bian, S. Bai,C. Yao, and X. Bai. Symmetry-constrained rectification network for scene text recognition. In Proceedings of the IEEE International Conference on Computer Vision, pages 9147–9156, 2019.
[37] Yang, D. He, Z. Zhou, D. Kifer, and C. L. Giles. Learning to read irregular text with attention mechanisms. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17, pages 3280–3286, 2017.
[38] Cheng, X. Liu, F. Bai, Y. Niu, S. Pu, and S. Zhou. Arbitrarily-oriented text recognition. CVPR2018, 2017b.
[39] .Liu, C. Chen, and K. Wong. Char-net: A characteraware neural network for distorted scene text recognition. In AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA, 2018b.
[40] Liao, J. Zhang, Z. Wan, F. Xie, J. Liang, P. Lyu, C. Yao, and X. Bai. Scene text recognition from twodimensional perspective. AAAI, 2019b.
[41] Xu, J. Ba, R. Kiros, K. Cho, A. Courville,R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International Conference on Machine Learning, pages 2048–2057, 2015.
[42] Li, P. Wang, C. Shen, and G. Zhang. Show, attend and read: A simple and strong baseline for irregular text recognition. AAAI, 2019.
[43] Long, Y. Guan, K. Bian, and C. Yao. A new perspective for flexible feature gathering in scene text recognition via character anchor pooling. In ICASSP
2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2458–2462. IEEE, 2020.
[44] Qin, A. Bissacco, M. Raptis, Y. Fujii, and Y. Xiao. Towards unconstrained end-to-end text spotting. In Proceedings of the IEEE International Conference on Computer Vision, pages 4704–4714, 2019.
[45] Long, Y. Guan, B. Wang, K. Bian, and C. Yao. Alchemy: Techniques for rectification based irregular scene text recognition. arXiv preprint arXiv:1908.11834, 2019.
[46] Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Deep structured output learning for unconstrained text recognition. ICLR2015, 2014a.
[47] Yu, X. Li, C. Zhang, J. Han, J. Liu, and E. Ding. Towards accurate scene text recognition with semantic reasoning networks. arXiv preprint arXiv:2003.12294, 2020.
[48] Xia, F. Tian, L. Wu, J. Lin, T. Qin, N. Yu, and T.-Y. Liu. Deliberation networks: Sequence generation beyond one-pass decoding. In Advances in Neural Information Processing Systems, pages 1784–1794, 2017.
[49] Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Reading text in the wild with convolutional neural networks. International Journal of Computer
Vision, 116(1):1–20, 2016.
[50] Liao, B. Shi, X. Bai, X. Wang, and W. Liu. Textboxes: A fast text detector with a single deep neural network. In AAAI, pages 4161–4167, 2017.
[51] Bartz, H. Yang, and C. Meinel. See: Towards semisupervised end-to-end scene text recognition. arXiv preprint arXiv:1712.05404, 2017.
[52] Li, P. Wang, and C. Shen. Towards end-to-end text spotting with convolutional recurrent neural networks. In The IEEE International Conference on Computer Vision (ICCV), 2017a.
[53] Liu, D. Liang, S. Yan, D. Chen, Y. Qiao, and J. Yan. Fots: Fast oriented text spotting with a unified network. CVPR2018, 2018c.
[54] Busta, L. Neumann, and J. Matas. Deep textspotter: An end-to-end trainable scene text localization and recognition framework. In Proc. ICCV, 2017.
[55] He, Z. Tian, W. Huang, C. Shen, Y. Qiao, and C. Sun. An end-to-end textspotter with explicit alignment and attention. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pages 5020–5029, 2018.
[56] Lyu, M. Liao, C. Yao, W. Wu, and X. Bai. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In In Proceedings of European Conference on Computer Vision (ECCV), 2018a.
[57] Qin, A. Bissacco, M. Raptis, Y. Fujii, and Y. Xiao. Towards unconstrained end-to-end text spotting. In Proceedings of the IEEE International Conference on Computer Vision, pages 4704–4714, 2019.
[58] Xing, Z. Tian, W. Huang, and M. R. Scott. Convolutional character networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 9126–9136, 2019.
[59] Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Synthetic data and artificial neural networks for natural scene text recognition. arXiv preprint
arXiv:1406.2227, 2014b.
[60] Gupta, A. Vedaldi, and A. Zisserman. Synthetic data for text localisation in natural images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2315–2324,2016.
[61] . Zhan, S. Lu, and C. Xue. Verisimilar image synthesis for accurate detection and recognition of texts in scenes. 2018.
[62] Liao, B. Song, M. He, S. Long, C. Yao, and X. Bai. Synthtext3d: Synthesizing scene text images from 3d virtual worlds. arXiv preprint arXiv:1907.06007,2019a.
[63] Long and C. Yao. Unrealtext: Synthesizing realistic scene text images from the unreal world. arXiv preprint arXiv:2003.10608, 2020.
[64] Wu, C. Zhang, J. Liu, J. Han, J. Liu, E. Ding, and X. Bai. Editing text in the wild. In Proceedings of the 27th ACM International Conference on Multimedia,
pages 1500–1508, 2019.
[65] Yang, H. Jin, J. Huang, and W. Lin. Swaptext: Image based texts transfer in scenes. arXiv preprint arXiv:2003.08152, 2020.
[66] Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V. R. Chandrasekhar, S. Lu, et al. Icdar 2015 competition on robust reading. In 2015 13th International Conference on Document Analysis and Recognition (ICDAR), pages 1156–1160. IEEE, 2015.
[67] N. Nayef et al., “ICDAR2019 Robust Reading Challenge on Multi-lingual Scene Text Detection and Recognition — RRC-MLT-2019,” 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019.
[68] https://github.com/cs-chan/Total-Text-Dataset
[69] Yuan, Z. Zhu, K. Xu, C.-J. Li, and S.-M. Hu. Chinese text in the wild. arXiv preprint arXiv:1803.00085, 2018.
[70] Sun, J. Liu, W. Liu, J. Han, E. Ding, and J. Liu. Chinese street view text: Large-scale chinese text reading with partially supervised learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 9086–9095, 2019.
[71] Mishra, K. Alahari, and C. Jawahar. Scene text recognition using higher order language priors. In BMVC-British Machine Vision Conference. BMVA,
2012.

相關文章