摘要:本文提出了一種針對文字識別的半監督方法。區別於常見的半監督方法,本文的針對文字識別這類序列識別問題做出了特定的設計。
本文分享自華為雲社群《[CVPR 2022] 不使用人工標註提升文字識別器效能》,作者:Hint。
本文提出了一種針對文字識別的半監督方法。區別於常見的半監督方法,本文的針對文字識別這類序列識別問題做出了特定的設計。具體來說,本文首先採用了teacher-student的網路結構,然後採用字元級別的一致性約束對teacher和student網路的預測進行對齊。此外,考慮到文字識別是step-by-step,每一個字元的預測都和之前時刻的預測結果相關。為了避免student網路在當前時刻的預測結果受到之前時刻錯誤預測的影響,本文將當前時刻之前,teacher的預測結果作為student當前時刻之前的預測結果,這樣可以得到比較魯棒的一致性約束,從而提升效能。
近年來,場景文字識別(STR)因其廣泛應用而備受關注。大多數識別模型需要大量的有標註資料進行強監督訓練。雖然合成資料可以緩解識別模型對資料量的需求,但是合成資料和真實場景的域間差距極大地限制了識別模型在真實場景下的效能。在本文中,作者希望透過同時利用有標註的合成資料以及無標註的真實資料來提升STR模型的效能,完全不需要任何人工標註。本文提出了一種魯棒的基於一致性約束的半監督方法,可以有效解決合成資料與真實資料域不一致導致的不穩定問題。字元級的一致性約束旨在減輕序列識別過程中錯誤識別導致的不對齊問題。在標準文字識別資料集上,大量實驗證明了所提出方法的有效性。該方法能夠穩步提升現有的STR模型,並得到最先進的結果。此外,本文也是第一個將一致性約束應用到文字識別領域的工作。
方法:
本框架包括兩個分支,一個是輸出有標籤合成資料的強監督分支,一個是輸入無標籤真實資料的半監督分支。強監督分支和一般的識別模型一樣。關於半監督分支,採用teacher-student進行一致性約束。具體來說,將強監督得到的預訓練模型作為teacher和student網路的初始化模型,然後對同一張輸入影像進行弱資料擴增和強資料擴增,並分別輸入到teacher和student網路中;將teacher網路的預測結果作為偽標籤對student的輸出進行監督。
由於文字識別是一個序列識別問題,當前時刻的預測結果和之前時刻的預測結果相關。為了儘可能減少target和online模型在同一時刻預測結果的不對齊問題,online分支之前時刻的預測結果會和target分支之前時刻的預測結果保持一致,然後再進行當前時刻的字元預測。字元級別的一致性loss如下公式所示,Dist()可以是交叉熵,KL-Div或者MSE,本文采用的是KL-Div。
此外,為了減輕合成資料與真實資料之間的域間差別,本文還使用了字元級別的域對齊模組。該模組首先分別將合成資料和真實資料每個時刻的視覺特徵收集起來構成一個集合H
,然後計算他們各自的協方差矩陣cov()。
最終,整個框架的loss由強監督識別loss,一致性約束loss和域適應loss構成:
實驗:
在引入無標籤資料之後,當前識別模型的效能能夠得到穩定的提升。
相比於其他利用無標籤資料的方法而言,本文提出的基於一致性約束的方法能夠優於其他幾種方法。
該實驗主要證明了online model中的projection layer,使用EMA更新的target model和domain adaptation模組的有效性。
該實驗證明了在online model中使用和target model相同的之前時刻預測結果的有效性。
該實驗主要討論了一致性loss的型別對最終效能的影響,可以看到交叉熵和KL-Div效能差不多,且優於MSE。