Character Region Awareness for Text Detection
KeyWords Plus: CVPR2019 Curved Text
paper :https://arxiv.org/abs/1904.01941
NAVER:line的母公司,韓國的最大的網際網路公司,字元級別的文字檢測,採用了CAM熱力圖的操作去檢測每一個字元
Introduction
字元級別的文字檢測網路,用的是分水嶺演算法生成label,採用heatmaps去得到啟用值最大的目標區域,有點attention的感覺。
1、論文創新點
1.提出了一篇字元級別的檢測演算法
2.預測得到 :1.The character region score 2. Affinity score. The region score is used to localize individual characters in the image, and the affinity score is used to group each character into a single instance.
3.Propose a weakly- supervised learning framework that estimates character- level ground truths in existing real word-level datasets.
2、演算法主體
改論文主要預測每個字元區域和字元之間的一個緊密程度預測,因為沒有字元級別的label,所以模型訓練在一個弱監督的方式下。網路的backbone採用VGG16,之後接上取樣最終輸出兩個通道:the region score and the affinity score
訓練在一個弱監督學習的方式下,有人造合成的資料集具有字元級別的label,real image沒有字元級別的標註時,自己檢測合成產生label再進行訓練。如上圖所示,對真實場景中的資料集和人造合成的資料集有不同的訓練方式。
3、label generation
分別產生Region Score GT和Affinity Score GT
the following steps to approximate and generate the ground truth for both the region score and the affinity score:
1) prepare a2-dimensional isotropic Gaussian map;
2) compute perspective transformbetween the Gaussian map region and each character box;
3) warp Gaussian mapto the box area.
使用小感受野也能預測大文字和長文字,只需要關注字元級別的內容而不需要關注整個文字例項。
三步產生字元級別的label:
1、摳出文字級別的內容
2、預測region score區域
3、運用分水嶺演算法
4、得到字元基本的文字框
5、貼上文字框
為了防止在弱監督方式下產生的錯誤label帶偏網路,該論文提出了一個評價方式(雖然我沒有咋看明白),大概就是計算一個
4、Post-processing
正常文字後處理分為以下幾步:
1、首先對0-1之間的機率圖進行取閾值計算
2、使用Connected Component Labeling(CCL) 進行區域連線
3、最後使用opencv的MinAreaRect去框出最小的四邊形區域
不規則文字檢測後處理分為以下幾步(如上圖所示):
1、先找到掃描方向的區域性最大值(blue line)
2、連線所有the local maxima上的中心點叫做中心線
3、然後將the local maxima lines旋轉至於中心線垂直
4、the local maxima lines上的端點是文字控制點的候選點,為了能更好的覆蓋文字,將文字最外端的兩個控制點分別向外移動the local maxima lines的半徑長度最為最終的控制點。
5、Experiment Results
6、Conclusion and Future work
個人觀點:不太受感受野的限制,只關注單個文字,對於長文字和不規則文字不必特意去設定相應大小的卷積提升感受野。
反饋與建議
郵箱:<weij ia_wu@yeah.net>