DDRG翻譯.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

葛葛葛立鵬啊發表於2020-10-16

摘要

由於場景文字的多樣性和複雜性,任意形狀文字檢測是一項具有挑戰性的任務。在本文中,我們提出了一種新穎的統一關係推理圖網路用於任意形狀的文字檢測。在我們的方法中,一個獨創的區域性圖構建了文字建議模型,通過卷積神經網路(CNN)和基於圖關係卷積網路的深度關係推理網路(GCN),使我們的網路達到端到端訓練。具體來說,每個文字例項都將分成一系列小的矩形元件,小元件的幾何屬性(例如高度,寬度和方向)將通過文字目標模型進行估算。給定幾何屬性,區域性圖構造模型可以大致建立不同文字元件之間的聯絡,為了進一步的推理並推論元件與其相鄰物件之間連結的相似性,我們採用基於圖網路對區域性圖進行深度關係推理。在公開資料集上進行的實驗證明了我們方法的最新效能。

1.介紹

場景文字檢測已廣泛應用於各種應用程式,例如線上教育,產品搜尋,即時翻譯和視訊場景解析[39,26]。 隨著深度學習的逐漸發展,文字檢測演算法[27、42、21、19]在受控的環境下,例如文字例項具有規則的形狀或長寬比能達到很好的效果, 但是,由於文字限定的代表形式,往往無法發現具有任意形狀的文字。近些年一些方法例如TextSnake [17] and CRAFT [1],嘗試用CC(一些列的元件定位字元,最後合併元件)的方法來解決這個問題,然而,這些方法無法獲得文字元件之間的更豐富的關係,從而無助於文字例項的劃分。
在基於CC的方法中,一項基本任務是挖掘分離的字元/元件區域之間的合理關係,以將它們連結為整體文字例項。現有方法通常使用預先定義的規則,連結對映或嵌入對映來劃分文字例項。一般來說,連結對映和嵌入對映比使用預定義規則魯棒性更好,尤其是在長文字和曲線文字的情況下。從我們的觀察和實驗中,利用深度關係推理來挖掘這些元件區域之間的穩定關係能極大的提高任意形狀文字檢測的效能。基於連結對映或嵌入對映的方法[21,28]通常使用CNN來推論各個元件的連結關係,但是這些分離的元件實際上是非歐幾里得資料,而CNN在處理非歐幾里得資料時效果並不好。因此,簡單連結對映或嵌入對映不足以學習兩個不相鄰元件之間的穩定關係。非歐幾里得資料可以用圖表示,所以我們可以將單獨的文字元件轉換為圖形,如圖1所示,我們將一個文字元件視為節點。因此,我們可以選擇一個節點作為樞軸並連線將其與周圍的節點合併成區域性圖,如3.3部分所示。區域性圖中包含的上下文資訊(節點之間的邊緣)有助於估計樞軸與其他節點之間的連結可能性。眾所周知,圖網路在推論圖上節點之間的關係方面具有先天優勢。 最近,基於GCN的方法在聚類人臉[33]和各種任務的全域性推理[2]中取得了顯著的效能。 受到[33,2]論文的激勵,我們應用圖卷積網路對區域性圖執行深度推理,以推斷元件和對應相鄰元件之間的深度連結可能性,以進行任意形狀文字檢測。
在本文中,我們提出了一種新穎的統一深度關係推理圖網路用於任意形狀文字檢測。根據CTPN [27]和TextSnake [17],我們將每個文字例項分割為文字元件,並提出一個文字建議網路以估算這些文字元件的幾何屬性。要將生成的元件分組,我們採用基於圖的網路來執行深度關係推理並使用元件和相鄰元件的幾何屬性來推測連結關係。 此外,設計了一個區域性圖來連線文字建議網路和關係推理網路,使我們的網路達到端到端訓練,最後,我們根據相關結果將檢測到的文字成分組合為整體文字例項。
總之,這篇論文的貢獻分為以下三點:
我們提出了一種新穎統一的端到端訓練任意形狀文字檢測的框架,包含一種新穎的區域性圖連線了基於CNN的文字建議網路和基於GCN的關係推理網路。
據我們所知,我們的論文提出了通過圖卷積網路執行深度關係推理以進行任意形狀文字檢測的最早嘗試之一。
所提出的方法在多邊形資料集和四邊形資料集上都實現了最新的效能。

在這裡插入圖片描述

2.相關工作

基於迴歸的方法。這種方法依賴具有單詞級和線級先驗知識[19、10、11、42]的
物件檢測框架的框迴歸。與一般物件不同,文字通常以具有各種縱橫比的不規則形狀存在。 為了解決這個問題,RRD [11]調整了SSD的錨定比[13]用於適應不規則形狀的縱橫比變化。 Textboxes ++ [10]修改了卷積核心和錨定框以有效捕獲各種文字形狀。 EAST [42]直接推斷候選單詞的畫素級四邊形,而無需錨定機制和候選框檢測。 儘管基於迴歸的方法在四邊形文字檢測方面取得了良好的效能,他們通常無法很好地適應任意形狀的文字檢測。
基於分割的方法。這種方法[3,30,28,34,17]主要從語義分割中獲得靈感並通過估計單詞邊界區域來檢測文字。在PixelLink [3]中,預測了一個畫素與其相鄰畫素之間的連結關係,以對屬於同一例項的畫素進行分組。為了有效區分相鄰的文字例項,PSENet [30]採用了漸進式縮放演算法來逐步擴充套件預定義的核心。田等[28]將每個文字例項視為一個聚類,並通過嵌入對映來執行畫素聚類。 TextField [34]採用深度方向欄位來連結相鄰畫素並生成候選物件文字部分。 但是,這些方法的效能很大程度上受到分割精度的質量影響。
基於CC的方法。基於CC的方法通常首先檢測單個文字部分或字元,然後檢測連結或組後處理過程以生成最終文字。在深度學習普及之前,基於CC的方法[24,38,41,37]已經廣泛用於傳統場景文字檢測方法。在深度學習時代,基於CC的方法也得到了廣泛的研究[27、21、25、1、4]。CTPN [27]使用了改進的Faster R-CNN [20]框架提取具有固定大小寬度的水平文字成分,可容易的連線密集文字元件並生成水平文字行。SegLink[21]將每個場景文字分解為兩個可檢測元素,即片段和連結,其中連結指示一對相鄰的片段屬於同一個詞。CRAFT [1]通過探索每個字元和字元之間的親和性來檢測文字區域。TextDragon [4]首先檢測文字的區域性區域,然後根據幾何關係對邊界框進行分組。
關係推理。 基於CC的方法通常是對於長文字或非四邊形文字來說,魯棒性強,但是這些方法的效能在很大程度上取決於分組或連結結果的魯棒性。 在[3]中,文字畫素可以通過學習畫素與其相鄰畫素之間的連結關係來聚集。 在[28]中,嵌入特徵常常用於提供例項資訊並生成文字區域。 CRAFT [1]通過弱監督學習預測字元區域對映和親和性對映。區域對映用於定位字元,並使用親和性對映將字元分組為一個例項。這些方法它們是基於CNN的,由於區域性卷積運算元的限制,它們不能直接捕獲遠距離的分量區域之間的關係。 最近,Wang等[33]提出了一種基於頻譜的GCN來解決面部聚類的問題,設計的GCN可以合理地連結複雜情況下屬於同一個人的不同面孔例項。

3.預計方法

3.1總覽
我們的方法的框架如圖2所示。文字元件候選框網路與深層關係推理圖網路共享卷積特徵,並且共享卷積使用VGG-16 [23]和FPN [12]作為骨幹網路,如圖3所示。文字候選框網路使用共享特徵來估計文字元件的幾何屬性,獲取幾何屬性後,區域性圖可以粗略地建立不同文字元件之間的連結。 基於區域性圖,關係推理網路將進一步推斷元件與其相鄰元件之間連結的深層可能性。最後,根據推理結果文字元件將彙總為整體的文字例項。
在這裡插入圖片描述
在這裡插入圖片描述
3.2文字元件預測
在我們的工作中,每個文字例項都是由一系列有序的矩形元件構成的,如圖4(a)所示。每個文字元件D與一組幾何屬性相關聯,即D =(x,y,h,w,cosθ,sinθ),其中x和y是文字框的軸; h和w是元件的高度和寬度; cosθ和sinθ表示文字元件的方向。 h是h1和h2的總和,如圖4(c)所示,w通過對h的線性變換獲得,其計算公式為:

在這裡插入圖片描述
其中hi表示第i個文字元件的高度。 在實驗中,我們根據經驗設定wmin = 8和wmax = 24。
為了定義文字元件的方向並容易的提取文字中心區域(TCR),我們使用[17]中的方法來計算文字區域的頭尾,如圖4(a)中的黑色箭頭所示,文字區域沿長邊分為一系列有序四邊形區域(以黃線表示),如圖4(a)所示。因此我們可以獲得兩組點P1 = {tp0,tp1,…,tpi,…,tpn}和P2 = {bp0,bp1,…,bpi,…,bpn}。 用紅點標記的線是頂線,綠點是底線。 在我們的方法中,我們需要根據以下標準明確定義每個文字例項的頂部和底部:

在這裡插入圖片描述
其中V(V = {tp0- bp0,…,tpi-bpi,…,tpn-bpn})是一組頂點(tpi是頂線的中心,bpi是底線的中心)。如果p> = 0,則P1為頂部,P2是底部,否則P1是底部,P2是頂部。向量vi的角度表示文字元件的方向θ。如圖4(b)所示,通過縮小文字區域(TR)獲得TCR。 首先,我們計算文字中心線,然後,將中心線的兩端縮小0.5w末端畫素,使網路更容易分離相鄰的文字例項,並降低NMS的計算成本。 最後,我們將中心線區域擴大0.3h。 提取共享特徵後,應用兩個卷積層來預測文字元件的屬性為:
在這裡插入圖片描述
其中CR∈Rh×w×8,其中TR / TCR的分類logits有4個通道,h1,h2,cosθ和sinθ的迴歸logits也有4個通道,通過softmax TR / TCR並對平方和等於1的cosθ和sinθ進行正則化,可以得到最終的預測[17]。最終檢測結果由正樣本的閾值和LNMS產生。在這裡插入圖片描述
檢測損失。 文字元件預測損失為由兩個損失組成,計算公式為:
在這裡插入圖片描述
其中Lreg是平滑的L1 [20]迴歸損失,Lcls是交叉熵分類損失。 分類損失的計算公式為:在這裡插入圖片描述
其中Ltr代表TR的損失; Ltcrp僅計算TR內部的畫素,而Ltcrn僅計算TR外部的畫素。 Ltcrn用於抑制TCR中的背景噪聲。 以這種方式,獲得的TCR可以有益於後處理步驟。 OHEM [22]用於TR損耗,其中正負之間的比例設定為3:1。 在我們的實驗中,權重λ1和λ2分別根據經驗設定為1.0和0.5。
由於非TCR區域缺少高度和方向屬性,因此我們僅計算TCR區域的迴歸損失:在這裡插入圖片描述
其中hki,sinθ和cosθ是真實值,hˆ ki,ˆ sinθ和ˆ cosθ是相應的預測值; Ω表示TCR中的一組正元素; h是真值框中文字元件的高度。 權重log(h + 1)對於大規模文字元件的高度迴歸很有幫助。 在我們的論文中,將超引數β設定為1.0。

3.3區域性圖的生成
我們根據兩個節點(文字元件)在區域性圖中的上下文資訊來估計它們之間的連結可能性。 為每個影像構造一個完整的圖形效率不高,因為文字元件通常僅具有與其相鄰連線的可能性。 因此,我們為每個影像構造多個區域性圖。 這些區域性圖通常包含有限數量的節點,這將使關係推理變得高效而容易。
我們修改了IPS [33]來生成區域性圖,其中將樞軸點的鄰接(直到h-hop)用作節點。 在我們的論文中,我們僅將2-hop用作區域性圖的節點。為了清楚說明,Vp用於表示區域性圖Gp中的節點,而p表示樞軸。 p的1-hop鄰接由8個最近鄰接組成,而2-hop的鄰接由4個最近的鄰接組成。 高階鄰接提供樞紐與其鄰接之間上下文的區域性結構的輔助資訊[33]。在這,我們僅僅考慮執行KNN運算的節點之間的歐幾里得相似度Es,並計算為:在這裡插入圖片描述
其中D(p,vi)是p和vi之間的L2距離,Hm是影像高度,Wm是影像寬度。 為避免訓練中由許多相同圖引起的容易樣本的梯度累積,樞軸p應滿足以下條件:在這裡插入圖片描述
其中Gp和Gq是兩個區域性圖; 樞軸p和q在同一文字例項T中; Gp∩Gq是Gp和Gq的1-hop鄰接的交集; Gp∪Gq是Gp和Gq的1-hop鄰接的並集。 在我們的實驗中,ξ設定為0.75。這種策略不僅可以大大加速,而且可以減少容易樣本的數量,同時又可以使難例樣本和容易樣本保持平衡。
3.4 深度推理網路
每個影像中的文字元件將通過區域性圖生成分為多個區域性圖,該區域性圖由樞軸及其2-hop鄰接組成。區域性圖中包含的粗略連結資訊(節點之間的邊)對於估計樞軸及其鄰接之間的連結可能性很有用。為了進一步推理和推導樞軸與它的鄰接之間的聯絡的可能性,我們採用了一個基於圖的神經網路[33,8],以基於區域性圖挖掘樞紐與它的鄰接之間的聯絡。圖通常表示為g(X,A),而圖卷積網路通常將特徵矩陣X和鄰接矩陣A作為網路的輸入。 因此,我們需要提取特徵矩陣X並計算區域性圖的矩陣A。
節點特徵提取。 節點特徵由兩部分特徵組成,即RROI特徵和幾何特徵。 為了獲得RROI特徵,我們使用RRoI-Align層,該層整合了RoIAlign [6]和RRoI [19]的優點,以提取輸入文字元件的特徵塊。 為了確保模型的收斂能力,我們在訓練中使用真值框來生成文字元件。同一文字例項中的文字元件具有相似的幾何特徵。但是,RROI特徵將丟失一些幾何屬性,例如位置資訊。 因此,在生成節點特徵時,應考慮這些幾何屬性,如圖5所示。對於一個文字元件,我們將特徵對映Fn送到RRoI-Align層,然後可以獲得1×3×4×Cr的特徵塊,在圖3中顯示了Fn。然後,將其reshape為1×12·Cr,即Fr。根據[29,5]中的技術,文字元件的幾何屬性被嵌入到高維空間中。通過將不同波長的正弦和餘弦函式應用於標量z來執行嵌入:在這裡插入圖片描述
嵌入向量ε(z)的維數為Cε。因此,每個文字分量都嵌入到維數為6·Cε的向量Fg中。 最後,將Fr和Fg連線在一起作為節點特徵。
節點特徵歸一化。 我們通過減去xp來歸一化節點的特徵。 它將樞軸p資訊編碼為區域性圖的特徵,並使關係推理網路容易地瞭解樞軸及其鄰接之間的連結關係。在這裡插入圖片描述
其中xp是樞軸p的特徵; Vp表示區域性圖上的節點集,其特徵為{xq | q∈Vp}。
鄰接矩陣的生成。 我們使用鄰接矩陣Ap∈RN * N來表示區域性圖的拓撲結構。對於一個節點ni∈Vp,我們過濾掉前u個最近的鄰接U(ni)。 對於節點nj∈U(ni),我們將設定Ap(ni,nj)=1。在我們的論文中,根據經驗將超引數u設定為3。
圖卷積。 在獲得特徵矩陣X和鄰接矩陣A之後,我們使用基於圖的關係推理網路基於所建立的圖來估計樞軸及其鄰接的連結關係。 我們在[33,8]中修改結構,我們方法中的圖卷積層可以表示為:在這裡插入圖片描述
其中X(l)∈RN×di,Y(l)∈RN×do,di / do是輸入/輸出節點特徵的維數,N是節點數; G是大小為N*N的對稱歸一化拉普拉斯運算元,運算子⊕表示矩陣級聯; W(l)是特定於層的可訓練權重矩陣; σ(·)表示非線性啟用函式;在這裡插入圖片描述
是具有增加的自連線的區域性圖的鄰接矩陣; IN是單位矩陣,並且是對角矩陣,其中在這裡插入圖片描述
。 我們的關係推理模型是由ReLU函式啟用的一個批處理規範化層和四個圖卷積層組成。 我們採用softmax交叉熵損失作為優化的目標函式。類似於[33],我們只在訓練中反向傳播1-hop鄰接上節點的梯度,因為我們只在乎樞軸及其1-hop鄰接之間的聯絡。 對於測試,我們也只考慮1-hop節點的分類。
3.5 推理
給定文字元件,我們根據推理結果將文字元件分組為文字例項。 我們首先將閾值分別應用於TR和TCR,然後再應用NMS來減少冗餘。 為了推斷樞紐及其相鄰之間連結的可能性,我們遍歷所有文字元件,構造一個以每個元件為樞紐的區域性圖形。 因此,我們獲得了由連結可能性加權的一組邊緣。 最後,我們使用“呼吸優先搜尋”(Breath First Search,BFS)對連結進行聚類和合並。
獲得聚類的文字元件後,我們對這些元件進行排序以生成邊界。 文字例項T可以表示為T = {D0,… Di,…,Dn}。 將MinPath演算法應用於搜尋所有文字元件中心的最短路徑,然後通過搜尋結果對T進行排序。 對於邊界生成,我們只需要順序連線有序文字元件中有序頂部和底部的中點,如圖2所示。

4.實驗

4.1資料集
Total-Text:它由1255張訓練和300張測試的複雜影像組成,包括帶有多邊形和單詞級註釋的水平,多向和彎曲文字例項。
CTW-1500:它包含1,000張訓練和500張測試影像。 每個影像都有彎曲的文字例項,這些例項均由具有14個頂點的多邊形進行註釋。
MSRA-TD500:它包含500張訓練和200張測試影像,包括英語和中文指令碼。 該資料集專用於檢測任意方向的多語言長文字。
ICDAR2015:它由1000張訓練影像和500張測試影像組成,包括許多多方向的和非常小規模的文字例項。 真值框用單詞級四邊形註釋。
ICDAR2017:它由7200張訓練影像,1800張驗證影像和9000張測試影像以及9種語言的文字組成,用於多語言場景文字檢測。 文字例項也用四邊形註釋。
4.2實施細節
網路的骨幹是ImageNet [9]上經過預訓練的VGG16 [23]。訓練過程主要包括兩個步驟:在SynthText資料集上進行我們兩個週期的網路預訓練,以及在特定基準資料集上進行600個週期的微調。在預訓練階段,我們隨機裁剪文字區域,將其調整為512。將批大小設定為12。將使用Adam優化器以10-4的學習率訓練模型。在微調中,為了進行多尺度訓練,我們隨機裁剪文字區域,並將其大小分別調整為640×640(批處理為8),800×800(批處理為4)和960×960(批處理為4)。在微調中,使用SGD優化器來訓練我們的模型。初始學習率是0.01,然後每100個週期乘以0.8。此外,還應用了基本的資料增強技術,例如旋轉,裁剪,顏色變化和部分翻轉。與區域性圖有關的超引數在訓練和測試期間是固定的。實驗是在單個GPU(RTX-2080Ti)和PyTorch 1.2.0上執行的。在這裡插入圖片描述
消融研究
為了驗證關係推理網路的有效性,我們在Total-Text,CTW1500和MSRA-TD500上進行了消融實驗。表1顯示了三個資料集上的實驗結果。為了減少資料對實驗結果的影響,我們採用SynthText進行預訓練模型,然後在Total-Text和CTW1500上進行微調。由於MSRA-TD500由英語和中文組成,因此我們使用ICDAR2017-MLT對我們的網路進行MSRA-TD500的預訓練。 Total-Text,CTW1500和MSRA-TD500中影像的長邊分別限制為1280,1024和640,同時保持寬高比。 如表1所示,在Hmean上,Total-Text,CTW1500和MSRA-TD500的關係推理網路分別實現了1.83%,0.78%和4.27%的改進。值得注意的是,我們使用關係推理網路的方法的召回率在所有資料集中均得到了顯著改善(Total Text佔3.05%,CTW1500佔0.88%,MSRA-TD500佔3.78%)。 我們的方法一致地提高了在長文字豐富的MSRATD500的檢測效能(召回率3.78%,精度4.81%,Hmean 4.27%)。 我們的方法在CTW1500上的效能並不出色,因為其註釋有時令人困惑。 CTW1500沒有“請勿關注”,因此一些小文字和非英語文字均未新增註釋,如圖6.1所示。 此外,文字行註釋令人困惑,如圖6. 2和3所示。
在這裡插入圖片描述
與最新技術的比較
多邊形型別資料集。在這裡,ICDAR2017-MLT用於預訓練我們的模型,並且僅分別在CTW1500和Total-Text上進行微調。 所有實驗都是以單個影像解析度執行。
Total-Text。該資料集主要包含彎曲的和麵向多方向的文字,並在字級上進行註釋。在測試中,如果最短邊小於512,則將其最短邊的大小調整為512,並保持最長邊不大於1280。一些可見的結果在圖7(a)(b)中列出。 從圖7中,我們可以看到我們的方法可以精確地檢測單詞級不規則文字,並且可以準確地分離出任意形狀的封閉文字例項。定量結果顯示在表2中。所提出的方法Hmean可達到85.73%,明顯優於其他方法。在這裡插入圖片描述

在這裡插入圖片描述
CTW1500。 該資料集主要包含彎曲的和多方向的文字,並在行級別進行註釋。在測試中,如果最短邊小於512,則將其最短邊的大小調整為512,並保持最長邊不大於1,024。圖7(c)和圖6中顯示了一些可見的結果。 所提出的方法可以正確地正確檢測任意形狀文字的邊界。在標籤2中列出了定量結果,與其他最新方法相比,我們的方法在召回率(83.02%)和Hmean(84.45%)達到了理想的效果。 具體來說,我們的方法在CTW1500和Total-Text上的效能大大優於TextSnake,分別將Hmean提高了8.85%和6.6%。
四邊形型別資料集。 為了進行比較,我們採用IC17進行模型預訓練,然後分別在IC15和TD500上進行微調。 但是,這些資料集是使用矩形框評估的,因此我們需要將檢測結果轉換為矩形框。因此,我們將文字例項縮小0.05,並採用最小的外接矩形進行評估。
MSRA-TD500。該資料集包含許多長文字,並且文字比例差異很大。 在測試中,如果最短邊小於512,我們調整最短邊為512,並保持最長邊不大於640。圖7(d)是一些代表性的結果。 所提出的方法成功地檢測了任意方向和大小的長文字行。 表2中列出了與該資料集上其他方法的定量比較。值得注意的是,我們的方法在Hmean上達到85.08%,大大優於其他方法。
ICDARs(IC15,IC17)。考慮到IC15包含許多低解析度和許多小文字例項。 例項平衡[3]用於輔助訓練。 IC17包含多語言場景文字,並且註釋以單詞級別給出。 推斷而言,我們會適當調整測試影像的大小。 對於IC15,如果最短邊小於960,我們將最短邊的大小調整為960,並保持最長邊不大於1960。對於IC17,如果最短邊小於512,我們將最短邊的大小調整為512,並保持最短邊的大小,最長邊不大於2048。定量結果列在表4和表3。顯然,我們的方法在IC15上達到86.56%的Hmean,在IC17上達到67.31%的Hmean。 所提出的方法與最新方法相比具有競爭優勢。
在這裡插入圖片描述
5.結論
在本文中,我們提出了一種新穎的基於CC的任意形狀場景文字檢測方法。 所提出的方法採用基於頻譜的圖卷積網路來學習文字元件之間的連結關係,並使用該資訊來指導後期處理,以將元件正確地連線到文字例項。 在五個基準測試上的實驗表明,該方法不僅對任意形狀的文字都有良好的檢測效能,而且對定向和多語言文字也有很好的檢測效果。 將來,我們對開發具有圖形網路的任意形狀的文字的端到端文字閱讀系統感興趣。
致謝。這項工作得到了國家重點研發計劃(No.2019YFB1405990),北京自然科學基金(No.4194084),中國郵政博士科學基金會(No.2018M641199)和中央大學基礎研究基金的支援 (編號FRF-TP-18-060A1)。

最後

DDRG的介紹比較少,而且翻譯的一般不是很標準為了方便大家學習,這篇是我的一個好朋友幫助翻譯的,翻譯了兩天很辛苦,在這致以敬意,希望大家能喜歡。

相關文章