極鏈科技兩次奪冠Google AI地標識別大賽,推動國內識別檢索技術再進階

新聞助手發表於2019-06-06

經過2個月的激烈角逐,由Google主辦的2019 Google地標識別挑戰賽結果於近日揭曉,來自極鏈科技AI團隊的參賽者以大比分的優勢取得第1名,這是極鏈科技在Google地標大賽中第二次取得冠軍,也是中國AI團隊在國際競賽中又一次里程碑式的勝利。 

極鏈科技兩次奪冠Google AI地標識別大賽,推動國內識別檢索技術再進階

作為本次挑戰賽的獲勝者,極鏈科技也將再次受邀在美國舉辦的CVPR 2019會議上發表技術研討,該會議是全球計算機視覺領域的頂級會議,在會議業界和學界都享負盛名。

去年,Google釋出了Google-Landmarks,這是當時世界上最大的地標資料集,為了促進例項級識別和影像檢索方面的研究進展,Google還並舉辦了兩場比賽:Landmark Recognition 2018和Landmark Retrieval 2018,有500多名研究人員和機器學習研究人員參加。 

極鏈科技兩次奪冠Google AI地標識別大賽,推動國內識別檢索技術再進階

今年,谷歌又釋出了一個全新的、更大的地標資料集google-landmarks-v2。這是一個全新的、甚至更大的地標識別資料集,該資料集中包含了413萬張圖片,是去年的3倍以上,地標數量更是達到20萬種不同的地標。這些地標包括德國新天鵝堡、美國金門大橋、日本清水寺、吉薩大獅身人面像、馬丘比丘等。谷歌表示,數量如此龐大的圖片,之所以能夠完成標註,多虧了世界各地攝影師社群的努力,才推動了資料集的產生。 

極鏈科技兩次奪冠Google AI地標識別大賽,推動國內識別檢索技術再進階

谷歌AI軟體工程師Bingyi Cao和Tobias Weyand表示:“例項識別和影像檢索方法都需要更大的資料集,包括影像數量和各種標誌,以便訓練更好,更強大的系統。我們希望這個資料集能夠幫助推進例項識別和影像檢索方面的最新技術。”

由於規模的差異,此資料集的多樣性要大得多,並且對最先進的例項識別方法構成了更大的挑戰。基於這個新的資料集,Google以此為契機推出了2019 Google地標識別挑戰賽,來號召全球的計算機視覺領域的科學精英共同參與,共同朝著更復雜的地標檢測計算機視覺模型邁出巨大的一步。

2019 Google地標識別挑戰賽谷歌依然在Kaggle平臺上進行報名及提交,該平臺在全球範圍內擁有數百萬的資料科學家使用者,是全球最具權威的資料科學競賽平臺。參賽機制需要參賽者在給定查詢影像後,在資料庫中識別出包含查詢地標的所有影像,這對於上百萬級的資料體量與無關資訊過多的影像內容而言,挑戰難度難以想象。

除此之外,由於檢測物件是地標的原因,它的識別相對其他物件的同類操作之間也存在顯著差異。例如,就算在大型帶標註的資料集裡,那些不太熱門的地標,一般情況下是不存在訓練資料的;另外,地標通常是不可移動的剛性物件,此時影像的捕獲條件,如遮擋、角度、天氣、光線等,都會對識別結果產生影響。

儘管如此,地標識別挑戰賽仍舊吸引了來自全球的281支團隊,賽程先後歷時2個月,參賽者都是世界各地計算機視覺領域具有豐富經驗的優質個人與團隊。極鏈科技的AI團隊最終以總分0.37606位列榜單第1名,超越了很多知名AI團隊;第2名和第3名的得分分別為0.35988和0.35541。

作為本次Google地標識別挑戰賽的冠軍,極鏈科技的參賽AI團隊也分享了他們的獲勝方案:

本次比賽和去年存在相同的幾個難點:

1.類別數量極不平均: 平均每類20.35張樣本, 但不到20張的類別有15萬類,差不多是總數的4分之3,其中將近1萬9千類樣本數目更是隻有1張;

2.由於未經過任何人工清洗,訓練集同一類別中存在很多圖片沒有任何共同點,或者同一地標的圖片出現在不同類別內;

3.測試集記憶體在大量干擾圖片。

本次比賽採用的方法大致如下(更詳細的介紹應主辦方要求將會以論文形式上傳arXiv):

由於今年類別總數超過20萬,我們直接放棄CNN分類網路的訓練並選擇以檢索方法為中心思想,具體由以下兩個模型及三個步驟組成。

模型1:Global Retrieval Model。 在清理過的訓練集(總共83萬張,11萬類)上訓練的基於全域性特徵的檢索模型,backbone選用ResNet-101, ResNeXt-101, SE-ResNet-101, SE-ResNeXt-101, SENet-154五種基礎模型,pooling選用GeM, RMAC, MAC, SPoC四種,且每個global pooling後都接了1024維輸出的全連線層,最終的特徵由以上四個pooling輸出(每個2048維)和四個全連線輸出(每個1024維)拼接組成,共12288維。 損失函式選擇Contrastive+Triplet同時訓練,訓練後利用attenuated unsupervised whitening降維至2048。 最終模型由以上這五個模型(對應五個基礎網路)和開源的DIR模型加權拼接組成。

模型2:Local Retrieval Model。 此模型採用谷歌最近開源的Detect-to-Retrieve(簡稱D2R)模型 。(https://github.com/tensorflow/models/tree/master/research/delf

步驟1:用模型1將所有11.8萬測試集圖片與413萬訓練集圖片進行比對,每張測試圖片保留與其最接近的五張訓練圖片的相似度,並選取總和最高的類別作為最終預測。此步驟在private/public榜單分數為0.25138/0.21534。

步驟2:和步驟1一樣,不過這次保留top-20訓練圖片並用模型2進行二次比對,最終預測選用二次比對top-5總分(D2R)最高的類別。此步驟在private/public榜單分數為0.31870/0.26782。

步驟3:此步驟為整個流程中最關鍵的一步。由於比賽採取GAP機制評分,若干擾圖片在ranked list中排名過高會直接影響最終成績,對此我們採取以下re-ranking策略。 從步驟2的rank-1測試圖片開始,對所有排名靠後(直至rank-20000)的圖片用模型2進行比對,若得分高於特定閾值(我們設定為23),則提高此圖片的排名。對所有top-500的測試圖片都進行此操作後對重新排序的list進行二次re-rank。此流程結束後private/public榜單分數為0.36787/0.31626。最後,將此策略用在步驟1的預測上(這次選取top-300,由於步驟1的分數相對較低),並將兩個新的re-ranked lists的top圖片以交叉形式排序,得分為最終奪冠分數0.37606/0.32101。

另外,我們也嘗試了用模型1提取的特徵訓練MLP,並對其進行以上步驟3的操作。此結果最終在private榜單上的分數可以提高至0.37936, 不過可惜由於其在public榜單得分0.32100,我們沒有選取此次提交作為最終提交。

最後,極鏈科技的參賽AI團隊還表示他們在此次挑戰賽中運用到的演算法將用於極鏈科技的產品中。

極鏈科技再次參加到Google地標挑戰賽,是極鏈科技對識別技術的一次成果展示,也是極鏈科技對自己多年來深耕AI的技術自信。極鏈科技在場景識別、視訊識別等領域上已經取得突出的成果,併成功在AI+視訊領域成為國內頭部企業。此次在Google地標挑戰賽中第二次奪得桂冠,也彰顯了極鏈科技計算機視覺領域的領先實力。據悉,5月31日,極鏈科技復旦大學聯合主辦的VideoNet視訊內容識別挑戰賽正式接受註冊報名,未來,極鏈科技也將持續為促進人工智慧研發,共同探索前沿領域的技術突破及應用創新,以此成為新一代視訊AI領軍企業。

相關文章