斬獲魯棒性閱讀大賽兩項冠軍,ICDAR 2019冠軍解決方案將開源

新聞助手發表於2019-11-11

2019年6月,兩年一屆的國際文件分析與識別競賽(ICDAR)落下帷幕,這是全球文字識別(OCR)領域最頂級賽事。北京航空航天大學張津津在本屆比賽中斬獲任意形狀的場景文字端到端檢測識別任務兩項冠軍,拉丁中文混排場景文字檢測識別任務更是遙遙領先其他參賽隊伍。

為推動任意形狀文字檢測識別技術發展做貢獻,張津津將會開源本次斬獲比賽第一名的專案及預訓練模型,相文論文已在整理發表中。

專案地址:https://github.com/zhang0jhon/AttentionOCR

國際文件分析與識別大會ICDAR(International Conference on Document Analysis and Recognition)自1991年開始,今年為第十五屆。自2003年大會開始設立技術競賽,ICDAR競賽因其極高技術難度和強大實用性,一直是各大科研院校、科技公司的競逐焦點。

與賽後非正式刷榜不同,ICDAR官方認證的正式競賽採用全新資料集,且賽期內不公佈參賽團隊資訊和成績,限制提交時間和次數,屬於高難度“盲打”,吸引國內外眾多隊伍參賽。

2019屆競賽巨頭雲集,據賽後不完全統計,本屆共有過百支隊伍角逐,參賽隊伍包括:(1)企業團隊:騰訊、阿里、百度華為聯想、平安、商湯、曠視、美團點評、科大訊飛、VIVO、北大方正、搜狗第四正規化、合合資訊、三星、Line,等;(2)學校團隊:清華、北大、中科院、華中科大、復旦、上海交大、中科大、北航、南京大學、南京航空、華南理工、同濟大學、哈工大、山東大學、四川大學、天津大學、卡耐基梅隆大學、澳洲阿德萊德大學等。

識別影像和視訊中各類文字(OCR),是計算機視覺自然語言處理、個性化推薦等AI任務的基礎技術。本屆競賽增加了多項中文和多語言識別任務,難度更高。北航張津津基於自研演算法,共獲得了兩項第一名。

斬獲魯棒性閱讀大賽兩項冠軍,ICDAR 2019冠軍解決方案將開源任務3.1:任意形狀場景拉丁字母端到端檢測識別任務冠軍

斬獲魯棒性閱讀大賽兩項冠軍,ICDAR 2019冠軍解決方案將開源任務3.2:任意形狀場景混合文字端到端檢測識別任務冠軍

兩項任務均難度極高,不僅需要支援橫向、縱向、彎曲等任意形狀的文字行檢測識別,還需要支援中英文及符號混排場景文字檢測識別,部分模型預測結果展示如下:斬獲魯棒性閱讀大賽兩項冠軍,ICDAR 2019冠軍解決方案將開源模型預測結果示例圖斬獲魯棒性閱讀大賽兩項冠軍,ICDAR 2019冠軍解決方案將開源兩項任務官方排名

個人簡介

張津津,男,碩士,畢業於北京航空航天大學,目前主要從事於目標檢測人體姿態估計,場景文字識別等計算機視覺相關工作。

相關文章