2019年6月,兩年一屆的國際文件分析與識別競賽(ICDAR)落下帷幕,這是全球文字識別(OCR)領域最頂級賽事。北京航空航天大學張津津在本屆比賽中斬獲任意形狀的場景文字端到端檢測識別任務兩項冠軍,拉丁中文混排場景文字檢測識別任務更是遙遙領先其他參賽隊伍。
為推動任意形狀文字檢測識別技術發展做貢獻,張津津將會開源本次斬獲比賽第一名的專案及預訓練模型,相文論文已在整理發表中。
專案地址:https://github.com/zhang0jhon/AttentionOCR
國際文件分析與識別大會ICDAR(International Conference on Document Analysis and Recognition)自1991年開始,今年為第十五屆。自2003年大會開始設立技術競賽,ICDAR競賽因其極高技術難度和強大實用性,一直是各大科研院校、科技公司的競逐焦點。
與賽後非正式刷榜不同,ICDAR官方認證的正式競賽採用全新資料集,且賽期內不公佈參賽團隊資訊和成績,限制提交時間和次數,屬於高難度“盲打”,吸引國內外眾多隊伍參賽。
2019屆競賽巨頭雲集,據賽後不完全統計,本屆共有過百支隊伍角逐,參賽隊伍包括:(1)企業團隊:騰訊、阿里、百度、華為、聯想、平安、商湯、曠視、美團點評、科大訊飛、VIVO、北大方正、搜狗、第四正規化、合合資訊、三星、Line,等;(2)學校團隊:清華、北大、中科院、華中科大、復旦、上海交大、中科大、北航、南京大學、南京航空、華南理工、同濟大學、哈工大、山東大學、四川大學、天津大學、卡耐基梅隆大學、澳洲阿德萊德大學等。
識別影像和視訊中各類文字(OCR),是計算機視覺、自然語言處理、個性化推薦等AI任務的基礎技術。本屆競賽增加了多項中文和多語言識別任務,難度更高。北航張津津基於自研演算法,共獲得了兩項第一名。
兩項任務均難度極高,不僅需要支援橫向、縱向、彎曲等任意形狀的文字行檢測識別,還需要支援中英文及符號混排場景文字檢測識別,部分模型預測結果展示如下:
個人簡介
張津津,男,碩士,畢業於北京航空航天大學,目前主要從事於目標檢測,人體姿態估計,場景文字識別等計算機視覺相關工作。