奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法

机器之心發表於2019-07-04

近日,在國際頂級的計算機視覺競賽 Pattern Analysis, Statistical Modeling and Computational Learning(PASCAL VOC)挑戰賽目標檢測 comp4 賽道上,創新奇智 (AInnovation) 研發的 AInnoDetection 目標檢測演算法在 20 項的評測指標中,取得 10 項指標排名第一的成績,超越眾多國內外知名人工智慧企業和高校人工智慧實驗室,奪得大賽冠軍。

PASCAL VOC 挑戰賽是視覺物件的分類識別和檢測的基準測試比賽。該賽事是世界最權威的三大計算機視覺挑戰賽之一,資料集標註質量高、場景複雜、目標多樣、檢測難度大、資料量小但是場景豐富,相比 ImageNet 等更加考驗人工智慧演算法的設計和創新能力。如今,PASCAL VOC 挑戰賽和其所使用的資料集已經成為目標檢測領域普遍接受的標準,一年一度的挑戰賽成為了國內外團隊角逐實力的賽場。今年有全球近百支專業隊伍參加挑戰賽。參賽團隊包括 Google、Microsoft、CMU、清華大學、阿里巴巴、騰訊、搜狗、Yi+、平安科技等國內外知名影像領域的頂尖隊伍。

目標檢測是影像領域三大基本任務之一。任務要求演算法在給定影像中精確定位物體的位置,並標註出被定位物體的類別。因此,演算法首先需要確定影像中物體位置,然後對已定位的物體進行分類。

目標檢測的難點在於,影像中的目標大小、位置、姿態等不確定,同一影像中可能有多個目標。這些問題給演算法準確檢測目標帶來了挑戰。

在 Pascal VOC 的資料集中,演算法識別難度更高。首先,影像中的目標分屬數十個類別,包括人類、動物、交通工具、室內物體等,目標種類數量較多。其次,資料集較小,模型難以通過大量資料訓練提升表現。此外,影像包含多個室內外場景,單個影像中的內容多變,目標數量和種類豐富,這對演算法在多種場景下準確檢測多個目標提出了更高要求。

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法Pascal VOC 資料集部分樣本

AInnoDetection 目標檢測演算法

創新奇智提出的 AInnoDetection 目標檢測演算法,在 20 類不同的目標檢測上獲得了 10 個類別的檢測 MAP(準確率) 第一、總分第一的成績。這一演算法在模型架構、資料增強等方面都進行了創新和改進。

模型架構

從架構而言,AlnnoDetection 基於目標檢測演算法中著名的二階段(two stage)檢測法,首先由演算法對目標生成候選框,然後將選定的物體進行分類。在結構上,骨幹網路使用 ResneXt152 網路架構,使用它來提取多尺度特徵圖,而頸部網路採用一個 6 級特特徵金字塔網路(FPN),用來生成更豐富的多尺度卷積特徵金字塔。在這之後,連線兩個共享子網,一個子網負責分類目標框,另一個網路負責將目標框迴歸到真實框,最後使用 focal-loss 作為二分類的損失。在訓練中,模型採用多尺度測試融合,這樣能夠使網路根據不同的影像尺度來關注不同的目標框資訊。

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法讓小圖片更加關注大物體,大圖片更加關注小物體

資料增強方法

考慮到資料集較小的問題,團隊採用資料增強來擴充訓練資料。增強方法包括填充小目標和 mixup 的方法。

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法

填充小目標方法是在單個影像上,將目標複製多次,並新增在影像上。該方法可以增加小目標在訓練中的曝光次數,使得模型更好的學習相關特徵,最終使模型能夠準確檢測影像中的多個大小的目標。

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法

Mixup 方法則是將多幅影像融合,使被檢測多個目標重疊。該方法增加了影像中的場景類別,豐富了模型需要檢測的影像種類,使得模型在影像資料變得複雜的情況下學習目標的特徵。Mixup 方法使模型擁有更好的預測效果,在應對複雜場景影像時更加穩健。

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法

為了提升目標檢測的準確率,團隊最後採用多模型融合的方法,輸出最優的結果。

模型表現

從賽事主辦方釋出的排名顯示,在 comp4 賽道比賽中,AlnnoDetection 演算法在 20 項評測指標中取得 10 項指標第一、總分第一的成績,超越了多家研究機構和知名 AI 企業。

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法圖片來源:Pascal VOC 官網 http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4

目前,此次奪冠的目標檢測演算法在創新奇智的商品檢測、工業視覺缺陷檢測、渠道陳列監控等產品中已經使用。

參賽團隊

奪冠PASCAL VOC視覺大賽,創新奇智團隊提出目標檢測新演算法創新奇智 CTO 張發恩

參與本次 Pascal VOC 競賽的創新奇智團隊由張發恩、吳佳洪、楊志錚、曹浩天、宋劍飛和範馨予組成。Leader 張發恩現任創新奇智 CTO、創新工場人工智慧工程院首席架構師和寧波諾丁漢大學榮譽教授,曾任職 Microsoft、Google 和百度,持有多項國內外人工智慧演算法專利和發表過數篇人工智慧頂級會議論文。

關於創新奇智

創新奇智是創新工場的 AI 子公司,以「人工智慧賦能商業未來」為使命,致力於用最前沿的人工智慧技術為企業提供 AI 相關產品及商業解決方案。公司戰略為「技術產品」+「行業場景」的雙輪驅動模式,極力推動技術商業化。創新奇智 CEO 徐輝在 IT 行業擁有 20 餘年的銷售、產品、技術、服務、管理經驗,歷任 IBM、微軟、SAP 等多家世界 500 強科技巨頭企業高管。

自成立伊始,創新奇智已在零售、製造、金融等多個領域的持續發力,穩步推進人工智慧演算法商業化。成果包括機器學習平臺和 AI 工業視覺平臺 ManuVision,以及多篇頂級會議論文。而除了這次 Pascal VOC 賽事奪冠之外,創新奇智在多個世界頂級人工智慧演算法大賽上奪冠。比如,創新奇智最近在 WIDER FACE 人臉檢測賽事中奪冠。

創新奇智擁有優異的技術研發團隊,結合 AI 技術商業化的特點,制定了科學技術人才三級體系建設方案,包括:「創新奇智科研委員會、創新奇智創新研究院和創新奇智工程演算法研發團隊」。創新奇智科研委員會專家包括前騰訊 AI Lab 負責人張潼、 百度研究院三維視覺首席科學家楊睿剛、密歇根州立大學教授張彌、創新工場人工智慧工程院執行院長王詠剛、創新奇智 CTO 張發恩等。

相關文章