Wider Face and Pedestrian Challenge 2018(簡稱 Wider Challenge)是一項全球範圍內的計算機視覺頂級賽事,曠視科技(Megvii)參戰了其中人臉檢測比賽 Wider Face,最終以 0.5582 的成績技壓群雄,勇奪人臉檢測冠軍。曠視科技人臉檢測冠軍紀錄最早可追溯至 2013 年贏得人臉識別領域 3 項世界冠軍。下面,本文將從比賽、技術、團隊以及產業 4 個維度展開解讀。
Wider Face 比賽結果
關於 Wider Challenge
Wider Challenge 2018 是由計算機視覺頂會 ECCV 2018 舉辦的頂級挑戰賽之一,吸引全球超過 400 多支隊伍參加,比賽及結果公佈於 ECCV 會前完成,頒獎儀式及相關研討會安排在大會期間(9 月 8 號)。繼 FDDB 之後,Wider Challenge 成為計算機視覺檢測領域的基準比賽,含金量很高,在一定程度上可以清晰反映參賽方技術力量的實況和積澱。
今年,該比賽旨在解決人體檢測領域的 3 個核心問題:人臉的精確定位,人體的精確定位,以及人物身份精確匹配。為此,Wider Challenge 2018 相應地分為 3 個比賽(track):
lWIDER Face, 目標是深掘新方法,重新整理人臉檢測當前最佳水平。
lWIDER Pedestrian, 目標是收集有效而高效的新方法,最佳化解決自然場景之下的行人檢測問題。
lWIDER Person Search, 從 192 部電影中進行目標精確匹配的人物搜尋。
自左向右,三個比賽的例項。
關於技術
從技術角度講,這次的人臉檢測比賽 Wider Face 出現了新難點,為此曠視科技給出了一套自己的解決方案,取得第一名的成績,超越第二名微軟(MSRA)2 個點。
難點
相比以往,WIDER Face 2018 有 2 個顯著的難點。一是資料集,二是評估標準。
Wider Face 比賽使用同名資料集,它首次開源於 CVPR 2016,包含 32,203 張影像和 393,703 個檢測框標註,是當前不同場景之下人臉類別跨度最大的資料集,從小臉密集臉、多姿態臉、遮擋臉、表情臉、化妝臉到模糊臉,一應俱全。
Wider Face 資料集中不同類別的人臉。
前人臉檢測基準 FDDB 由於資料量小且簡單退出之後,Wider Face 晉級為人臉檢測領域最科學、最權威的基準資料集,同時今年還進行了一些最佳化標註甚至是重新標註,堪稱是人臉檢測能力比拼的最佳平臺。顯而易見,比賽難度也加大很多。
Wider Face 2018 評估標準沿用 COCO 規範,更細緻更嚴格,對定位要求更高,不僅要大概準,還要非常準,甚至是“變態準”。具體來講,它不再只使用 AP_50,而是計算檢測框 IoU 閾值超過 10 的平均精度,從 AP_50 到 AP_95(步長為 5,共 10 個 AP)進行加權求平均值。這再次加大了比賽奪冠的難度。
方法
鑑於上述兩個新挑戰,曠視科技在技術沉澱的基礎上,從演算法模型、Backbone 以及資料增強3 個方面給出了原創性的解決方案。
曠視科技是 COCO 2017 冠軍,在物體檢測方面“家底”極厚,身經百戰,形成了一套優秀的“演練作戰傳統”。此次針對 Wider Face 人臉檢測的小臉、模糊臉問題,曠視科技提出一種基於單階段檢測器的新方法,稱之為級聯檢測網路(Cascade Detection Network)。
在 Backbone 以及資料增強方面,曠視同樣做了新探索。比如 Backbone 避重就輕,沒有選擇 ResNet 101,而是取樣了像 DenseNet 121、 ResNet 50 這樣相對輕量化的基礎網路,或者多個輕模型的融合。曠視科技後續會針對性地出一篇論文,想了解更多的人請留意關注。
結果
透過上述原創技術,曠視科技比賽結果優勢明顯,不僅奪得第一名,成績還大幅超過第二名、第三名,分別高出 2 個點和 5 個點。另外,曠視科技單模型和多模型結果都提交過,結果表明,即使是按照單模型,同樣可以拿到冠軍。
值得一提的是,曠視科技上層技術的創新源自底層技術和原創深度學習平臺的支撐。這次打賽過程中,曠視科技自研的深度學習雲平臺 Brain++ 有力保障了模型訓練的穩定性;原創的深度學習引擎(先於 TensorFlow)則保證高效快速地訓練和測試模型,避免時耗。正是因為有後方的保障,才有前方的勝利。
關於團隊
打比賽就像打仗一樣,是一支隊伍,需要團隊協作。但是曠視這次的比賽,也僅僅動用了 1.5 名實習小礦工:一個為主,一個為輔(外加檢測組負責人和研究員的指導)。這種實習生衝在一線的打賽模式是一種鍛鍊和培養新人成長的寶貴機會。第一名的成績也反證了這種模式的科學性。
1.5 名實習生,這並不是說曠廠缺人,也不是輕視打賽,這恰恰說明了曠廠有一套完備的“演練打賽機制”,不僅節約了大量人力和時間成本,而且納入這套機制的每一方皆有所獲。本質上這是一種高效的經驗傳承,實習生獲得大量輸入,再經由天賦的腦瓜,輸出第一名的成績,由此借假(比賽)修真(能力提升),人與事兩相成。
關於產業
人臉檢測在曠視的整個計算機視覺技術矩陣中處於中層,屬於核心演算法之一,經過工程化包裝或者硬體的加持,形成高效可複製的模型框架,從而最終走向人臉相關的產品線。
人臉檢測是機器視覺技術落地的最大場景之一,是曠檢視像識別技術的四大物件之一(人、臉、車、字),也是曠視 AI+IoT 戰略中承上啟下的一環。這一冠軍成績所反映出的技術點創新將進一步最佳化曠視的整個技術體系,導向手機、安防、地產、零售等多個產業領域,為達成 AI+IoT 戰略提供了有力的技術支撐。