不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

AIBigbull2050發表於2019-09-26

在 5 個月時間裡(5月-9月),創新工場旗下人工智慧企業創新奇智連續在世界頂級人臉檢測競賽 WIDER FACE、物體檢測競賽 PASCAL VOC、影像分割競賽 Cityscapes 中取得三冠的佳績,體現了創新奇智人工智慧演算法能力,尤其是在計算機視覺領域中演算法的創新和設計能力。

一、AInnoFace 人臉檢測演算法:權威資料集 WIDER FACE 最新排名第一

人臉檢測是人工智慧演算法最重要的商業場景之一,也是計算機視覺領域中非常熱門和具有挑戰性的問題。為提升人工智慧演算法精度,彰顯其人工智慧技術實力,很多 AI 公司都會選擇在公開資料集上驗證自身的演算法能力。

在眾多資料集中,由香港中文大學於 2016 年建立的  WIDER FACE是目前業界公開的規模最大、檢測難度最高的人臉檢測資料集。該資料集共包含 32,203 張影像和 393,703 個人臉標註。其中,40% 的資料為訓練集(Training),10% 的資料為驗證集(Validation),50% 的資料為測試集(Testing),而每個集合中的資料根據人臉檢測的難易程度分為“Easy”,“Medium”,“Hard”。

WIDER FACE 的資料集更貼近現實場景,識別難度非常大,典型例子如下圖所示。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

從圖片中可以看到,該資料集彙集了人臉尺寸、拍照角度、人臉姿態、人臉遮擋、表情等各種變化,還有不同型別的光照汙染、強弱差異,以及多樣的化妝風格等影響因素,因此該資料集在全球人臉檢測領域極具挑戰性,也極具權威性,每次評測都會吸引國內外高校和科技企業一較高下。

近日,世界權威的人臉檢測公開評測集 WIDER FACE 公佈最新評測排名,在 WIDER FACE 的 Easy、Medium 和 Hard 三個評測子集的六項評估結果中,創新奇智(AInnovation)研發的  AInnoFace 人臉檢測演算法綜合排名第一(六個分項排名中五項第一,一項第二),超越百度、曠視、騰訊、京東、滴滴、卡耐基梅隆大學、北京郵電大學、中國科學院大學等眾多國內外知名人工智慧企業和高校人工智慧實驗室。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

圖片來自WIDER FACE官網

WIDER FACE官網

AInnoFace 演算法是如何力壓群雄的?

它以著名的一階段檢測器 RetinaNet 為起點,其中:

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

(a)骨幹網路:前饋ResNet- 152網路架構用來提取多尺度特徵圖。

(b)頸部網路:一個6級特徵金字塔網路(FPN)用來生成更豐富的多尺度卷積特徵金字塔,之後連線兩個共享子網,一個子網負責分類目標框,另一個網路負責將目標框迴歸到真實框。

隨後,他們 使用focal-loss作為二分類的損失和使用IoU loss 作為框迴歸的損失。IoU 損失函式(IoU regression loss)進行邊框迴歸使得檢測結果的位置更加精準,使用了選擇性二階段迴歸和分類(Selective Refinement Network)讓檢測結果的召回率更高並且產生的虛檢更少,融合了多種資料増廣策略使得最終的檢測模型更加魯棒,借鑑了標籤最大化操作(Max-out Label)讓分類預測結果更加準確從而降低虛檢,還利用改進的多尺度測試策略以更好地檢測不同尺度的人臉。

經過上述一系列改進,AInnoFace演算法對極端尺寸、模糊、遮擋等姿態下的人臉都有很好的檢測效果,能有效提升複雜場景下人臉檢測召回率及精準度,更好地解決了開放場景人臉檢測的技術難題。

詳細資訊請檢視論文:

《Accurate Face Detection for High Performance》

xiv.org/pdf/1905.0 1585.pdf

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

以曾經有“世界上人數最多的自拍合影”照片為例,據公開訊息顯示,百度的演算法 PyramidBox 在該圖片上檢測到 880 張人臉,而 AInnoFace 演算法可以檢測出918張人臉,在檢測精度上有較大幅度的提升。

二、AInnoDetection 目標檢測演算法:Pascal VOC 挑戰賽演算法綜合排名第一

目標檢測是影像領域三大基本任務之一,也是影像領域非常具有挑戰的演算法難題。Pascal VOC 挑戰賽是世界最權威的三大計算機視覺挑戰賽之一,其資料集標註質量高、場景複雜、目標多樣、檢測難度大,是快速檢驗演算法有效性的首選。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

Pascal VOC資料集部分樣本

在人們所熟知的幾大公開資料集中,雖然 Pascal VOC 資料量不如 ImageNet、MSCOCO 等資料集的資料量大,但是 Pascal VOC 資料集中豐富的場景,更加考驗人工智慧演算法的設計和創新能力,而 ImageNet、MSCOCO 資料集更側重考查人工智慧算力的建設能力。

可以說,Pascal VOC 是國內外 AI 企業展開激烈競爭的主賽場。截至目前,Pascal VOC 挑戰賽吸引了全球近百支專業隊伍參賽,包括 Google、Microsoft、CMU、清華大學、阿里巴巴、騰訊、搜狗、Yi+、平安科技等國內外知名影像領域的頂尖團隊參與比賽。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

圖片源自Pascal VOC官網 ,單項第一使用黑粗體顯示

Pascal VOC官網

Pascal VOC 的資料集包括人類、動物、交通工具、室內物體等數十個類別。創新奇智視覺演算法團隊研發的  AInnoDetection 目標檢測演算法參加了 Object Detection(Competition4)子任務,在 20 類不同目標檢測中超越上述公司,獲得了 10 個類別的檢測 MAP(準確率)第一,總分第一的成績。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用” 不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

AInnoDetection模型演算法使用了著名的二階段檢測演算法,採用資料增強來擴充訓練資料,包括填充小物體和mixup的方法。透過以上步驟,使檢測模型能夠對小物體檢測效果更好,同時能夠使模型預測效果更好。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用” 不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

三、AInnoSegmentation 演算法:奪冠並重新整理紀錄例項分割任務

而在國際權威影像分割競賽 Cityscapes 上,創新奇智的 AInnoSegmentation 演算法在各項指標比拼中均名列第一,綜合成績第一,並重新整理例項分割任務世界紀錄,超越 NVIDIA(英偉達)、Facebook、Uber、香港中文大學、商湯、搜狗、科大訊飛等幾十支強勁的國際企業和科研機構。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

圖片來源:Cityscapes官網

Cityscapes官網:

https:// www.cityscapes-dataset .com/benchmarks/#instance-level-scene-labeling-task

Cityscapes 評測資料集在 2015 年由賓士公司推動釋出,是目前公認的機器視覺領域內最具權威性和專業性的影像分割資料集之一。Cityscapes 評測資料集共分為畫素級分割和例項分割兩個子任務,相較於畫素級分割,例項分割的難度要更大,也是計算機視覺領域最重要、最具挑戰的任務之一。

Cityscapes 例項分割任務所對應的資料集中,包含了 5000 張精細標註的影像和 20000 張粗略標註的影像,其中包含 50 個城市的不同場景、不同背景、不同街景,以及 30 類涵蓋地面、建築、交通標誌、自然、天空、人和車輛等的物體標註,以 關注真實場景下的環境理解著稱,任務難度更高。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

Mask R-CNN網路圖

AInnoSegmentation 演算法則以著名的 Mask R-CNN 網路架構為基礎,骨幹網路使用 SE-Resnet- 152 網路架構,使用它來提取多尺度特徵圖,頸部網路採用一個 6 級特徵金字塔網路(FPN),用來生成更加豐富的多尺度卷積特徵。然後使用自研的特徵融合模組作為特徵融合器,後面連線兩個共享子網,一個負責分類和框迴歸,一個負責影像分割。

不止於刷榜,三大CV賽事奪冠演算法技術的“研”與“用”

AInnoSegementation 演算法在 Cityscapes 資料集上的表現

四、不止於單一演算法能力,AI落地才是王道

不止在這些演算法競賽中奪冠,更重要的是把演算法應用到產業中創造價值,助力企業客戶及合作伙伴提升商業效率和價值,

創新奇智自成立伊始就瞄準人工智慧演算法在製造、零售、金融等多個領域的商業化產品落地,形成具有商業潛力的 AI 產品和解決方案。

AInnoFace人臉檢測演算法已應用在創新奇智的人臉識別智慧貨櫃、智慧園區社群等領域。AInnoDetection 目標檢測演算法已在創新奇智的商品檢測、工業視覺缺陷檢測、渠道陳列監控等產品中已經使用。AInnoSegmentation 演算法廣泛應用於工業視覺中,典型場景包括缺陷檢測、定位、識別等,創新奇智已將該演算法應用於成衣、磁性材料等質檢場景中,以提高產品的質檢精準度;應用於零售場景中的渠道陳列和智慧貨櫃等商品識別場景,提高商品識別準確度的同時,幫助客戶提升運營效率;應用於創新奇智正在實施的智慧鐵水無人機車運輸系統上,進一步提高該解決方案的成熟度和技術壁壘。

此外,創新奇智還打造人工智慧資料平臺、原創的深度學習支撐平臺、機器學習平臺和 AI 工業視覺平臺 ManuVision,這些成果提升了演算法在實際場景應用的精度,並高效整合了算力資源。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2658284/,如需轉載,請註明出處,否則將追究法律責任。

相關文章