計算機視覺界的“奧斯卡”,一年一度的CVPR剛剛落下帷幕,百度大腦以CVPR 中10項競賽的奪冠向世界彰顯了其不容小覷的技術實力,令人振奮。6月16-20日,計算機視覺及模式識別領域頂級國際學術會議CVPR在美國加州長灘舉行,超過9200位相關人士共赴盛會。本屆會議收到了5160篇提交論文,其中1294論文最終被接收發表,其中百度共有17篇論文被收錄。
百度相關視覺團隊赴美參會,共舉辦兩項Workshop、一項Tutorial講座,並接連獲得10項CVPR競賽任務的冠軍,全面涵蓋視覺領域下的影片理解與分析、目標檢測、影像超分辨、智慧城市車輛識別、人臉&人體檢測等眾多熱門子領域。其中,百度研究院團隊獲4項冠軍、百度視覺團隊獲6項冠軍,此前被CVPR大會收錄的論文也大多出自這兩個團隊。
影片理解&分析領域
ActivityNet是目前影片理解領域影響力最大的賽事,與每年的頂級學術會議CVPR一起召開。在本次競賽中,百度更是獲得影片動作提名、影片動作檢測兩項任務的冠軍,並在新增任務EPIC-Kitchens動作識別挑戰賽中獲兩項測試集冠軍(Seen kitchens和Unseen kitchens)。這已是百度視覺團隊連續三年在ActivityNet相關賽事中斬獲冠軍。
影片理解是計算機視覺和模式識別領域的基礎問題之一,其中影片動作提名和影片動作檢測在安防、影片摘要等場景下具有重要的應用價值。在影片動作提名、影片動作檢測兩項任務中,百度分別針對動作分類、動作邊界不準確等問題提出C-TCN、BMN等模型,在THUMOS和ActivityNet兩個公開資料集的指標均達到世界領先,相關的程式碼將於6月底採用飛槳(PaddlePaddle)開源。
今年的新增任務EPIC-Kitchens動作識別挑戰賽聚焦第一人稱影片理解,對可穿戴裝置、智慧家居、人機互動等方面的應用起著關鍵作用,也是目前學術界、工業界關注的焦點。競賽吸引了Facebook AI、牛津大學、INRIA(法國國家資訊與自動化研究所)等66支隊伍參與,百度在該任務中的Seen kitchens和Unseen kitchens 兩項測試集上以很大優勢獲得第一,並受邀在CVPR 2019 EPIC和ActivityNet Workshop上作出報告。
針對第一人稱影片小物體多,模糊遮擋嚴重等難點,百度使用2D檢測框架和3D卷積網路結合的方法進行影片特徵提取。不僅如此,百度還提出了門控特徵融合模組,透過增強影片片段特徵與上下文物體特徵之間的非線性互動,使得輸出表徵具有更好的分辨能力。
人體檢測領域
在人體檢測領域,百度更是“開掛”一般,拿下“三連冠”。在“Look Into Person”國際競賽(以下簡稱LIP)三項人體精細化解析競賽單元(Track1:Single-Person Human Parsing,Track3:Mult-Person Human Parsing,Track4:Video Multi-Person Parsing)中,百度均獲第一名。LIP國際競賽專注於人體的精細語義理解任務,包括單人的人體解析任務、單人的人體姿態估計任務、多人的人體解析任務、影片多人人體解析任務。此次比賽的主題為複雜場景中人體的視覺理解,是計算機視覺領域的基本問題之一,對影片監控、人機互動、自動駕駛、虛擬現實等場景具有重要意義。
(獲獎證書)
比賽中,單人人體解析競賽單元的任務是輸出單人圖片語義分割資訊(如上肢和下肢等)。針對人體關鍵目標區域較小、難以檢測的問題,百度對以往基於多尺度全卷積神經網路的模型(例如Pyramid Scene Parsing Network, DeepLab v3+等)進行改進,使每個卷積核能對圖片的細節進行感知,同時輸出精度更高的feature map。此外,百度還進行了圖片增強、資料擴張,在訓練中動態調整輸入圖片尺度,使用mIOU loss損失函式等,使得模型能夠更精確地捕捉肢體的細節、以及被遮蓋的部分。最終根據各個不同模型的效果進行融合,百度取得65.18%的mIoU,獲得了單人人體解析的冠軍,超過上屆冠軍7.2個百分點。
(單人人體解析結果展示)
多人人體解析和影片人體解析方面,解決的是對圖片中以及影片中的多人語義資訊分割問題。該競賽資料集與單人人體解析任務相比,更關注多人遮擋等難題,進一步增加比賽難度。在比賽中,百度針對多人遮擋嚴重、姿態和視角多樣性等特點,最佳化改進了結合多人檢測和單人人體解析的top-down框架,透過最終改進的模型在多人人體解析和影片多人人體解析競賽單元中均取得第一的成績,成績大幅領先第二名。
人臉活體檢測領域
人臉活體檢測是視覺人臉識別領域的一個經典問題。近年來隨著人臉技術的不斷落地,活體檢測在人臉解鎖、人臉支付、遠端身份核驗等應用上發揮著越來越重要的作用。在CVPR人臉活體檢測比賽上,百度作為invited participant在300多個隊伍中獲得第一的好成績(Acer即平均錯誤率最低)。CVPR-19-Face Anti-spoofing Attack Detection Challenge是CVPR會議歷史上首次舉辦人臉活體檢測比賽,釋出了目前世界上最大的跨模態人臉活體檢測資料集CASIA-SURF,包含1000人次的21000段三模態(RGB、IR、Depth)人臉影片。比賽任務兼顧學術和實用價值,十分富有挑戰。
作為該項比賽的冠軍,百度在活體檢測方向已積累百萬級的攻擊影像資料,持續研發迭代了多模態(Depth、IR、RGB)、雙端(雲端、嵌入式)的活體檢測模型。這些模型對內支援多項核心業務,對外服務眾多標杆客戶,滿足不同的場景應用需求。
目標檢測領域
目標檢測是計算機視覺和模式識別領域的基礎問題之一,百度在該領域獲得"Objects365 物體檢測"國際競賽Full Track冠軍,而Full Track主要用於探索目標檢測系統的效能上限。Objects365作為一個全新的資料集,旨在促進對自然場景不同物件的檢測研究。
Objects365在638K張影像上標註了365個物件類,訓練集中共有超過1000萬個邊界框。因此,這些標註涵蓋了發生在各種場景類別中的常見物件。參賽者可以使用釋出的60萬張圖片組成的訓練集訓練一個目標檢測模型,對圖片中的存在於Objects365定義的365個類中的目標輸出包圍框,類別和分數。在3萬張圖片組成的驗證集上做演算法效能驗證,最終在由10萬張圖片組成的測試集中完成挑戰。據悉,百度採用了基於飛槳研發的檢測訓練框架,訓練框架及模型即將開源。
同時,百度在NTIRE競賽中的影像超分辨專案也強勢奪冠。這是百度首次參加NTIRE(計算機視覺low-level vision領域中影響力最大的競賽),便在400餘支參賽隊伍脫穎而出。本次比賽採用了全新拍攝的真實資料集(RealSR),百度視覺團隊在PSNR和SSIM兩項指標上均名列第一,同時提出極具創新性的CDSR超分模型,透過級聯的方法逐步將影像從模糊變清晰。相關技術採用飛槳部署於百度App,已經應用於Feed圖片檢視的功能。
智慧城市車輛識別領域
本屆AI-city公開賽包含城市範圍多攝像頭車輛跟蹤、城市範圍多攝像頭車輛重識別和交通異常檢測三個子任務。百度在城市範圍多攝像頭車輛重識別任務中獲得冠軍,得益於飛槳(PaddlePaddle)框架助力,並憑藉在車輛垂類領域檢測、跟蹤、屬性分析、關鍵點定位等技術能力的長期積累,實現mAP Score指標達到0.855,超越第二名6.4個點。
城市範圍多攝像頭車輛重識別是智慧車輛分析能力的核心基礎技術之一。智慧車輛分析能力為百度在智慧城市領域積極探索提供強有力的支援,尤其是在城市安防、智慧交通等重要的AI2B場景下都離不開對車輛結構化分析的需求。目前,百度已經開放車輛檢測、車輛屬性/車型識別、車流統計和智慧定損等多項相關服務。未來,百度將繼續推進車輛垂類技術能力的建設及智慧車輛分析技術迭代,為不同領域賦能。
百度在今年的CVPR上滿載而歸,顯示出百度大腦在視覺領域各個方向的長期積累、全面發力,更是百度大腦技術實力全球領先的強大佐證。不僅如此,作為百度AI技術的集大成者,百度大腦還在對外不斷開放這些頂尖AI技術,目前已對外開放視覺、語音、自然語言處理等170多項領先的AI能力,為廣大開發者提供AI技術研發支援,賦能各行業。
福利放送時刻:飛槳億元免費算力支援計劃進行中,掃碼申請Tesla V100線上算力,讓模型跑到飛起!