眼睛是人類接觸外部世界的第一感官,對於機器而言,計算機視覺技術就是它們的“眼睛”。近日,百度視覺團隊在最大規模目標檢測競賽Google AI Open Images-Object Detection Track中再獲佳績,擊敗了全球450多支參賽隊伍,脫穎而出獲得世界第一,並受邀在頂級視覺學術會議ECCV2018上做分享。
百度AI可以說是國際賽事上的“常勝軍”。2018年,百度視覺團隊先後獲得了人臉WilderFace權威資料集世界第一、OCR ICDAR權威資料集世界第一、影片理解權威競賽ActivityNet兩項世界第一、影像識別權威競賽WebVision世界第一,如今再次獲獎,又一次展示了百度視覺團隊國際領先的平臺和技術優勢。
Google AI Open Images-Object Detection Track是大規模影像檢測任務的權威挑戰賽事,由Google AI Research舉辦,賽事遵循 PASCAL VOC、ImageNet和COCO等賽事傳統,但資料規模遠大於這些賽事。
大賽採用Google今年5月份釋出的Open Images V4資料集作為訓練資料集,其中包含超過170萬的圖片資料,500個類別以及超過1200萬物體框。據瞭解,Open Images V4資料集的類別分佈廣泛且不均勻,這意味著參加競賽的團隊不能統一對所有類別做處理,而是需要考慮到類別分佈的實際情況,這一點也更加貼近現實世界中的場景。
與傳統的檢測資料集合相比,該賽事除了資料規模大、更真實之外,還存在一系列的挑戰。具體來說,主要集中在資料分佈不均衡、漏標框和尺度變化大三個方面。在比賽過程中,百度視覺團隊採用了不同複雜度、不同骨架網路進行模型的訓練,並對這些模型進行融合。
由於Open Images V4資料集的規模相當龐大,百度視覺團隊在訓練過程中分別進行了全集資料訓練、固定框選子集訓練、動態取樣模型訓練三種策略進行。其中,動態取樣透過樣本數量的變化增減取樣的機率,從而有效縮短模型訓練時間。此外,為了更好地實現影像檢測效果,百度視覺團隊在訓練過程中還透過動態取樣、FPN、模型融合等不同策略有效解決了各種技術問題。
在實際應用中,不論是在學術圈還是工業界,大規模目標檢測都是計算機視覺極為重要的基礎技術。透過這一技術,軟硬體應用產品可以深度定點陣圖片中的物體位置以及類別,並用於新零售、通用多物品識別等場景。從2013年起,百度視覺團隊開始構建超大規模的影像分類系統,其中大部分訓練資料均透過網際網路搜尋引擎獲取,目前已構建起包含10萬類Tag(標籤)、近億圖片的訓練系統。相關技術研發成果也成功應用於百度拍照搜尋、Feed流、智慧相簿、百度AR等多項核心產品中,並透過智慧雲開放廣泛應用於零售、影片媒體、金融、醫療、交通運輸和營銷等眾多領域。
視覺是百度大腦的核心能力之一。百度視覺團隊在計算機視覺領域曾首創了Pyramidbox、Ubiquitous Reweighting Network、Action Proposal Network、StNet和 Attention Clusters等演算法,在識別人、識別物、捕捉關係三個技術領域均具備了業界最領先的技術積累。此外,百度還自主研發了兩款智慧視覺AI硬體底層模組,包括紅外3D結構光模組BoteyeR及視覺智慧AI相機模組Xeye,整合了包括人臉識別、物體識別、手勢識別等在內的百度視覺技術,可用於新零售、安防、智慧家居等場景。
百度視覺團隊的技術不僅用於內部產品,也透過百度AI開放平臺持續對外輸出,目前已對外開放了包括人臉識別、文字識別(OCR)、影像稽核、影像識別、影像搜尋等在內的5大類別58項基礎能力,為開發者和合作夥伴提供全棧式計算機視覺能力,讓他們將領先的AI能力轉換成讓複雜的世界更簡單的神奇力量,進而推動全行業、全社會的智慧化變革。