5月7日,在國際權威的多目標追蹤挑戰(Multiple Object Tracking Challenge,MOT)的MOT16榜單上,百度視覺技術團隊超越平安科技、商湯科技、上海交大等眾多實力強勁團隊,獲得榜單世界第一的好成績。MOTA指標顯著提升,超越第二名1.8個點;其中MOTA為誤檢、漏檢、ID交換三個指標綜合平均值。
2019年上半年,百度視覺技術團隊已分別在CVPR 2019活體、ICME2019人臉Keypoint、Widerface等賽事獲得第一。此次MOT比賽是百度視覺技術團隊又一次奪冠,是在實踐“領先且實用的AI視覺技術”,同時是視訊新領域的又一次突破。
(MOT16評測集排名,百度位居榜首)
Multiple Object Tracking Challenge是國際多目標跟蹤領域最權威的測評平臺,由阿德萊德大學、蘇黎世聯邦理工學院以及達姆施塔特工業大學聯合創辦,是世界各大AI研究機構必爭之地。
該平臺針對多行人物件在複雜場景下的運動軌跡,來評測演算法同時進行檢測及追蹤的效能,目前主要包含MOT15、MOT16、MOT17三個評測集,其中MOT16允許參賽隊自定義檢測器,並對目標檢測、特徵提取及追蹤等多模組的綜合效果進行測評,因此更具有挑戰性和實用性。
此次,百度視覺技術團隊正是在MOT16評測集中勇奪桂冠,超越來自平安科技、商湯科技、海康威視、騰訊優圖、NEC北美研究院、上海交大、史丹佛大學等多支實力強勁的世界知名高校和公司團隊,技術實力不容小覷。
在檢測、重識別、多目標追蹤等相關演算法上,百度視覺技術團隊做了諸多創新和改進。檢測部分,基於百度自主研發的開源深度學習平臺PaddlePaddle,選擇更強大的分類底座網路並使用多尺度特徵提取、改善物體模板以提升對微小目標的召回能力、並利用級聯網路結構對目標框進行更精細的迴歸;行人重識別部分,採用自研的基於多樣例注意力方法,能夠進一步挖掘樣本在“困難區域”的細粒度特徵,從而提高相似樣本在特徵空間的可區分性;追蹤部分,採用基於行人重識別的序列特徵相似度模型進行目標軌跡匹配、並利用時空特徵來降低密集多目標跟蹤的軌跡交換問題。
除此之外,深度學習平臺PaddlePaddle也是視覺技術團隊“披荊斬棘”的利器之一。PaddlePaddle是集深度學習核心框架、工具元件和服務平臺為一體的技術領先、功能完備的開源深度學習平臺,而且PaddlePaddle在視覺技術上有深厚的積累,官方已開源覆蓋分類、檢測、語義分割、OCR、GAN、人體關鍵點檢測等類別,基於真實業務場景驗證的優質模型。上個月,PaddlePaddle聯合視覺技術團隊重磅釋出了視訊識別工具集,覆蓋主流實用的序列建模演算法與端到端視訊識別模型,可一鍵式任務啟動,公開資料集下載,資料預處理,模型訓練,模型inference一步到位。後續將會擴充套件以解決視訊理解、視訊編輯、視訊生成等一系列視訊理解任務。
PaddlePaddle還對深度學習模型訓練中視訊記憶體佔用及資料處理速度進行專項優化。以語義分割Deeplabv3+為例,針對視訊記憶體消耗分析與解決,冗餘前向計算,GPU CPU記憶體交換,使用16位浮點數等等,讓開發者可在相同的計算裝置上訓練更大的模型,還可以在消費級別顯示卡上完成訓練。在資料處理上,優化分散式 IO,增加遠端檔案系統流式讀取能力。GPU 多機多卡同步訓練通過增加稀疏通訊能力提升頻寬不敏感訓練能力,在低配網路頻寬網路環境下,例如10 G 網路下,同步訓練可提速10倍。另外PaddlePaddle對單機多裝置及多機分散式訓練支援也非常友好,相對於單裝置訓練,使用者幾乎不用對模型進行任何修改,可以低成本的實現單機多CPU/GPU訓練;而對於多機分散式訓練,只需要簡單的配置,使用者即可方便地從模型構建快速過渡到多種環境下的模型執行。
從實際應用角度,多目標追蹤是視訊理解和分析領域的核心技術之一。近年來,隨著人工智慧技術的不斷落地,多目標追蹤在城市安防、客流分析、智慧零售、文體直播等多項重要應用場景(尤其是AI to B場景)發揮出日益重要的作用。
基於對多目標追蹤技術的重視,百度視覺技術團隊已在此方向積累百萬量級的檢測、重識別、追蹤訓練資料;多項相關開放服務,如人體檢測、人體追蹤、人體屬性識別、靜態/動態人流統計等,已構成完整的B端人體分析服務矩陣。對內支援百度智慧雲、自動駕駛等業務;並通過百度大腦AI開放平臺對外開放,服務各行各業。未來,百度視覺技術團隊會繼續推進多目標追蹤領域的創新性工作,並爭取在更多實際應用場景實現落地。
視覺技術是百度大腦核心技術能力之一,其領先國際的技術優勢為開發者帶來了更多創新的機會。此次在MOT測評中的奪冠,是百度大腦技術實力的有力證明,也為百度人工智慧“巨樹”再添碩果。據瞭解,百度視覺技術團隊不僅獲得多項國際賽事的第一名,還在CVPR、ICCV、ECCV、AAAI等多項計算機視覺頂會上發表文章。
百度大腦是百度AI技術多年積累和業務實踐的集大成,除了視覺技術領跑國際,在深度學習領域也頻頻發力。一站式深度學習開發平臺AI Studio更送出1億元免費算力,為普通開發者破除算力桎梏。
未來,百度大腦將持續秉持AI普惠的價值理念,一面在產業實踐中不斷打磨,超越自我勇攀高峰,一面高瞻遠矚、開山闢路,為開發者建立完善的AI生態環境,以技術改變生活、服務社會,為推動人類的文明與發展貢獻自己的AI之力。