繼在三大主流單幀圖片行人再識別資料集(Market1501,DukeMTMC-reID,CUHK03)重新整理世界紀錄後,近日,澎思科技(Pensees)在基於視訊的行人再識別資料集(PRID-2011,iLIDS-VID,MARS)中再次取得突破性進展,一舉實現在三大資料集上實現演算法關鍵指標首位命中率(Rank-1 Accuracy)大幅度提升,準確率均創歷史新高。

重新整理三大資料集世界紀錄,實現演算法關鍵指標大幅度提升

PRID-2011、iLIDS-VID和MARS均為基於視訊的行人再識別資料集。PRID-2011資料集中的視訊對通過兩個固定的監控攝像頭進行採集,攝像頭A包含385個行人,攝像頭B包含749個行人。這些行人中,只有200個行人同時出現在兩個攝像頭中。iLIDS-VID是在PRID-2011之後公佈的資料集,與PRID-2011相比,資料更加整齊,也更有挑戰性。iLIDS-VID資料集是通過機場到達大廳的CCTV監控視訊採集得到的,包含300個行人在兩個攝像頭下的600段視訊。視訊中存在嚴重的著裝相似,光照和視角變化,複雜背景和遮擋現象,因此識別難度大。MARS資料集是目前基於視訊ReID最大的資料集,是單幀圖片行人再識別資料集Market1501的擴充版,影象數量由32,668幅擴充套件到了1,191,003幅。

與單幀圖片的行人再識別資料集一樣,首位命中率(Rank-1 Accuracy)和平均精度均值(Mean Average Precision,mAP)是衡量視訊行人再識別ReID演算法水平的核心指標。澎思科技此次一舉實現在三大資料庫上,僅利用原始資料就實現Rank-1 Accuracy關鍵指標大幅度提升。目前,澎思科技演算法在最大的視訊資料MARS上的首位命中率指標已經達到88.8%,領先香港中文大學中科大北京大學等國內外知名機構。在iLIDS-VID和PRID2011等資料首位命中率也分別達到了88.0%和95.5%。

澎思科技行人再識別ReID演算法在MARS資料集的部分測試結果

立足澎思現有業務,展開垂直領域技術研發和創新

澎思科技此次成果的取得源於澎思新加坡研究院對演算法的自研創新和融合探索,是立足於澎思現有業務和商業模式,結合公司的發展方向針對性開展垂直領域技術研發和創新。主要包括以下幾個方面:

1、受遮擋、姿態變化、視角變化等因素的影響,視訊序列中行人的特徵是不連續的。用全域性特徵來度量每一幀圖片的權重往往會損失掉許多重要的資訊。採用分割重組策略將特定區域性特徵重組成多個視訊序列進行學習,進而極大減少區域性特徵損失對最終特徵的影響。

2、其次,提出了全新的雙向圖注意力機制模組。將圖卷積神經網路和SENet完美結合,在整個序列上進行通道域的模式選擇學習。同時通過雙向網路進行空間域的注意力區域學習。由於圖卷積網路的特性,每一幀圖片的注意力特徵都是與其他幀相互學習結合的結果,從而極大提高特徵的代表性。

3、最終,利用幀間相似度進行序列融合。與大多數利用迴圈神經網路進行融合演算法相比,最大的優勢是不需要訓練額外的模型引數,僅僅通過數學計算的方式就可以達到融合的目的。這樣,資料的類內相似度得到了極大的提高。在結合三元損失函式進行訓練後,類間相似度得到了降低,進而提高重識別效果。

基於視訊的行人再識別與單幀圖片的行人再識別任務目的是相同的,即在視角不重疊的多攝像機網路下進行行人的匹配。儘管基於單幀圖片的行人再識別演算法已經取得了不錯的進步,但由於單幀圖片只包含有限的行人資訊,網路提取的特徵不具備足夠的代表性,檢測結果往往受圖片質量的影響較大。

與此相比,視訊序列的優勢便凸顯出來。一個短視訊序列往往包含行人多運動狀態下的更多特徵,並且利用時序資訊,可以將背景、遮擋等干擾因素的影響降到最低,提升識別的準確度。

加速AI技術落地,持續推進AI產業化落地程式

基於視訊的行人再識別(ReID)技術更貼近智慧城市建設的諸多應用場景,能有效解決行人資訊有限、特徵不足及其他干擾因素等問題,相比單幀圖片的行人再識別具備更長遠的落地應用空間。接下來,澎思科技將進一步加大在視訊行人再識別演算法上的研究,並逐步將演算法應用到平安城市、智慧社群、智慧園區、智慧零售、智慧交通等實戰應用場景中。

澎思科技作為一家專注於計算機視覺和物聯網技術,提供“以人為核心”行業綜合應用解決方案的人工智慧公司,在人工智慧行業進入商業化落地主導的產業化階段,一方面將不斷加強自研技術創新,提升技術競爭力;另一方面堅持“行業+AI”策略,針對使用者需求深挖場景,發現行業痛點並不斷打磨演算法和產品,將技術真正應用到業務場景中,推動AI技術的產品化落地和商業化程式。