作者 | Joseph Redmon的 & Ali Farhadi
編譯|AI100(rgznai100)
作者 | Joseph Redmon的 & Ali Farhadi
編譯|AI100(rgznai100)
YOLO全名You only look once(你只需要看一眼),是一個用於攝像頭的實時目標檢測系統。它能分辨出6000種物體,可在Titan X顯示卡上以40-90FPS的幀率處理視訊。
007跑得再快,它看上一眼也能記住:
YOLO的作者是華盛頓大學(保羅·艾倫母校)的Joseph Redmon和保羅·艾倫AI研究所的Ali Farhadi,該專案目前已經開源,程式碼用C和CUDA寫成,還有訓練好的引數供你下載。
YOLO在原理上不同於過往的目標檢測系統,人們過去只是把分類器和定位器的模型重用到目標檢測上,用以監控攝像頭視野中的多處位置和區域,得分最高的區域就被認為是發現目標。
YOLO的神經網路則可以監控攝像頭的整個視野,如下圖所示,它把整個視野的影象分成13×13的方格細胞:
每個方格細胞負責預測5個目標框,並以目標框來描述神經網路所檢測到的物體:
不過,YOLO所輸出的置信度數值,並非針對它所要識別的目標,而是目標框形狀的契合程度。置信度越高,目標框就越粗:
目標框確定後,方格細胞便據此來預測目標的分類。以PASCAL VOC影象資料集為例,YOLOh很輕鬆就能辨別出20種不同的目標:自行車、船、汽車、貓、狗、人……
與基於分類器的老式系統不同,YOLO僅執行一個神經網路就能實時檢測目標,相比要執行數千個神經網路才能檢測目標的R-CNN系統,它能快上1000倍。
YOLO專案的詳細資訊如下:
專案頁面 - github.com/pjreddie/da…
模型程式碼 - github.com/pjreddie/da…
258M引數下載 - pjreddie.com/media/files…
參考內容:
htt
github.com/pjreddie/da…p://machinethink.net/blog/object-detection-with-yolo/