這裡有數百個計算機視覺資料集。
資料對於模型訓練而言非常重要,但尋找合適自己專案的資料集卻並不簡單。計算機視覺社群經常出現新的資料集,但研究者很難追蹤新型資料集。
於是,哥倫比亞大學博士馮捷在 2017 年 8 月建立了一個專用於搜尋計算機視覺資料集和程式碼/模型的搜尋引擎 VisualData。
VisualData 網站地址:https://www.visualdata.io/
該網站現已收集 281 個計算機視覺資料集,使用者可以在該網站上通過簡單的搜尋找到適合自己專案的資料集。
使用者註冊網站後可以實時收到新資料集、程式碼釋出的訊息,還可以點選「Add my dataset」貢獻自己的資料集。
此外,每個資料集都有多個標籤,如影象分類、目標檢測、影象搜尋、3D 重建等,還標註了資料集的公開狀態、是否已有程式碼,以及資料集的流行度。
VisualData 網站上資料集示例。
使用者可以點選資料集,檢視資料集詳情。點選「View Dataset」跳轉連結,檢視該資料集相關連結,比如 GitHub 專案等。
每個資料集的流行度得分就是根據使用者檢視資料集詳情以及點選資料集連結的頻率來計算的。
收集方法
VisualData 網站建立者馮捷 2017 年獲得哥倫比亞大學博士學位,現任亞馬遜應用科學家,研究興趣為計算機視覺和機器學習。
他在 reddit 上表示,他首先寫指令碼來監控大量資料來源(如 arXiv、實驗室主頁、社交媒體等),然後手動評估這些自動收集到的資料集,再更新到 VisualData 網站上。
其他資料集資源網站
VisualData 是專門提供計算機視覺資料集資訊的網站,當然還有其他一些資料集資源網站。比如:
Kaggle 資料集:https://www.kaggle.com/datasets(目前包括 16484 個資料集)
Papers With Code:https://paperswithcode.com/sota(目前包括 910 個資料集)
更多資料資源,參見:20 個安全可靠的免費資料來源,各領域資料任你挑