祕籍 | 機器學習資料集網址大全
作者 | Will Badr
譯者 | Linstancy
整理 | Jane
出品 | AI科技大本營(ID:rgznai100)
要找到一定特定的資料集可以解決各種機器學習問題,是一件很難的事情。越來越多企業或研究機構將自己的資料集公開,已經成為全球的趨勢,這也將有助於大家進行更多研究。
近期,亞馬遜高階技術顧問 Will Badr 分享了 8 種適用於不同機器學習問題的常用資料集,並給出相應的描述,用法示例以及在某些情況下用於解決與該資料集相關的機器學習問題的程式碼。
1、Kaggle 資料集
連結:
https://www.kaggle.com/datasets
這是當前資料科學領域最熱門,也是最受歡迎的資料集之一。在 Kaggle 中,每個資料集都是對應一項比賽,參賽者可以在這個小社群裡討論資料,查詢一些公共程式碼或在 kernel 中建立自己的專案。Kaggle 中包含大量不同型別,不同大小以及多種不同格式的真實資料集。此外,參賽者還可以看到與每個資料集關聯的 kernel,其中許多資料科學家會上傳自己的 notebooks 來分析資料集,還能找到解決特定資料集問題的演算法實現。
2、Amazon 資料集
連結:
https://registry.opendata.aws/
Amazon 資料庫包含不同領域的多種資料集,如公共交通,生態資源,衛星影像等。在資料集官網還有一個搜尋框,可以幫助使用者快速找到所需的資料集。每個資料集包含相應的資料集描述和使用示例,資料量非常豐富且易於使用。
此外,依託於 Amazon Web Services (AWS) 平臺,如 Amazon S3,這些儲存在雲端的資料集都有高度的可擴充套件性服務,這對於那些使用 AWS 進行機器學習開發和實驗的使用者來說,將非常方便。因為在雲端,資料集的傳輸將非常快。
3、UCI 機器學習資料集
連結:
https://archive.ics.uci.edu/ml/datasets.html
這是由加州大學歐文分校(UCI)資訊與電腦科學學院的研究者建立的一個包含 100 多種不同型別資料集的大型資料庫。該資料庫根據不同的機器學習問題來對資料集進行分類,在這裡,使用者可以找到單變數、多變數時間序列資料集,分類、迴歸、推薦系統資料集等。此外,該資料庫中的部分資料集已經經過資料清洗過程,是可以直接為使用者使用。
4、Google 資料集所搜引擎
連結:
https://toolbox.google.com/datasetsearch
2018 年 9 月,Google 推出了這項服務,它是一個可以按名稱搜尋相應資料集的工具箱,其目標是整合數萬個不同的資料集,並對使用者開放使用。
5、Miscrosoft 資料集
連結:
https://msropendata.com/
2018 年 7 月,Miscrosoft 聯合其外部的研究社群宣告發布 Miscrosoft Research Open Data 服務。這項儲存在雲端的資料庫,包含了一系列在已發表研究中使用過的資料集,致力於促進全球研究社群的研究合作。
6、Awesome 公開資料集
連結:
https://github.com/awesomedata/awesome-public-datasets
Awesome 是一個按不同主題分類的資料庫,其中涵蓋了如生物學,經濟學,教育等不同領域的重要資料集,其中列出的大多數資料集都可供使用者免費試用,但在使用任何資料集之前,使用者需要通過認證已獲得使用許可。
7、government 資料集
在這裡你可以找到那些與政府相關的資料集。為顯示政府工作的透明度,許多國家機構公開發布了其國家在一些領域的資料集,如下示例:
EU Open Data:歐洲政府資料集
連結:
https://data.europa.eu/euodp/data/dataset
US Gov Data:美國政府資料 (非政治問題上的資料集,但自川普政府上調以來,該網站資料集暫時無法使用)
連結:
https://www.data.gov/
New Zealand’s Government Dataset:紐西蘭政府資料集
連結:
https://catalogue.data.govt.nz/dataset
Indian Government Dataset:印度政府資料集
連結:
https://data.gov.in/
8、Computer Vision 領域資料集
連結:
https://www.visualdata.io/
如果是從事影像處理、計算機視覺或深度學習領域的工作,那麼該資料集會是最好的實驗資源。Visual Data 包含一些可用於構建計算機視覺(CV)模型的優秀資料集。使用者可以通過某個特定的 CV 任務來查詢相應的資料集,如語義分割(semantic segmentation)、影像生成標題(image captioning)、影像生成(image generation),甚至是無人駕駛解決方案所需的資料集。
原文連結:
https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b
(本文為 AI科技大本營編譯文章,轉載請微信聯絡 1092722531。)
——————————————— 徵稿 ————————————————
推薦閱讀:
相關文章
- 前端學習網址大全前端
- 機器學習筆記——資料集分割機器學習筆記
- 33個機器學習常用資料集機器學習
- 分散式機器學習常用資料集分散式機器學習
- 《用Python動手學機器學習》中的網址Python機器學習
- 機器學習之資料集的劃分機器學習
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 機器學習資源大全中文版機器學習
- ROS學習資料大全ROS
- 《機器學習實戰》pdf書籍&書本原始碼詳細解析&書本資料集下載機器學習原始碼
- 機器學習必看書籍推薦機器學習
- 51微控制器學習資料書籍分享
- 網址無限採集器
- 機器學習中的有標註資料集和無標註資料集機器學習
- 書單 | 深度學習修煉祕籍深度學習
- 機器學習高質量資料集大合輯機器學習
- SAP HANA資料建模祕籍XV
- 機器學習和資料科學領域必讀的10本免費書籍機器學習資料科學
- 機器學習實戰原始碼和資料集下載機器學習原始碼
- 訓練機器學習的資料集大小很重要 - svpino機器學習
- 機器學習-資料清洗機器學習
- 機器學習 大資料機器學習大資料
- [資源分享] 吳恩達最新《機器學習訓練祕籍》中文版可以免費下載了!吳恩達機器學習
- 頭髮健康網址大全【收藏】
- 吳恩達機器學習作業程式碼和資料集吳恩達機器學習
- 人工智慧-機器學習-深度學習-電子書大全人工智慧機器學習深度學習
- 機器學習-- 資料轉換機器學習
- 機器學習之清理資料機器學習
- Python+Matlab+機器學習+深度神經網路全套學習資料!PythonMatlab機器學習神經網路
- 做資料分析需要學習機器學習嗎?機器學習
- 機器學習筆記 - Pascal VOC資料集使用FCN語義分割機器學習筆記
- 書單 | 深度學習修煉祕籍 (文末贈書)深度學習
- 機器學習的訓練集機器學習
- 機器學習(十四) 機器學習比賽網站機器學習網站
- 八個機器學習資料清洗機器學習
- 網際網路,IT,大資料,機器學習,AI知識tag雲大資料機器學習AI
- 在大型金融資料集上使用機器學習的特徵工程測試機器學習特徵工程
- 一個真實資料集的完整機器學習解決方案(上)機器學習