祕籍 | 機器學習資料集網址大全
作者 | Will Badr
譯者 | Linstancy
整理 | Jane
出品 | AI科技大本營(ID:rgznai100)
要找到一定特定的資料集可以解決各種機器學習問題,是一件很難的事情。越來越多企業或研究機構將自己的資料集公開,已經成為全球的趨勢,這也將有助於大家進行更多研究。
近期,亞馬遜高階技術顧問 Will Badr 分享了 8 種適用於不同機器學習問題的常用資料集,並給出相應的描述,用法示例以及在某些情況下用於解決與該資料集相關的機器學習問題的程式碼。
1、Kaggle 資料集
連結:
https://www.kaggle.com/datasets
這是當前資料科學領域最熱門,也是最受歡迎的資料集之一。在 Kaggle 中,每個資料集都是對應一項比賽,參賽者可以在這個小社群裡討論資料,查詢一些公共程式碼或在 kernel 中建立自己的專案。Kaggle 中包含大量不同型別,不同大小以及多種不同格式的真實資料集。此外,參賽者還可以看到與每個資料集關聯的 kernel,其中許多資料科學家會上傳自己的 notebooks 來分析資料集,還能找到解決特定資料集問題的演算法實現。
2、Amazon 資料集
連結:
https://registry.opendata.aws/
Amazon 資料庫包含不同領域的多種資料集,如公共交通,生態資源,衛星影像等。在資料集官網還有一個搜尋框,可以幫助使用者快速找到所需的資料集。每個資料集包含相應的資料集描述和使用示例,資料量非常豐富且易於使用。
此外,依託於 Amazon Web Services (AWS) 平臺,如 Amazon S3,這些儲存在雲端的資料集都有高度的可擴充套件性服務,這對於那些使用 AWS 進行機器學習開發和實驗的使用者來說,將非常方便。因為在雲端,資料集的傳輸將非常快。
3、UCI 機器學習資料集
連結:
https://archive.ics.uci.edu/ml/datasets.html
這是由加州大學歐文分校(UCI)資訊與電腦科學學院的研究者建立的一個包含 100 多種不同型別資料集的大型資料庫。該資料庫根據不同的機器學習問題來對資料集進行分類,在這裡,使用者可以找到單變數、多變數時間序列資料集,分類、迴歸、推薦系統資料集等。此外,該資料庫中的部分資料集已經經過資料清洗過程,是可以直接為使用者使用。
4、Google 資料集所搜引擎
連結:
https://toolbox.google.com/datasetsearch
2018 年 9 月,Google 推出了這項服務,它是一個可以按名稱搜尋相應資料集的工具箱,其目標是整合數萬個不同的資料集,並對使用者開放使用。
5、Miscrosoft 資料集
連結:
https://msropendata.com/
2018 年 7 月,Miscrosoft 聯合其外部的研究社群宣告發布 Miscrosoft Research Open Data 服務。這項儲存在雲端的資料庫,包含了一系列在已發表研究中使用過的資料集,致力於促進全球研究社群的研究合作。
6、Awesome 公開資料集
連結:
https://github.com/awesomedata/awesome-public-datasets
Awesome 是一個按不同主題分類的資料庫,其中涵蓋了如生物學,經濟學,教育等不同領域的重要資料集,其中列出的大多數資料集都可供使用者免費試用,但在使用任何資料集之前,使用者需要通過認證已獲得使用許可。
7、government 資料集
在這裡你可以找到那些與政府相關的資料集。為顯示政府工作的透明度,許多國家機構公開發布了其國家在一些領域的資料集,如下示例:
EU Open Data:歐洲政府資料集
連結:
https://data.europa.eu/euodp/data/dataset
US Gov Data:美國政府資料 (非政治問題上的資料集,但自川普政府上調以來,該網站資料集暫時無法使用)
連結:
https://www.data.gov/
New Zealand’s Government Dataset:紐西蘭政府資料集
連結:
https://catalogue.data.govt.nz/dataset
Indian Government Dataset:印度政府資料集
連結:
https://data.gov.in/
8、Computer Vision 領域資料集
連結:
https://www.visualdata.io/
如果是從事影像處理、計算機視覺或深度學習領域的工作,那麼該資料集會是最好的實驗資源。Visual Data 包含一些可用於構建計算機視覺(CV)模型的優秀資料集。使用者可以通過某個特定的 CV 任務來查詢相應的資料集,如語義分割(semantic segmentation)、影像生成標題(image captioning)、影像生成(image generation),甚至是無人駕駛解決方案所需的資料集。
原文連結:
https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b
(本文為 AI科技大本營編譯文章,轉載請微信聯絡 1092722531。)
——————————————— 徵稿 ————————————————
推薦閱讀:
相關文章
- LINUX網址大全Linux
- SAP HANA資料建模祕籍XV
- 資料網址
- 前端學習網址大全前端
- 最佳效能祕籍:SAP HANA資料建模
- java網址集錦Java
- ArcEngine 開發幫助網址大全
- 學習資料網址
- Oracle 官方資料網址Oracle
- Android資料庫高手祕籍(1):SQLite命令Android資料庫SQLite
- Android資料庫高手祕籍(一):SQLite命令Android資料庫SQLite
- 33個機器學習常用資料集機器學習
- 機器學習筆記——資料集分割機器學習筆記
- 分散式機器學習常用資料集分散式機器學習
- Android逆向分析必備網址大全(轉)Android
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 《機器學習實戰》pdf書籍&書本原始碼詳細解析&書本資料集下載機器學習原始碼
- Pycharm使用祕籍PyCharm
- React面試祕籍React面試
- 機器學習之資料集的劃分機器學習
- Android資料庫高手祕籍(5):LitePal的儲存操作Android資料庫
- Android資料庫高手祕籍(3):使用LitePal升級表Android資料庫
- 最新任務型對話資料集大全
- 消失的遊戲祕籍遊戲
- 前端構建祕籍前端
- 前端新手祕籍丶前端
- HTML5祕籍HTML
- GOOGLE搜尋祕籍Go
- 資源|28本必讀的經典機器學習/資料探勘書籍機器學習
- 機器學習中的有標註資料集和無標註資料集機器學習
- 機器學習,深度學習必備資料集機器學習深度學習
- 演算法高手再度集結 通關祕籍拿走不謝演算法
- 神經網路的菜鳥入門祕籍神經網路
- win10毒霸網址大全怎麼徹底刪除_win10徹底解除安裝金山毒霸網址大全的方法Win10
- Android資料庫高手祕籍(4):使用LitePal建立表關聯Android資料庫
- Android資料庫高手祕籍(8):使用LitePal的聚合函式Android資料庫函式
- 《用Python動手學機器學習》中的網址Python機器學習
- [資源分享] 吳恩達最新《機器學習訓練祕籍》中文版可以免費下載了!吳恩達機器學習