祕籍 | 機器學習資料集網址大全

AI科技大本營發表於2019-01-27

640?wx_fmt=jpeg


作者 | Will Badr

譯者 | Linstancy

整理 | Jane

出品 | AI科技大本營(ID:rgznai100)


要找到一定特定的資料集可以解決各種機器學習問題,是一件很難的事情。越來越多企業或研究機構將自己的資料集公開,已經成為全球的趨勢,這也將有助於大家進行更多研究。


近期,亞馬遜高階技術顧問 Will Badr 分享了 8 種適用於不同機器學習問題的常用資料集,並給出相應的描述,用法示例以及在某些情況下用於解決與該資料集相關的機器學習問題的程式碼。


1、Kaggle 資料集


連結:

https://www.kaggle.com/datasets


這是當前資料科學領域最熱門,也是最受歡迎的資料集之一。在 Kaggle 中,每個資料集都是對應一項比賽,參賽者可以在這個小社群裡討論資料,查詢一些公共程式碼或在 kernel 中建立自己的專案。Kaggle 中包含大量不同型別,不同大小以及多種不同格式的真實資料集。此外,參賽者還可以看到與每個資料集關聯的 kernel,其中許多資料科學家會上傳自己的 notebooks 來分析資料集,還能找到解決特定資料集問題的演算法實現。

     

640?wx_fmt=png



2、Amazon 資料集

連結:

https://registry.opendata.aws/


Amazon 資料庫包含不同領域的多種資料集,如公共交通,生態資源,衛星影像等。在資料集官網還有一個搜尋框,可以幫助使用者快速找到所需的資料集。每個資料集包含相應的資料集描述和使用示例,資料量非常豐富且易於使用。


此外,依託於 Amazon Web Services (AWS) 平臺,如 Amazon S3,這些儲存在雲端的資料集都有高度的可擴充套件性服務,這對於那些使用 AWS 進行機器學習開發和實驗的使用者來說,將非常方便。因為在雲端,資料集的傳輸將非常快。

     

640?wx_fmt=png



3、UCI 機器學習資料集

連結:

https://archive.ics.uci.edu/ml/datasets.html

    

這是由加州大學歐文分校(UCI)資訊與電腦科學學院的研究者建立的一個包含 100 多種不同型別資料集的大型資料庫。該資料庫根據不同的機器學習問題來對資料集進行分類,在這裡,使用者可以找到單變數、多變數時間序列資料集,分類、迴歸、推薦系統資料集等。此外,該資料庫中的部分資料集已經經過資料清洗過程,是可以直接為使用者使用。


640?wx_fmt=png



4、Google 資料集所搜引擎

連結:

https://toolbox.google.com/datasetsearch

     

2018 年 9 月,Google 推出了這項服務,它是一個可以按名稱搜尋相應資料集的工具箱,其目標是整合數萬個不同的資料集,並對使用者開放使用。


640?wx_fmt=png



5、Miscrosoft 資料集

連結:

https://msropendata.com/


2018 年 7 月,Miscrosoft 聯合其外部的研究社群宣告發布 Miscrosoft Research Open Data 服務。這項儲存在雲端的資料庫,包含了一系列在已發表研究中使用過的資料集,致力於促進全球研究社群的研究合作。

     

640?wx_fmt=png



6、Awesome 公開資料集

連結:

https://github.com/awesomedata/awesome-public-datasets


Awesome 是一個按不同主題分類的資料庫,其中涵蓋了如生物學,經濟學,教育等不同領域的重要資料集,其中列出的大多數資料集都可供使用者免費試用,但在使用任何資料集之前,使用者需要通過認證已獲得使用許可。

     

640?wx_fmt=png



7、government 資料集


在這裡你可以找到那些與政府相關的資料集。為顯示政府工作的透明度,許多國家機構公開發布了其國家在一些領域的資料集,如下示例:


  • EU Open Data:歐洲政府資料集

連結:

https://data.europa.eu/euodp/data/dataset


  • US Gov Data:美國政府資料 (非政治問題上的資料集,但自川普政府上調以來,該網站資料集暫時無法使用)

連結:

https://www.data.gov/


  • New Zealand’s Government Dataset:紐西蘭政府資料集

連結:

https://catalogue.data.govt.nz/dataset


  • Indian Government Dataset:印度政府資料集

連結:

https://data.gov.in/

 

640?wx_fmt=png



8、Computer Vision 領域資料集

連結:

https://www.visualdata.io/


如果是從事影像處理、計算機視覺或深度學習領域的工作,那麼該資料集會是最好的實驗資源。Visual Data 包含一些可用於構建計算機視覺(CV)模型的優秀資料集。使用者可以通過某個特定的 CV 任務來查詢相應的資料集,如語義分割(semantic segmentation)、影像生成標題(image captioning)、影像生成(image generation),甚至是無人駕駛解決方案所需的資料集。


640?wx_fmt=png



原文連結:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

     


(本文為 AI科技大本營編譯文章,轉載請微信聯絡 1092722531 


———————————————  徵稿  ————————————————

640?wx_fmt=png


推薦閱讀:

640?wx_fmt=png

相關文章