【資源】史上最全資料集彙總

七月線上實驗室發表於2018-04-24

無論是資料探勘還是目前大熱的深度學習,都離不開“大資料”。大公司們一般會有自己的資料,但對於創業公司或是高校老師、學生來說,“Where can I get large datasets open to the public” 是一個不得不面對的問題。 本文將為您提供一個網站/資源列表,從中你可以使用資料來完成你自己的資料專案,甚至創造你自己的產品。


一.如何使用這些資源?

使用它們最簡單的方法是進行資料專案,並在網站上釋出它們。這不僅能提高你的資料和視覺化技能,還能改善你的結構化思維。

另一方面,如果你正在考慮/處理基於資料的產品,這些資料集可以通過提供額外的/新的輸入資料來增加您的產品的功能。

我們已經在不同的部分中劃分了這些資料來源,以幫助你根據應用程式對資料來源進行分類。首先從簡單、通用和易於處理資料集開始,然後轉向大型/行業相關資料集。然後,我們為特定的目的——文字挖掘、影象分類、推薦引擎等提供資料集的連結。這將為您提供一個完整的資料資源列表。


二.由簡單和通用的資料集開始

1.data.gov

( https://www.data.gov/ )

 這是美國政府公開資料的所在地,該站點包含了超過19萬的資料點。這些資料集不同於氣候、教育、能源、金融和更多領域的資料。 

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

2.data.gov.in 

( https://data.gov.in/ ) 

這是印度政府公開資料的所在地,通過各種行業、氣候、醫療保健等來尋找資料,你可以在這裡找到一些靈感。根據你居住的國家的不同,你也可以從其他一些網站上瀏覽類似的網站。


3.World Bank

( http://data.worldbank.org/ ) 

世界銀行的開放資料。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。


4.RBI 

(https://rbi.org.in/Scripts/Statistics.aspx) 

印度儲備銀行提供的資料。這包括了貨幣市場操作、收支平衡、銀行使用和一些產品的幾個指標。


5.Five Thirty Eight Datasets

 (https://github.com/fivethirtyeight/data) 

Five Thirty Eight,亦稱作 538,專注與民意調查分析,政治,經濟與體育的部落格。該資料集為 Five Thirty Eight Datasets 使用的資料集。每個資料集包括資料,解釋資料的字典和Five Thirty Eight 文章的連結。如果你想學習如何建立資料故事,沒有比這個更好。


三.大型資料集

1.Amazon Web Services(AWS)datasets 

(https://aws.amazon.com/cn/datasets/)

 Amazon提供了一些大資料集,可以在他們的平臺上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析雲中的資料。在亞馬遜上流行的資料集包括完整的安然電子郵件資料集,Google Books n-gram,NASA NEX 資料集,百萬歌曲資料集等。

640?wx_fmt=png 

2.Google datasets

 ( https://cloud.google.com/bigquery/public-data/ )

 Google 提供了一些資料集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的資料,Hacker News 的所有故事和評論。


3.Youtube labeled Video Dataset 

( https://research.google.com/youtube8m/ )

 幾個月前,谷歌研究小組釋出了YouTube上的“資料集”,它由800萬個YouTube視訊id和4800個視覺實體的相關標籤組成。它來自數十億幀的預先計算的,最先進的視覺特徵。

640?wx_fmt=png 


四.預測建模與機器學習資料集

1.UCI Machine Learning Repository

 ( https://archive.ics.uci.edu/ml/datasets.html ) 

UCI機器學習庫顯然是最著名的資料儲存庫。如果您正在尋找與機器學習儲存庫相關的資料集,通常是首選的地方。這些資料集包括了各種各樣的資料集,從像Iris和泰坦尼克這樣的流行資料集到最近的貢獻,比如空氣質量和GPS軌跡。儲存庫包含超過350個與域名類似的資料集(分類/迴歸)。您可以使用這些過濾器來確定您需要的資料集。

640?wx_fmt=png


2.Kaggle

 ( https://www.kaggle.com/datasets )

 Kaggle提出了一個平臺,人們可以貢獻資料集,其他社群成員可以投票並執行核心/指令碼。他們總共有超過350個資料集——有超過200個特徵資料集。雖然一些最初的資料集通常出現在其他地方,但我在平臺上看到了一些有趣的資料集,而不是在其他地方出現。與新的資料集一起,介面的另一個好處是,您可以在相同的介面上看到來自社群成員的指令碼和問題。

640?wx_fmt=png

3.Analytics Vidhya

 (https://datahack.analyticsvidhya.com/contest/all/ )

 您可以從我們的實踐問題和黑客馬拉松問題中參與和下載資料集。問題資料集基於真實的行業問題,並且相對較小,因為它們意味著2 - 7天的黑客馬拉松。 

640?wx_fmt=png 

4.Quandl

 ( https://www.quandl.com/ )

 Quandl 通過起網站、API 或一些工具的直接整合提供了不同來源的財務、經濟和替代資料。他們的資料集分為開放和付費。所有開放資料集為免費,但高階資料集需要付費。通過搜尋仍然可以在平臺上找到優質資料集。例如,來自印度的證券交易所資料是免費的。

640?wx_fmt=png

5.Past KDD Cups

 ( http://www.kdd.org/kdd-cup )

 KDD Cup 是 ACM Special Interest Group 組織的年度資料探勘和知識發現競賽。


6.Driven Data

 ( https://www.drivendata.org/ )

 Driven Data 發現運用資料科學帶來積極社會影響的現實問題。然後,他們為資料科學家組織線上模擬競賽,從而開發出最好的模型來解決這些問題。


五.影象分類資料集

1.The MNIST Database

 ( http://yann.lecun.com/exdb/mnist/ ) 

最流行的影象識別資料集,使用手寫數字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進行影象識別的資料集。


2.Chars74K

 (http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )

 這裡是下一階段的進化,如果你已經通過了手寫的數字。該資料集包括自然影象中的字元識別。資料集包含74,000個影象,因此資料集的名稱。


3.Frontal Face Images 

(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )

 如果你已經完成了前兩個專案,並且能夠識別數字和字元,這是影象識別中的下一個挑戰級別——正面人臉影象。這些影象是由CMU & MIT收集的,排列在四個資料夾中。


4.ImageNet ( http://image-net.org/ ) 現在是時候構建一些通用的東西了。根據WordNet層次結構組織的影象資料庫(目前僅為名詞)。層次結構的每個節點都由數百個影象描述。目前,該集合平均每個節點有超過500個影象(而且還在增加)。


六.文字分類資料集

1.Spam – Non Spam 

(http://www.esp.uem.es/jmgomez/smsspamcorpus/) 

區分簡訊是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將簡訊進行分類。


2.Twitter Sentiment Analysis (http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/) 該資料集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。資料依次基於 Kaggle 比賽和 Nick Sanders 的分析。


3.Movie Review Data 

(http://www.cs.cornell.edu/People/pabo/movie-review-data/)

 這個網站提供了一系列的電影評論檔案,這些檔案標註了他們的總體情緒極性(正面或負面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標籤。


七.推薦引擎資料集

1.MovieLens 

( https://grouplens.org/ ) MovieLens

 是一個幫助人們查詢電影的網站。它有成千上萬的註冊使用者。他們進行自動內容推薦,推薦介面,基於標籤的推薦頁面等線上實驗。這些資料集可供下載,可用於建立自己的推薦系統。


2.Jester

 (http://www.ieor.berkeley.edu/~goldberg/jester-data/) 

線上笑話推薦系統。


八.各種來源的資料集網站

1.KDNuggets 

(http://www.kdnuggets.com/datasets/index.html)

 KDNuggets 的資料集頁面一直是人們搜尋資料集的參考。列表全面,但是某些來源不再提供資料集。因此,需要謹慎選擇資料集和來源。


2.Awesome Public Datasets 

(https://github.com/caesar0301/awesome-public-datasets)

 一個GitHub儲存庫,它包含一個由域分類的完整的資料集列表。資料集被整齊地分類在不同的領域,這是非常有用的。但是,對於儲存庫本身的資料集沒有描述,這可能使它非常有用。


3.Reddit Datasets Subreddit 

(https://www.reddit.com/r/datasets/) 

由於這是一個社群驅動的論壇,它可能會遇到一些麻煩(與之前的兩個來源相比)。但是,您可以通過流行/投票來對資料集進行排序,以檢視最流行的資料集。另外,它還有一些有趣的資料集和討論。


推薦閱讀

一文讀懂LSTM和迴圈神經網路

27個機器學習的小抄,助你效率翻倍

【教程】如何從零開始構建深度學習專案?

深度學習領域引用量前10篇論文(附下載地址)

用Python實現線性迴歸,8種方法哪個最高效?

640?wx_fmt=png

相關文章