【資源】史上最全資料集彙總
無論是資料探勘還是目前大熱的深度學習,都離不開“大資料”。大公司們一般會有自己的資料,但對於創業公司或是高校老師、學生來說,“Where can I get large datasets open to the public” 是一個不得不面對的問題。 本文將為您提供一個網站/資源列表,從中你可以使用資料來完成你自己的資料專案,甚至創造你自己的產品。
一.如何使用這些資源?
使用它們最簡單的方法是進行資料專案,並在網站上釋出它們。這不僅能提高你的資料和視覺化技能,還能改善你的結構化思維。
另一方面,如果你正在考慮/處理基於資料的產品,這些資料集可以通過提供額外的/新的輸入資料來增加您的產品的功能。
我們已經在不同的部分中劃分了這些資料來源,以幫助你根據應用程式對資料來源進行分類。首先從簡單、通用和易於處理資料集開始,然後轉向大型/行業相關資料集。然後,我們為特定的目的——文字挖掘、影象分類、推薦引擎等提供資料集的連結。這將為您提供一個完整的資料資源列表。
二.由簡單和通用的資料集開始
1.data.gov
( https://www.data.gov/ )
這是美國政府公開資料的所在地,該站點包含了超過19萬的資料點。這些資料集不同於氣候、教育、能源、金融和更多領域的資料。
2.data.gov.in
( https://data.gov.in/ )
這是印度政府公開資料的所在地,通過各種行業、氣候、醫療保健等來尋找資料,你可以在這裡找到一些靈感。根據你居住的國家的不同,你也可以從其他一些網站上瀏覽類似的網站。
3.World Bank
( http://data.worldbank.org/ )
世界銀行的開放資料。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。
4.RBI
(https://rbi.org.in/Scripts/Statistics.aspx)
印度儲備銀行提供的資料。這包括了貨幣市場操作、收支平衡、銀行使用和一些產品的幾個指標。
5.Five Thirty Eight Datasets
(https://github.com/fivethirtyeight/data)
Five Thirty Eight,亦稱作 538,專注與民意調查分析,政治,經濟與體育的部落格。該資料集為 Five Thirty Eight Datasets 使用的資料集。每個資料集包括資料,解釋資料的字典和Five Thirty Eight 文章的連結。如果你想學習如何建立資料故事,沒有比這個更好。
三.大型資料集
1.Amazon Web Services(AWS)datasets
(https://aws.amazon.com/cn/datasets/)
Amazon提供了一些大資料集,可以在他們的平臺上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析雲中的資料。在亞馬遜上流行的資料集包括完整的安然電子郵件資料集,Google Books n-gram,NASA NEX 資料集,百萬歌曲資料集等。
2.Google datasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些資料集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的資料,Hacker News 的所有故事和評論。
3.Youtube labeled Video Dataset
( https://research.google.com/youtube8m/ )
幾個月前,谷歌研究小組釋出了YouTube上的“資料集”,它由800萬個YouTube視訊id和4800個視覺實體的相關標籤組成。它來自數十億幀的預先計算的,最先進的視覺特徵。
四.預測建模與機器學習資料集
1.UCI Machine Learning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI機器學習庫顯然是最著名的資料儲存庫。如果您正在尋找與機器學習儲存庫相關的資料集,通常是首選的地方。這些資料集包括了各種各樣的資料集,從像Iris和泰坦尼克這樣的流行資料集到最近的貢獻,比如空氣質量和GPS軌跡。儲存庫包含超過350個與域名類似的資料集(分類/迴歸)。您可以使用這些過濾器來確定您需要的資料集。
2.Kaggle
( https://www.kaggle.com/datasets )
Kaggle提出了一個平臺,人們可以貢獻資料集,其他社群成員可以投票並執行核心/指令碼。他們總共有超過350個資料集——有超過200個特徵資料集。雖然一些最初的資料集通常出現在其他地方,但我在平臺上看到了一些有趣的資料集,而不是在其他地方出現。與新的資料集一起,介面的另一個好處是,您可以在相同的介面上看到來自社群成員的指令碼和問題。
3.Analytics Vidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您可以從我們的實踐問題和黑客馬拉松問題中參與和下載資料集。問題資料集基於真實的行業問題,並且相對較小,因為它們意味著2 - 7天的黑客馬拉松。
4.Quandl
( https://www.quandl.com/ )
Quandl 通過起網站、API 或一些工具的直接整合提供了不同來源的財務、經濟和替代資料。他們的資料集分為開放和付費。所有開放資料集為免費,但高階資料集需要付費。通過搜尋仍然可以在平臺上找到優質資料集。例如,來自印度的證券交易所資料是免費的。
5.Past KDD Cups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度資料探勘和知識發現競賽。
6.Driven Data
( https://www.drivendata.org/ )
Driven Data 發現運用資料科學帶來積極社會影響的現實問題。然後,他們為資料科學家組織線上模擬競賽,從而開發出最好的模型來解決這些問題。
五.影象分類資料集
1.The MNIST Database
( http://yann.lecun.com/exdb/mnist/ )
最流行的影象識別資料集,使用手寫數字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進行影象識別的資料集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這裡是下一階段的進化,如果你已經通過了手寫的數字。該資料集包括自然影象中的字元識別。資料集包含74,000個影象,因此資料集的名稱。
3.Frontal Face Images
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經完成了前兩個專案,並且能夠識別數字和字元,這是影象識別中的下一個挑戰級別——正面人臉影象。這些影象是由CMU & MIT收集的,排列在四個資料夾中。
4.ImageNet ( http://image-net.org/ ) 現在是時候構建一些通用的東西了。根據WordNet層次結構組織的影象資料庫(目前僅為名詞)。層次結構的每個節點都由數百個影象描述。目前,該集合平均每個節點有超過500個影象(而且還在增加)。
六.文字分類資料集
1.Spam – Non Spam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區分簡訊是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將簡訊進行分類。
2.Twitter Sentiment Analysis (http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/) 該資料集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。資料依次基於 Kaggle 比賽和 Nick Sanders 的分析。
3.Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個網站提供了一系列的電影評論檔案,這些檔案標註了他們的總體情緒極性(正面或負面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標籤。
七.推薦引擎資料集
1.MovieLens
( https://grouplens.org/ ) MovieLens
是一個幫助人們查詢電影的網站。它有成千上萬的註冊使用者。他們進行自動內容推薦,推薦介面,基於標籤的推薦頁面等線上實驗。這些資料集可供下載,可用於建立自己的推薦系統。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
線上笑話推薦系統。
八.各種來源的資料集網站
1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的資料集頁面一直是人們搜尋資料集的參考。列表全面,但是某些來源不再提供資料集。因此,需要謹慎選擇資料集和來源。
2.Awesome Public Datasets
(https://github.com/caesar0301/awesome-public-datasets)
一個GitHub儲存庫,它包含一個由域分類的完整的資料集列表。資料集被整齊地分類在不同的領域,這是非常有用的。但是,對於儲存庫本身的資料集沒有描述,這可能使它非常有用。
3.Reddit Datasets Subreddit
(https://www.reddit.com/r/datasets/)
由於這是一個社群驅動的論壇,它可能會遇到一些麻煩(與之前的兩個來源相比)。但是,您可以通過流行/投票來對資料集進行排序,以檢視最流行的資料集。另外,它還有一些有趣的資料集和討論。
★推薦閱讀★
相關文章
- 史上最全“大資料”學習資源集合大資料
- 史上最全的“大資料”學習資源(上)大資料
- 資料探勘資源彙總
- 吐血總結|史上最全的MySQL學習資料!!MySql
- 史上最全的 Java 新手問題彙總Java
- 大資料概念:史上最全大資料解析大資料
- 【彙總】語料庫資源
- 史上最全的iOS開源專案分類彙總沒有之一iOS
- PHP 資源彙總PHP
- ios資源彙總iOS
- 【同行說技術】swift最全學習資料彙集(一)Swift
- 史上最全的開發和設計資源大全
- 資源連線彙總
- cpp website資源彙總Web
- 今年阿里社群最全的技術活動PPT資料彙總阿里
- SAR目標檢測資料集彙總
- MySQL 的學習資源史上最全(每天不定時更新)MySql
- 重磅資料!Github上的PHP資源彙總大全GithubPHP
- 資料彙總
- 彙總資料
- 史上最全Oracle資料泵常用命令Oracle
- 史上最全的中高階JAVA工程師-面試題彙總Java工程師面試題
- 前端學習資源彙總前端
- Flutter學習資源彙總Flutter
- go學習資源彙總Go
- Solr/Elasticsearch常用資源彙總SolrElasticsearch
- go大會資源彙總Go
- React學習資源彙總React
- 微信小程式資源彙總微信小程式
- iphone開發資源彙總iPhone
- C#開源資源大彙總C#
- 史上最全Linux常用指令彙總,又一吃灰教程Linux
- 【免費領取】史上最全的web前端學習教程彙總!Web前端
- 史上最全、最詳細的Docker學習資料Docker
- 機器學習資料彙總機器學習
- mycat 資料彙總
- ReactNative 學習資源大彙集React
- 整理最全的“大資料”學習資源大資料