作者:xiaoyu
微信公眾號:Python資料科學
知乎:python資料分析師
學資料分析當然要先有資料,資料是分析的根本,不然一切都是空談。如果是在公司裡,得到資料輕而易舉,因為公司有客戶,有業務,必然會產生大量資料。但僅僅是個人學習的話,我們如何得到資料呢?
其實這也是好多正在學習資料分析的朋友常會遇到一個問題。一些朋友可能說爬蟲可以解決。沒錯,確實可以通過爬蟲來獲取一部分資訊,但也有侷限性,並且每次都爬不但麻煩,也會遇到很多問題,畢竟我們的重點是分析而不是爬蟲。
下面博主將珍藏的一些網上公開資料來源做一個彙總,幫助有需要資料的朋友們。
1 機器學習/資料探勘
1. 1 Kaggle
Kaggle是無數資料探勘愛好者喜愛的競賽平臺,它的大標語是:your home for data science
。許多大公司與Kaggle合作,提供公開的資料來源,並設立獎金,希望資料探勘愛好者們通過競賽的方式提供最優方案,解決實際問題。所提供的獎金豐厚,給予比賽最好成績的前三名選手。
當然,大部分人參加競賽並不是為了獎金而去,真實的目的是通過實戰來提高自己的資料探勘能力,在與世界各國的愛好者進行切磋的同時,開闊自己的眼界和視野,學習新知識。並且,這些大公司提供的資料來源是非常有參考價值的,可以作為實戰專案的首選,對求職者也是個很大的幫助。
1.2 天池
國內比較有名的資料探勘平臺了,它是一個資料科學家的社群,由阿里巴巴組織。賽事眾多,有獎金支援,並雲集了各路國內愛好者和高校研究者的參加。比賽設有初賽,複賽,決賽等關卡,有評委進行把關。平臺同樣也擁有大量免費的資料集供愛好者們使用。
1.3 資料城堡(DataCastle)
同樣也是資料科學的競賽平臺,報名後獲取任務資料集,也是一個非常好的學習網站。
1.4 SofaSofa
雖然競賽人數和專案都一般,但是作為資料科學社群,提供免費的資料集。並可以在社群內進行技術交流和探討。
2各行業的資料網站
2.1 世界巨集觀經濟資料
https://knoema.com/
https://data.worldbank.org.cn/
關於世界巨集觀經濟的兩個網站,涵蓋大量相關資料和學習資源。
2.2 國家統計局
資料來源於中國國家統計局,主要涉及我國經濟民生等多個方面的資料,並在月度、季度、年度等多維度覆蓋,較為全面和權威,對於社會科學的研究非常有幫助。
2.3 CEIC
http://www.ceicdata.com/zh-hans
擁有超過128個國家的經濟資料,可以非常精確地查詢到各國GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等資料。其中,“中國經濟資料庫”收編了300,000多條時間序列資料,資料內容涵蓋巨集觀經濟資料、行業經濟資料和地區經濟資料。
2.4 萬得(Wind)
萬得有“中國Bloomberg”的稱號,覆蓋了全面的金融業資料,且類目更新非常快,受到很多商業分析者和投資人的親睞。
2.5 搜數網
擁有海量的統計資料,數量高達7,874本,同時涵蓋了1,761,009張統計表格和364,580,480個統計資料,彙集了中國資訊行自92年以來收集的所有統計和調查資料。
2.6 中國統計資訊網
國家統計局官網,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計資訊,建立了以統計公報為主,統計年鑑、階段發展資料、統計分析、經濟新聞、主要統計指標排行等為輔助的多元化統計資訊資料庫,目前線上資料已達上萬份。
2.7 figshare
一個研究成果共享的平臺,來自世界的研究成果分享,同時有共享的研究資料。
2.8 OpenStreetMap
https://www.openstreetmap.org/
通過這個網站可以下載世界各地的地圖資料。
2.9 極海(geohey)
同樣也是可以提供地圖資訊資料的網站;
2.10 github
https://github.com/caesar0301…
如果還嫌資料來源不夠,github上有位大神已經為大家整理好了一個非常全面的資料網站彙總,包含各個細分領域的資料資源(非常全),下面只是部分截圖。
3總結
其實資料是無處不在的,需要我們平時善於發現和觀察。以上是本次向大家分享的免費資料網站,希望對大家能有所幫助。
關注微信公眾號:Python資料科學,發現更多精彩內容。