我總是在證明這樣一個論點,即資料無處不在——並且很多都是免費的。在開始大資料分析之前,公司不一定要建立自己的大規模資料倉儲。企業和ZF將大量資訊投入到公共領域的舉措,使得每個人都能夠獲得海量資料。
迄今為止,從大藍籌企業到極小型創業公司,都可以使用比以往更多的資料。我的很多客戶都在向我尋求他們在向大資料方面努力時可以使用的頂尖資料來源,下面描述的就是如今可以獲得的,一些好用同時免費的大資料來源。
1. Data.gov http://data.gov/
美國ZF去年承諾使所有ZF資料都能在網上免費獲得。這個網站是第一階段,作為一個入口網站,囊括了從氣候到犯罪的一切驚人的資訊。
2. 美國人口普查局 http://www.census.gov/data.html
一個關於美國公民生活的豐富資訊,包括人口資料,地域資料以及教育。
3. 歐洲聯盟開放資料門戶 http://open-data.europa.eu/en/data/
如上所述,但它是基於歐洲聯盟機構的資料。
4. Data.gov.uk http://data.gov.uk/
來自英國ZF的資料,包括《英國國家書目》——自1950以來所有的英國書籍以及出版物的後設資料。
5. 中情局世界概況 https://www.cia.gov/library/publications/the-world-factbook/
267個國家歷史、人口、經濟、ZF、基礎設施以及軍事資訊。
6. Healthdata.gov https://www.healthdata.gov/
125年來美國的醫療保健資料,包括索賠型醫保資料,流行病學和人口統計。
7. NHS 健康和社會保健資訊中心 http://www.hscic.gov.uk/home
來自英國國民健康服務的健康狀況資料集。
8. Amazon網路服務公共資料集 http://aws.amazon.com/datasets
巨型公共資料來源,包括1000個基因組工程,試圖建立最全面的人類遺傳資訊資料庫和美國宇航局的衛星影象資料庫。
9. Facebook Graph https://developers.facebook.com/docs/graph-api
雖然Facebook使用者個人資料中的很多資訊是私有的,但很多也不是——Facebook提供Graph API作為查詢大量資訊的一種方式,它的使用者很樂意與世界分享(或者說是不能隱藏,因為他們還沒有制定如何設定隱私功能)。
10. Gapminder http://www.gapminder.org/data/
世界衛生組織和世界銀行的資料集合,包括世界各地的經濟、醫療以及社會統計資料。
11. Google Trends http://www.google.com/trends/explore
自2004年以來,對所有關鍵字的搜尋量(作為總搜尋的比例)的資料統計。
12. Google財經https://www.google.com/finance
40年的股票市場資料,並實時更新。
13. Google Books Ngramshttp://storage.googleapis.com/books/ngrams/books/datasetsv2.html
搜尋和分析數以百萬計的數字圖書全文,作為Google圖書專案的一部分。
14. 國家氣候資料中心 http://www.ncdc.noaa.gov/data-access/quick-links#loc-clim
從美國國家氣候資料中心收集的環境、氣象以及氣候資料集。全球最大的天氣資料存檔。
15. DBPedia http://wiki.dbpedia.org
維基百科包含數以百萬計的資料,生活中每個事物的結構化和非結構化資訊。DBpedia的是一個用來分類的大型工程,並建立了一個公共的,免費釋出的並允許任何人來分析這些資料的資料庫。
16. Topsy http://topsy.com/
免費而全面的社交媒體資料是很難得到的——畢竟這些資料是為那些大玩家(Facebook,Twitter等)產生利潤的,所以他們不想輕易送人。然而Topsy提供了一個可搜尋回溯至2006年公共微博的資料庫,和現在一些用來分析會話的工具。
17. Likebutton http://likebutton.com/
在全球範圍內,從你自己的網路中挖掘Facebook的公共資料,來了解在某個時刻人們“喜歡”什麼。
18. New York Times《紐約時報》 http://developer.nytimes.com/docs
可搜尋的新聞文章的索引檔案,可以追溯到1851年。
19. Freebase http://www.freebase.com/
一個關於人,地點和事物的結構化資料的社群資料庫,記錄數超過45萬個。
20. 百萬歌曲資料集 http://aws.amazon.com/datasets/6468931156960467
超過一百萬首歌曲和音樂作品的後設資料。部分屬於亞馬遜網路服務。