【譯文】17個助你開闊視野、熟練技能的免費的資料科學專案(資料集)
【譯文】17個助你開闊視野、熟練技能的免費的資料科學專案(資料集)
作者 MANISH SARASWAT
譯者 錢亦欣
簡介
資料科學專案可以為你的分析師生涯開闢一條康莊大道,通過它們你不僅可以提升實戰經驗,也可以讓你的CV更加吸引人。畢竟現在已經不是隻憑證照和簡歷就能找到好工作的年代,你必須拿出相應的實戰經驗,而大部分人缺少的就是這一點。
或許你已經做過了一些專案,解決過一些問題,可如果你不能把它們變得簡潔而富有解釋力,又有誰會信任你的能力。這就是這些專案能給你提供的加分項,我保證,在這些專案上花的時間越多,你會越有競爭力。
下方列出的資料集是我精心挑選過的,我確保能提供給你不同領域不同量級的資料來滿足你們的需求。我建議每個人都要學會聰明地處理大資料集,所以下方有些資料量非常多,當然我也保證所有的資料都是免費開源的。
幫助資訊
為了讓你確定自己的起點,我把資料集劃分為三個等級:
初級:該級別的資料較好處理,不需要太過複雜的資料科學技術。只需要基本的迴歸或者分類演算法就能處理,這些方法在網上也有足夠多的免費教程。本文也將提供一些教程來幫助你起步。
中級:這個級別有一定挑戰性,資料集的量相對較大,而且需要一些模式識別方面的技能。同樣,特徵工程也是必要技能之一。處理這些資料你可以使用所有現有的機器學習技術。
高階:這個級別適合那些對於神經網路,深度學習和推薦系統等已有了解的人們。集合中的特徵往往是高維資料,處理它們可能需要一些富有創造性的方法和技巧。
目錄
- 初級
。Iris Data
。Titanic Data
。Loan Prediction Data
。Bigmart Sales Data
。Boston Housing Data - 中級
。Human Activity Recognition Data
。Black Friday Data
。Siam Competition Data
。Trip History Data
。Million Song Data
。Census Income Data
。Movie Lens Data - 高階
。Identify your Digits
。Yelp Data
。ImageNet Data
。KDD Cup 1998
。Chicago Crime Data
初級
1. Iris Data
這可能是最簡單又有趣的資料集了。如果你是資料科學方面的門外漢,這個資料集是你學習分類器的最佳選擇,它一共只有150行、4列。
問題:根據提供的特徵預測鳶尾花所屬的類別。
資料 教程
2. Titanic Data Set
這個資料集在資料科學界也是家喻戶曉,透過一些教程它能幫助你更深層次地理解資料科學。這個資料集包括了分類資料,數值和文字等多種資料型別,能讓你實現很多創意。這個資料集是個分類問題,有891行,12列。
問題:判斷泰坦尼克上的乘客是否存活。
資料 教程
3. Loan Prediction Data Set
在業界,保險業是使用資料科學方法最頻繁的行業。這個資料集能讓你體會保險公司每天面臨的挑戰和使用的策略。這是一個分類問題,有615行,13列。
問題:預測一筆貸款是否會被批准。
資料 教程
4. Bigmart Sales Data Set
零售業時常依靠資料來優化它們的商業模式,諸如新場選址,研發管理、個性定製、捆綁銷售等業務需要資料分析的支援。正如其名字所展示的,它是一家商店的交易記錄資料集合,有8523行,12個變數來讓你進行迴歸分析。
問題:預測銷量
資料 教程
5. Boston Housing Data Set
這是模式識別領域的另一個經典資料集。包含了適合進行迴歸分析的波士頓不動產行業資料。這個集合有506行,14列,由於資料量小,你在用筆記本進行建模的時候無需考慮記憶體方面的問題。(譯者注:這大概是作者的冷幽默,科科)
問題: 預測自住房的中間價格
資料 教程
中級
1. Human Activity Recognition
這個集合中的資料由帶有嵌入式感應器的智慧手機收集得到,很多機器學習課程拿它給學生練手。它有10299行,561列,適合訓練多分類模型。
問題:預測人類活動的類別
資料
2. Black Friday Data Set
這是一家零售企業的交易資料,可以鍛鍊你在特徵工程方面的技能,同時分析他也需要你對消費行為的理解。它有550069行,12列,適用於做迴歸分析。
問題:預測購買總量
資料
3. Text Mining Data Set
這個資料集來自2007年的siam競賽,它包括了航班事故的相關安全報告。處理它你將面臨高維資料的多分類問題,資料集共有21519條觀測和30438列。
問題: 根據標籤將文件分類
資料 相關資訊
4. Trip History Data Set
這個資料集來源於美國的共享單車專案,需要你有比較專業的資料再加工能力。它記錄的是從2010年第四季度開始的季度資料,每個檔案有7列,可用於訓練分類模型。
問題:預測使用者的類別
資料
5. Million Song Data Set
你難道不知道資料分析也能應用於娛樂行業嗎?現在就自己動手試試吧。這個資料集可用來做迴歸分析,有515345個觀測,90個變數。然而,它其實只是原始資料的一個小子集,你應當使用下方超連結提供的資料。
問題:預測歌曲的發行年份
資料
6. Census Income Data Set
這個一個經典的不平衡資料分類問題。如你所知,機器學習技術時常用於解決在癌症檢測等問題產生的不平衡資料集。現在該你動手了,這個資料集有48842行14列。你可以參考我的不平衡資料分類指南做參考。(點選這裡)
問題:預測美國人民的收入類別
資料
7. Movie Lens Data Set
這個資料集讓你可以建立自己的推薦系統,它是資料界備受推崇的集合之一,有多重形式可供選擇。這裡我選擇了一個資料量相對較小的版本,包括了6000使用者對4000部電影的1百萬條評分記錄。
問題:給使用者推薦新電影
資料
高階
1. Identify your Digits Data Set
這個資料集對你學習影像處理很有幫助,它可以使你瞭解相機如何進行人臉識別。現在輪到你來建立並測試這套系統了。這是一個數字識別問題,有28X28的7000個影像,共31MB。
問題:識別影像中的數字
資料
2. Yelp Data Set
這個資料集是Yelp資料挑戰賽第8輪的問題之一。它包含了將近200000個影像,儲存在大小接近2GB的3個json檔案中。這些影像包括4個國家10個城市的本土商業資訊,你將要使用季節分析、文化分析、文字挖掘、社會圖挖掘等技術來處理這個資料集。
問題:從圖中挖掘資訊
資料
3. Image Net Data Set
這個資料集可以用來做物件識別,定位,分類和螢幕解析等問題。所有影像都可以免費得到。你可以搜尋任一種類的影像來做專案。目前,這個影像引擎有14197122個不同尺寸的影像,總計140GB。
問題:取決於你下載的影像型別
資料
4. KDD 1999 Data Set
我怎麼能忘記KDD杯呢!它提升了整個資料探勘競賽的檔次。你不想知道這個比賽所用的資料集嗎?我保證處理它們會大有裨益,這個資料可以訓練分類模型,有4百萬行,48列,儲存在一個1.2G的檔案裡。
問題:判斷一個網路入侵檢測器的好壞
資料
5. Chicago Crime Data Set
這年頭資料科學家都得具備處理大資料集的能力,各種企業也傾向於處理全樣資料而不是隨機樣本了。這個資料集能讓你在自己的裝置上提升相應的能力。處理問題並不複雜,如何做好資料管理才是關鍵。這個資料集有6百萬個觀測,是個多分類問題。
問題:預測犯罪型別
資料 | 下載資料請點選Export -> CSV
結語
你應當從上述17個資料集中挑選最適合你的那幾個,如果你是個機器學習的新手,就不要拿高階的資料集練手,畢竟貪多嚼不爛,還是一步步踏踏實實地來。
一旦你完成了2-3個專案,請立即修改你的CV並把相應檔案上傳到你的github(重中之重),現在很多招聘者通過github來挑選員工。請不要致力於完成所有的專案,你應當根據自己的需求挑選所屬領域、資料量大小都最適合你的那些資料集。如果你希望我解決上述的某些問題,並且提供完整的專案文件(例子),請聯絡我。
如果你已經在這些資料集的基礎上完成了一些專案,請在下方留言分享你的經驗和建議。
注:原文刊載於Analytics Vidhya網站
連結:https://www.analyticsvidhya.com/blog/2016/10/17-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
相關文章
- 學習資料科學的五大免費資源資料科學
- 5個免費工具,讓資料科學更加簡單資料科學
- 構建你的資料科學作品集:機器學習專案資料科學機器學習
- 一文詳解資料科學家的必備技能資料科學
- 資料科學家需要的基礎技能資料科學
- 資料科學求職建議:掌握5種型別的資料科學專案資料科學求職型別
- 一文詳解資料科學家的必備技能(附學習資源)資料科學
- 3個免費資料採集工具網站網站
- 成為資料科學家的入門專案資料科學
- 資料視覺化之美:您必須熟練掌握的7個圖表視覺化
- 開闊自己的視野,勇敢的接觸新知識
- 基於技能的改善資料科學實踐的方法資料科學
- 哪些資料科學技能是僱主所需要的資料科學
- Python資料推薦 + IDE推薦+經典練手專案(開源免費)PythonIDE
- 人的資料科學與機器資料科學資料科學
- OReilly 免費電子書:程式設計、Web開發、資料科學等程式設計Web資料科學
- 4款開源免費的資料視覺化JavaScript庫視覺化JavaScript
- 免費!資料科學及機器學習必備書單下載!資料科學機器學習
- 開闊視野,勇敢接觸新知識
- 開闊視野 勇敢接觸新知識
- 資料科學家最需要什麼技能?資料科學
- 機器學習和資料科學領域必讀的10本免費書籍機器學習資料科學
- 初創公司資料科學專案全流程指南,一位資深資料科學家的經驗談資料科學
- 資料科學職業需要的三種職業技能資料科學
- 這些資料科學技能,才是老闆們最想要的資料科學
- 資料免費
- 資料分析師、資料科學家、大資料專家三個職位的區別資料科學大資料
- [譯] 初創公司的資料科學:簡介資料科學
- 想成為管理複雜專案的高階專案經理嗎?那要熟練掌握這5個技能!
- 資料分析教程視訊 | 免費送
- Python資料科學(五) 資料處理和資料採集Python資料科學
- 年薪20W+的資料科學家有哪些必備技能?先從Python資料分析開始!資料科學Python
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 資料分析的廣闊前景
- Learn-Laravel -- 學習資料和開源專案集Laravel
- 英語文學的免費網路資源
- 5個免費、跨平臺的SQLite資料庫視覺化工具SQLite資料庫視覺化
- Python資料科學(八)- 資料探索與資料視覺化Python資料科學視覺化