【譯文】17個助你開闊視野、熟練技能的免費的資料科學專案(資料集)

錢亦欣發表於2016-11-07

【譯文】17個助你開闊視野、熟練技能的免費的資料科學專案(資料集)

作者 MANISH SARASWAT

譯者 錢亦欣

簡介

資料科學專案可以為你的分析師生涯開闢一條康莊大道,通過它們你不僅可以提升實戰經驗,也可以讓你的CV更加吸引人。畢竟現在已經不是隻憑證照和簡歷就能找到好工作的年代,你必須拿出相應的實戰經驗,而大部分人缺少的就是這一點。

或許你已經做過了一些專案,解決過一些問題,可如果你不能把它們變得簡潔而富有解釋力,又有誰會信任你的能力。這就是這些專案能給你提供的加分項,我保證,在這些專案上花的時間越多,你會越有競爭力。

下方列出的資料集是我精心挑選過的,我確保能提供給你不同領域不同量級的資料來滿足你們的需求。我建議每個人都要學會聰明地處理大資料集,所以下方有些資料量非常多,當然我也保證所有的資料都是免費開源的。

幫助資訊

為了讓你確定自己的起點,我把資料集劃分為三個等級:

  1. 初級:該級別的資料較好處理,不需要太過複雜的資料科學技術。只需要基本的迴歸或者分類演算法就能處理,這些方法在網上也有足夠多的免費教程。本文也將提供一些教程來幫助你起步。

  2. 中級:這個級別有一定挑戰性,資料集的量相對較大,而且需要一些模式識別方面的技能。同樣,特徵工程也是必要技能之一。處理這些資料你可以使用所有現有的機器學習技術。

  3. 高階:這個級別適合那些對於神經網路,深度學習和推薦系統等已有了解的人們。集合中的特徵往往是高維資料,處理它們可能需要一些富有創造性的方法和技巧。

目錄

  1. 初級
    。Iris Data
    。Titanic Data
    。Loan Prediction Data
    。Bigmart Sales Data
    。Boston Housing Data
  2. 中級
    。Human Activity Recognition Data
    。Black Friday Data
    。Siam Competition Data
    。Trip History Data
    。Million Song Data
    。Census Income Data
    。Movie Lens Data
  3. 高階
    。Identify your Digits
    。Yelp Data
    。ImageNet Data
    。KDD Cup 1998
    。Chicago Crime Data

初級

1. Iris Data

這可能是最簡單又有趣的資料集了。如果你是資料科學方面的門外漢,這個資料集是你學習分類器的最佳選擇,它一共只有150行、4列。

問題:根據提供的特徵預測鳶尾花所屬的類別。

資料 教程

2. Titanic Data Set

這個資料集在資料科學界也是家喻戶曉,透過一些教程它能幫助你更深層次地理解資料科學。這個資料集包括了分類資料,數值和文字等多種資料型別,能讓你實現很多創意。這個資料集是個分類問題,有891行,12列。

問題:判斷泰坦尼克上的乘客是否存活。

資料 教程

3. Loan Prediction Data Set

在業界,保險業是使用資料科學方法最頻繁的行業。這個資料集能讓你體會保險公司每天面臨的挑戰和使用的策略。這是一個分類問題,有615行,13列。

問題:預測一筆貸款是否會被批准。

資料 教程

4. Bigmart Sales Data Set

零售業時常依靠資料來優化它們的商業模式,諸如新場選址,研發管理、個性定製、捆綁銷售等業務需要資料分析的支援。正如其名字所展示的,它是一家商店的交易記錄資料集合,有8523行,12個變數來讓你進行迴歸分析。

問題:預測銷量

資料 教程

5. Boston Housing Data Set

這是模式識別領域的另一個經典資料集。包含了適合進行迴歸分析的波士頓不動產行業資料。這個集合有506行,14列,由於資料量小,你在用筆記本進行建模的時候無需考慮記憶體方面的問題。(譯者注:這大概是作者的冷幽默,科科)

問題: 預測自住房的中間價格

資料 教程

中級

1. Human Activity Recognition

這個集合中的資料由帶有嵌入式感應器的智慧手機收集得到,很多機器學習課程拿它給學生練手。它有10299行,561列,適合訓練多分類模型。

問題:預測人類活動的類別

資料

2. Black Friday Data Set

這是一家零售企業的交易資料,可以鍛鍊你在特徵工程方面的技能,同時分析他也需要你對消費行為的理解。它有550069行,12列,適用於做迴歸分析。

問題:預測購買總量

資料

3. Text Mining Data Set

這個資料集來自2007年的siam競賽,它包括了航班事故的相關安全報告。處理它你將面臨高維資料的多分類問題,資料集共有21519條觀測和30438列。

問題: 根據標籤將文件分類

資料 相關資訊

4. Trip History Data Set

這個資料集來源於美國的共享單車專案,需要你有比較專業的資料再加工能力。它記錄的是從2010年第四季度開始的季度資料,每個檔案有7列,可用於訓練分類模型。

問題:預測使用者的類別

資料

5. Million Song Data Set

你難道不知道資料分析也能應用於娛樂行業嗎?現在就自己動手試試吧。這個資料集可用來做迴歸分析,有515345個觀測,90個變數。然而,它其實只是原始資料的一個小子集,你應當使用下方超連結提供的資料。

問題:預測歌曲的發行年份

資料

6. Census Income Data Set

這個一個經典的不平衡資料分類問題。如你所知,機器學習技術時常用於解決在癌症檢測等問題產生的不平衡資料集。現在該你動手了,這個資料集有48842行14列。你可以參考我的不平衡資料分類指南做參考。(點選這裡

問題:預測美國人民的收入類別

資料

7. Movie Lens Data Set

這個資料集讓你可以建立自己的推薦系統,它是資料界備受推崇的集合之一,有多重形式可供選擇。這裡我選擇了一個資料量相對較小的版本,包括了6000使用者對4000部電影的1百萬條評分記錄。

問題:給使用者推薦新電影

資料

高階

1. Identify your Digits Data Set

這個資料集對你學習影像處理很有幫助,它可以使你瞭解相機如何進行人臉識別。現在輪到你來建立並測試這套系統了。這是一個數字識別問題,有28X28的7000個影像,共31MB。

問題:識別影像中的數字

資料

2. Yelp Data Set

這個資料集是Yelp資料挑戰賽第8輪的問題之一。它包含了將近200000個影像,儲存在大小接近2GB的3個json檔案中。這些影像包括4個國家10個城市的本土商業資訊,你將要使用季節分析、文化分析、文字挖掘、社會圖挖掘等技術來處理這個資料集。

問題:從圖中挖掘資訊

資料

3. Image Net Data Set

這個資料集可以用來做物件識別,定位,分類和螢幕解析等問題。所有影像都可以免費得到。你可以搜尋任一種類的影像來做專案。目前,這個影像引擎有14197122個不同尺寸的影像,總計140GB。

問題:取決於你下載的影像型別

資料

4. KDD 1999 Data Set

我怎麼能忘記KDD杯呢!它提升了整個資料探勘競賽的檔次。你不想知道這個比賽所用的資料集嗎?我保證處理它們會大有裨益,這個資料可以訓練分類模型,有4百萬行,48列,儲存在一個1.2G的檔案裡。

問題:判斷一個網路入侵檢測器的好壞

資料

5. Chicago Crime Data Set

這年頭資料科學家都得具備處理大資料集的能力,各種企業也傾向於處理全樣資料而不是隨機樣本了。這個資料集能讓你在自己的裝置上提升相應的能力。處理問題並不複雜,如何做好資料管理才是關鍵。這個資料集有6百萬個觀測,是個多分類問題。

問題:預測犯罪型別

資料 | 下載資料請點選Export -> CSV

結語

你應當從上述17個資料集中挑選最適合你的那幾個,如果你是個機器學習的新手,就不要拿高階的資料集練手,畢竟貪多嚼不爛,還是一步步踏踏實實地來。

一旦你完成了2-3個專案,請立即修改你的CV並把相應檔案上傳到你的github(重中之重),現在很多招聘者通過github來挑選員工。請不要致力於完成所有的專案,你應當根據自己的需求挑選所屬領域、資料量大小都最適合你的那些資料集。如果你希望我解決上述的某些問題,並且提供完整的專案文件(例子),請聯絡我。

如果你已經在這些資料集的基礎上完成了一些專案,請在下方留言分享你的經驗和建議。

注:原文刊載於Analytics Vidhya網站

連結:https://www.analyticsvidhya.com/blog/2016/10/17-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

相關文章