10個豐富自我的機器學習專案

AIBigbull2050發表於2020-11-16

機器學習專案有很大的發展潛力,最近大火的韓劇也出現了這個詞語並且用很浪漫的說法解釋了它。你不僅能透過它來學習資料科學,還能為簡歷加分!畢竟招聘者一般透過你擁有的技能來判斷你的潛力。

每位程式人員都應該學習如何巧妙地處理大量資料,其中包括大型資料集。此外,確保所有資料集都呈現開放狀態允許自由訪問。


1.虹膜資料集

如果你是資料科學的“嬰兒”,這是你最好的起點。資料只有150行4列,應該是模式識別文獻中最通用、最簡單、資源最豐富的資料集。想要學習分類技術?用它準沒錯。

2.貸款預測資料集

它也是一個挺簡單的資料集,可以幫你預測貸款能否獲批。保險在所有行業中是分析和資料科學方法最大的用途之一。這個資料集讓你可以從保險公司的資料集中執行操作,你就可以知道那裡蘊藏著哪些挑戰,使用了什麼策略,有哪些影響變數等等。

3. Bigmart銷售資料集

大範圍使用分析來完善業務流程的行業還包含了零售。這是個迴歸問題,此資料包含銷售商店的交易記錄,它可以預測商店的銷售額,用機器學習可以精巧地管理諸如產品佈局,庫存管理,自定義報價等任務。

4.黑色星期五資料集

它是一個經典的資料集,可以從多種購物體驗中探索和擴充套件你的特殊工程技能以及日常理解能力。此資料集包含在零售商店捕獲的銷售交易,可以預測購買金額。

5.人類活動識別資料集

很多機器學習課程將這個資料運用於教學目的,它可以預測人類的活動類別,這是一個多分類問題。它是從30個人物的記錄中收集的,透過嵌入式智慧慣性感測器啟用的智慧手機捕獲。

6.行程歷史資料集

想預測使用者類別嗎?該資料集從2010年就開始按季度提供了,它來自美國的共享單車服務。這個資料集需要你鍛鍊專業資料處理技能。

7.電影鏡頭資料集

許多頁面都會隨著使用者轉變而變換內容,你建立推薦系統了嗎?它可以向使用者推薦新電影。此資料集是資料科學行業中備受歡迎的資料集。它在4,000部電影中獲得6,000名使用者的100萬收視率並且還有各類尺寸。

8.確定你的位數資料集

它讓你可以分析和識別影像中的元素。就像相機使用影像識別來檢測你的臉一樣。你也可以構建和測試該技術,它能識別影像中的數字,其中包含7,000張28 X 28大小的影像。

9.城市聲音分類

你是一個喜歡聲音的人嗎?是否會認真傾聽周圍的各種聲音呢?這個練習主要向你介紹常規分類情況下的音訊處理,幫你從音訊中分類聲音的型別。它內含10個類別的8,732個城市聲音的聲音摘錄。

10.芝加哥犯罪資料集

它具有600萬個觀測值,可以預測犯罪型別。當企業在整個資料集上具有計算能力時,他們不喜歡再用樣本。本資料集提供了在本地計算機上處理大型資料集所需的實際經驗。雖然問題很容易,但關鍵是資料管理。

總結

上方列出的10個資料集中,首先你可以找到一個與你的技能組相匹配的資料集。如果你只是個初學者,就不要跨太大步,從簡單開始,專注於逐步取得進展。






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2734391/,如需轉載,請註明出處,否則將追究法律責任。

相關文章