趣味機器學習入門小專案(附教程與資料)

機器學習演算法與Python學習發表於2017-11-17

微信公眾號

關鍵字全網搜尋最新排名

【機器學習演算法】:排名第一

【機器學習】:排名第一

【Python】:排名第三

【演算法】:排名第四

沒有任何理論可以代替實踐,雖然教材和課程能讓你掌握一些基本原理,但在嘗試應用時,你會發現具體操作起來比較困難。因此專案有助於提高應用機器學習的技巧,此外在找工作中也會給自己增添一些籌碼。

這個專案的目標是將現成模型應用到不同的資料集。首先,你會根據直覺為問題找到對應的模型,實踐檢驗該模型是否對資料丟失具有魯棒性、是否適合處理哪種類別特徵;其次,本專案將教會你快速設計初始模型的技能,在實際應用中,我們一般會先找到一個簡單模型進行快速實現以確定一個baseline,逐步提升模型效能,而不是一蹴而就的完成;最後,這個練習可以幫助你掌握建模的流程。下面我裡除了一個機器學習問題處理的通用性步驟例如:

  1. 匯入資料

  2. 資料清洗

  3. 將資料集拆成訓練/測試或交叉驗證集

  4. 預處理

  5. 變換

  6. 特徵工程

因為使用現成的模型,這促使你有更多的機會專注於學習上述的這些關鍵步驟,通過以下教程可以練習迴歸、分類和聚類演算法。


首先介紹一下該專案中所使用到的資料來源:

  1. UCI機器學習庫——350多個可檢索資料集,幾乎涵蓋每一個主題。

    http://archive.ics.uci.edu/ml/

  2. Kaggle資料集——Kaggle社群上的100多個資料集。

    https://www.kaggle.com/datasets

  3. Data.gov——由美國政府釋出的開放資料集。

    https://www.data.gov/

其次是教程,專案中的模型使用Python的第三方庫Scikit-learn進行快速實現,需要了解scikit-learn的安裝以及使用方法(參考官方手冊),具體如下:

  1. Python:sklearn——sklearn資料包官方教程 

    http://scikit-learn.org/stable/tutorial/

  2. 中文教程手冊:

    http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179

  3. Scikit Learn預測葡萄酒質量——用於訓練機器學習模型的分步教程

    http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn


0?wx_fmt=png

招募 志願者

廣告、商業合作

請發郵件:357062955@qq.com

0?wx_fmt=jpeg

喜歡,別忘關注~

幫助你在AI領域更好的發展,期待與你相遇!

相關文章