Python資料分析與挖掘實戰(開發流程及常用庫安裝)

HuangZhang_123發表於2017-06-02

本人新書《玩轉Python網路爬蟲》,可在天貓、京東等商城搜尋查閱或通過右側圖書連結購買,專案深入淺出,適合爬蟲初學者或者是已經有一些網路爬蟲編寫經驗,但希望更加全面、深入理解Python爬蟲的開發人員。


作業系統:Windows
Python:3.5
歡迎加入學習交流QQ群:657341423


Python資料分析與挖掘主要流程如圖:
這裡寫圖片描述

基本上做一個資料分析,大致的流程都是這樣的。最後根據模型說明進行相關的事務決策。

這裡簡單說一下資料採集,如果資料來源是來自於資料庫,直接獲取資料庫資料即可。如果是源於網站上的資料,這個可以實現爬蟲方式爬取資料。基本上資料採集來源都是這2部分的比較多。這裡就不做詳細的說明。
後續會詳細解說後面的流程。


這裡用到的庫有:numpy,scipy,scikit_learn,statsmodels,pandas,matplotlib,gensim
這個用圖片說明作用:
這裡寫圖片描述
這裡就不安裝Keras了,這個在Windows下體驗不理想。

常用庫的安裝就比較簡單,直接用pip install 安裝即可完成。安裝順序最好安裝上面的順序,其中一定要安裝numpy再安裝scipy。

pandas需要頻繁的寫入和寫出,這裡還需要安裝
pip install xlrd #讀取excel功能
pip install xlwt #寫入excel功能

其中還有其他庫的延伸,比如圖片處理的Pillow,視訊的處理opencv,高精度運算GMPY2。

相關文章