scikit-learn 和pandas 基於windows單機機器學習環境的搭建

劉建平Pinard發表於2016-10-30

    很多朋友想學習機器學習,卻苦於環境的搭建,這裡給出windows上scikit-learn研究開發環境的搭建步驟。

Step 1. Python的安裝

    python有2.x和3.x的版本之分,但是很多好的機器學習python庫都不支援3.x,因此,推薦安裝2.7版本的python。當前最新的python是2.7.12.連結如下:

    https://www.python.org/downloads/release/python-2712/

    裡面可以看到有32位版和64位版的。如果你的機器是64位版的,那麼32位和64位版的任選一個安裝就可以了。如果機器是32位版的,就只能安裝32位版的了。如果你搞不清楚你的機器的位數,那麼就安裝32位版的吧。也就是“Windows x86 MSI installer”。

Windows x86-64 MSI installer Windows for AMD64/EM64T/x64, not Itanium processors 8fa13925db87638aa472a3e794ca4ee3 19820544 SIG
Windows x86 MSI installer Windows   fe0ef5b8fd02722f32f7284324934f9d 18907136 SIG

     安裝完畢後,可以設定下環境變數,把python目錄加到PATH,比如我的Python裝在 C:\Python27,那我就把C:\Python27\Scripts和C:\Python27加到環境變數。當然不加也可以。這樣每次使用Python時加上python的全路徑名。

    安裝完成後,在windows的命令列輸入python,如果能出來python的基本資訊說明安裝成功。

Step 2. Python包管理工具pip的安裝

    我們需要包管理工具來方便python庫的安裝,包管理工具有很多,這裡推薦我習慣使用的pip。

    下載pip的安裝指令碼。連結如下。下載get-pip.py。然後到你的下載目錄,在命令列輸入"python get-pip.py",跑完即可安裝成功。

    https://pip.pypa.io/en/stable/installing/

    下載完畢後,記得跑下這個命令“pip install -U pip”,一是看看pip能不能正常工作,二是把pip升級到最新版本。

Step 3. 安裝 Visual C++ Compiler for Python

    連結在這: https://www.microsoft.com/en-us/download/details.aspx?id=44266

    這個不裝後面很多科學計算的都會裝不了。

Step 4. 安裝numpy和scipy

    這兩哥們是科學計算和矩陣運算必備工具。

    由於numpy和scipy直接用pip安裝經常會出各種各樣的問題,因此一般推薦下載離線版的whl來安裝numpy和scipy。

    首先安裝離線版的numpy,這裡我一般是在下面的連結下載numpy,當然scipy也是在這。

    http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy

    可以看到裡面有很多版本的numpy可以下載,我們的python是2.7,windows 32位的,因此下載“numpy-1.11.2+mkl-cp27-cp27m-win32.whl

    下載完畢後進入下載目錄,在命令列執行 "pip install numpy-1.11.2+mkl-cp27-cp27m-win32.whl" ,這樣numpy就安裝成功了。

    用同樣的方法安裝scipy。在下面的連結下載scipy。

    http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy

    我們的python是2.7,windows 32位的,因此選擇scipy-0.18.1-cp27-cp27m-win32.whl下載。

    完了執行 "pip install scipy-0.18.1-cp27-cp27m-win32.whl"

    這樣numpy和scipy兩個好基友就搞定了。

Step 4. 安裝matplotlib,pandas和scikit-learn

    這沒有什麼好說的,直接在命令列執行下面的命令即可。注意,先安裝matplotlib再安裝pandas

    pip install -U matplotlib

     

    pip install -U jinja2

    pip install -U jsonschema

    pip install -U pyzmq

    pip install -U pandas

 

    pip install -U scikit-learn

Step 5. 安裝ipython和ipython notebook

    ipython notebook是最常用的python互動式學習工具,當然,現在叫做Jupyter Notebook。scikit-learn官方的例子都給出了用ipython notebook執行的版本。

    安裝方式很簡單:

    pip install ipython

    pip install jupyter

    官網在這:http://ipython.org/notebook.html

    安裝完畢後,在命令列輸入“jupyter-notebook”,輸出會提示你notebook執行在http://localhost:8888

Step 6.  Hello World!嘗試執行一個scikit-learn機器學習程式

 

    在scikit-learn官網下載一個機器學習的例子,比如: http://scikit-learn.org/stable/_downloads/plot_cv_predict.ipynb

    然後在下載目錄執行"jupyter notebook",接著瀏覽器開啟http://localhost:8888

    可以在瀏覽器看到你下載目錄的內容,我們開啟剛下載的plot_cv_predict.ipynb這個檔案連結,可以看到python程式的內容,這時我們可以點上面的三角形按鈕,一步步的執行程式,如果沒有報錯,最後可以看到一個線性迴歸的預測圖。

    可以修改這個程式,重新一步步的跑,達到研究學習的目的。

    以上就是scikit-learn和pandas環境的搭建過程。希望大家都可以搭建成功,來研究機器學習。

 

(歡迎轉載,轉載請註明出處。歡迎溝通交流: liujianping-ok@163.com) 

 

 

    

相關文章