僅需10分鐘：開啟你的機器學習之路

机器之心發表於2019-05-05

原文網址 : https://www.jiqizhixin.com/articles/2019-05-05-5

隨著行業內機器學習的崛起，能夠幫使用者快速迭代整個過程的工具變得至關重要。Python，機器學習技術領域冉冉升起的一顆新星，往往是帶你走向成功的首選。因此，用 Python 實現機器學習的指南是非常必要的。

用 Python 實現機器學習的介紹

那麼為什麼是 Python 呢？根據我的經驗，Python 是最容易學習的程式語言之一。現在需要快速迭代整個過程，與此同時，資料科學家不需要深入瞭解這種語言，因為他們可以快速掌握它。

有多容易呢？

for anything in the_list:
    print(anything)

就這麼容易。Python 的語法和英語（或人類語言，而不是機器語言）語法關係密切。在 Python 的語法中沒有愚蠢的大括號造成的困擾。我有一個從事質量保證（Quality Assurance）工作的同事，雖然不是軟體工程師，但她可以在一天內寫出產品級的 Python 程式碼。（真的！）

我將在下文中介紹幾個基於 Python 的庫。作為資料分析師和資料科學家，我們可以利用他們的傑作來幫助我們完成任務。這些不可思議的庫是用 Python 實現機器學習的必備工具。

NumPy

這是一個非常有名的資料分析庫。從計算資料分佈的中位數，到處理多維陣列，NumPy 都可以幫你完成。

Pandas

這是用來處理 CSV 檔案的。當然了，你還需要處理一些表格、檢視統計資料等，那 Pandas 就是可以滿足你的需求的工具。

Matplotlib

把資料儲存在 Pandas 的資料框後，你可能需要做一些視覺化來理解資料的更多資訊。畢竟一圖抵千言。

Seaborn

這是另一個視覺化工具，但這個工具更側重於統計結果的視覺化，比如直方圖、餅圖、曲線圖或相關性表等。

Scikit-Learn

這是用 Python 實現機器學習的終極工具。所謂用 Python 實現機器學習指的就是這個——Scikit-Learn。所有你需要的從演算法到提升的內容都能在這裡找到。

Tensorflow 和 Pytorch

針對這兩個工具我不會說太多。但如果你對深度學習感興趣的話，可以詳細瞭解一下，它們值得你花時間去學習。（我下次會再寫一篇關於深度學習的教程，敬請期待！）

僅需10分鐘：開啟你的機器學習之路

Python 機器學習專案

當然，只是閱讀和學習是沒法讓你達成心願的。你需要實際練習。正如我部落格中所說的，如果你沒有深入資料的話，那學習這些工具將毫無意義。因此，我在這裡介紹一個可以輕鬆找到 Python 機器學習專案的地方。

部落格地址：https://thedatamage.com/

僅需10分鐘：開啟你的機器學習之路

Kaggle 是一個可以直接研究資料的平臺。你可以在這個平臺中解決一些專案，並達到真的擅長機器學習的地步。你可能更感興趣另外一些東西——Kaggle 舉辦的機器學習競賽，獎金高達 100,000 美元。你可能會想著碰碰運氣，哈哈。

Kaggle：https://www.kaggle.com/

但最重要的並不是錢——你真的可以在這裡找到用 Python 實現的機器學習專案。你可以試著完成很多專案。但如果你是個新手，你可能會想參加這項競賽。

我們將在後面的教程中用到一個示例專案：

泰坦尼克：從災難中進行機器學習（https://www.kaggle.com/c/titanic）

這就是眾所周知的泰坦尼克號。這是一場發生在 1912 年的災難，這場災難波及到的乘客和機組成員共 2224 人，其中 1502 人遇難死亡。這項 Kaggle 競賽（或者說是教程）提供了災難中的真實資料。你的任務是解釋這些資料，並預測出災難中哪些人會活下來，哪些人不會。

用 Python 實現機器學習的教程

在深入瞭解泰坦尼克號的資料之前，我們要先安裝一些必需的工具。

首先當然是 Python。第一次安裝 Python 需要從官網上安裝。你要安裝 3.6 以上的版本，這樣才能跟最新版本的庫保持同步。

Python 官方網站：https://www.python.org/downloads/

然後可以用 Python 的 pip 安裝所有的庫。你剛剛下載的 Python 發行版會自動安裝 pip。

需要的其他工具都可以用 pip 安裝。開啟終端、命令列或 PowerShell，命令如下：

pip install numpy
pip install pandas
pip install matplotlib
pip install seaborn
pip install scikit-learn
pip install jupyter

看起來一切都執行良好。但是等一下，什麼叫 jupyter？jupyter 表示 Julia、Python 和 R，因此它實際上是 Jupytr。但這個單詞看起來太奇怪了，所以他們把它變成了 Jupyter。這是一個很有名的筆記本，你可以在這個筆記本上寫互動式的 Python 程式碼。

只要在終端中輸入 jupyter notebook，就可以開啟如下圖所示的瀏覽器頁面：

僅需10分鐘：開啟你的機器學習之路

你可以把程式碼寫在綠色矩形中，而且可以互動式地編寫並評價 Python 程式碼。

現在你已經安裝了所有的工具。我們開始吧！

資料探索

探索資料是第一步。你需要從 Kaggle 的 Titanic 頁面下載資料，然後將下載的資料放到你啟動 Jupyter 筆記本的資料夾中。

資料下載地址：https://www.kaggle.com/c/titanic/data

然後匯入必要的庫：

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

載入資料：

train_df=pd.read_csv("train.csv")
train_df.head()

輸出如下：

僅需10分鐘：開啟你的機器學習之路

這就是我們的資料。它有下面幾列：

PassengerId，乘客的識別符號；
Survived，他（她）是否存活了下來；
Pclass，艙室類別，也許 1 表示經濟艙，2 表示商務艙，3 表示頭等艙；
Name，乘客的名字；
Sex，性別；
Age，年齡；
SibSp，即兄弟姐妹（siblings）或配偶（spouses），表示在船上的兄弟姐妹以及配偶的數目；
Parch，即父母（Parents）或子女（Children），表示在船上的父母和子女的數目；
Ticket，船票詳情；
Cabin，艙號，NaN 表示未知；
Embarked，登船的起始地，S 表示南安普頓（Southampton），Q 表示皇后鎮（Queenstown），C 表示瑟堡（Cherbourg）

在探索資料時，常常會遇到資料缺失的問題。我們來看一下

def missingdata(data):
    total = data.isnull().sum().sort_values(ascending = False)
    percent = (data.isnull().sum()/data.isnull().count()*100).sort_values(ascending = False)
    ms=pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
    ms= ms[ms["Percent"] > 0]
    f,ax =plt.subplots(figsize=(8,6))
    plt.xticks(rotation='90')
    fig=sns.barplot(ms.index, ms["Percent"],color="green",alpha=0.8)
    plt.xlabel('Features', fontsize=15)
    plt.ylabel('Percent of missing values', fontsize=15)
    plt.title('Percent missing data by feature', fontsize=15)
    return ms
missingdata(train_df)

我們會看到這樣的結果：

僅需10分鐘：開啟你的機器學習之路

艙號、年齡以及登船地的資料都有一些缺失值，而艙號資訊有大量的缺失。我們需要對它們進行處理，也就是所謂的資料清理（Data Cleaning）。

資料清理

我們 90% 的時間都花在這上面。我們要針對每一個機器學習專案進行大量的資料清理。當資料清理乾淨時，我們就可以輕鬆地進行下一步了，什麼都不用擔心。

資料清理中最常用的技術是填充缺失資料。你可以用眾數、平均數或中位數來填充缺失資料。選擇這些資料沒有絕對規則，你可以一一嘗試，然後看看它們的表現如何。但是根據經驗來講，分類資料只能用眾數，連續資料可以用中位數或平均數。所以我們用眾數來填充登船地資料，用中位數來填充年齡資料。

train_df['Embarked'].fillna(train_df['Embarked'].mode()[0], inplace = True)
train_df['Age'].fillna(train_df['Age'].median(), inplace = True)

接下來的重要操作是刪除資料，尤其針對大量缺失的資料。我們針對艙號資料進行以下處理：

drop_column = ['Cabin']
train_df.drop(drop_column, axis=1, inplace = True)

現在檢查一下清理過的資料。

print('check the nan value in train data')
print(train_df.isnull().sum())

僅需10分鐘：開啟你的機器學習之路

完美！沒有任何缺失資料了！這表示資料已經清理乾淨了。

僅需10分鐘：開啟你的機器學習之路

特徵工程

現在資料已經清理乾淨了。接下來我們要進行特徵工程。

特徵工程基本上就是根據當前可用資料發現特徵或資料的技術。有幾種方法可以實現這種技術。在很多時候這都是常識。

我們以登船地資料為例——這是用 Q、S 或 C 填充的資料。Python 庫不能處理這個，因為它只能處理數字。所以你需要用所謂的獨熱向量化（One Hot Vectorization）來處理，它可以把一列變成三列。用 0 或 1 填充 Embarked_Q、Embarked_S 和 Embarked_C，來表示這個人是不是從這個港口出發的。

再以 SibSp 和 Parch 為例。這兩列沒有什麼有趣的，但是你可能會想知道某個乘客有多少家人登上了這艘船。如果家人多的話可能會增加生存機率，因為他們可以互相幫助。從另一個角度說，單獨登船的乘客可能很難生存下去。

因此你可以建立新的一列，這一列是成員數量（family size），family size = SibSp + Parch + 1（乘客自己）。

最後一個例子是以 bin 列為例的。由於你認為很難區分具有相似值的事物，所以這種操作建立了值範圍（ranges of values），然後將多個值組合在一起。比如，5 歲和 6 歲的乘客之間有顯著的差異嗎？或者 45 和 46 歲的人之間有顯著的差異嗎？

這就是建立 bin 列的原因。也許就年齡而言，我們可以建立 4 列——幼兒（0~14 歲）、青少年（14~20 歲）、成年人（20~40 歲）以及年長的人（40 歲以上）。

編碼如下：

all_data = train_df
for dataset in all_data :
    dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
import re
# Define function to extract titles from passenger names
def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
    # If the title exists, extract and return it.
    if title_search:
        return title_search.group(1)
    return ""
# Create a new feature Title, containing the titles of passenger names
for dataset in all_data:
    dataset['Title'] = dataset['Name'].apply(get_title)
# Group all non-common titles into one single grouping "Rare"
for dataset in all_data:
    dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 
                                                 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')
for dataset in all_data:
    dataset['Age_bin'] = pd.cut(dataset['Age'], bins=[0,14,20,40,120], labels=['Children','Teenage','Adult','Elder'])
for dataset in all_data:
    dataset['Fare_bin'] = pd.cut(dataset['Fare'], bins=[0,7.91,14.45,31,120], labels ['Low_fare','median_fare', 'Average_fare','high_fare'])

traindf=train_df
for dataset in traindf:
    drop_column = ['Age','Fare','Name','Ticket']
    dataset.drop(drop_column, axis=1, inplace = True)
drop_column = ['PassengerId']
traindf.drop(drop_column, axis=1, inplace = True)
traindf = pd.get_dummies(traindf, columns = ["Sex","Title","Age_bin","Embarked","Fare_bin"],
                             prefix=["Sex","Title","Age_type","Em_type","Fare_type"])

現在，你已經建立完成所有的特徵了。接著我們看看這些特徵之間的相關性：

sns.heatmap(traindf.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(20,12)
plt.show()

僅需10分鐘：開啟你的機器學習之路

相關值接近 1 意味著高度正相關，-1 意味著高度負相關。例如，性別為男和性別為女之間就呈負相關，因為必須將乘客識別為一種性別（或另一種）。此外，你還可以看到，除了用特徵工程建立的內容外，沒有哪兩種是高度相關的。這證明我們做得對。

如果某些因素之間高度相關會怎麼樣？我們可以刪除其中的一個，新列中的資訊並不能給系統提供任何新資訊，因為這兩者是完全一樣的。

用 Python 實現機器學習

現在我們已經到達本教程的高潮——機器學習建模。

from sklearn.model_selection import train_test_split #for split the data
from sklearn.metrics import accuracy_score  #for accuracy_score
from sklearn.model_selection import KFold #for K-fold cross validation
from sklearn.model_selection import cross_val_score #score evaluation
from sklearn.model_selection import cross_val_predict #prediction
from sklearn.metrics import confusion_matrix #for confusion matrix
all_features = traindf.drop("Survived",axis=1)
Targeted_feature = traindf["Survived"]
X_train,X_test,y_train,y_test = train_test_split(all_features,Targeted_feature,test_size=0.3,random_state=42)
X_train.shape,X_test.shape,y_train.shape,y_test.shape

Scikit-Learn 庫中有多種演算法供你選擇：

邏輯迴歸
隨機森林
支援向量機
K 最近鄰
樸素貝葉斯
決策樹
AdaBoost
LDA
梯度增強

你可能感到不知所措，想弄清什麼是什麼。別擔心，只要將它當做「黑箱」對待就好——選一個表現最好的。（我之後會寫一篇完整的文章討論如何選擇這些演算法。）

以我最喜歡的隨機森林演算法為例：

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(criterion='gini', n_estimators=700,
                             min_samples_split=10,min_samples_leaf=1,
                             max_features='auto',oob_score=True,
                             random_state=1,n_jobs=-1)
model.fit(X_train,y_train)
prediction_rm=model.predict(X_test)
print('--------------The Accuracy of the model----------------------------')
print('The accuracy of the Random Forest Classifier is', round(accuracy_score(prediction_rm,y_test)*100,2))
kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
result_rm=cross_val_score(model,all_features,Targeted_feature,cv=10,scoring='accuracy')
print('The cross validated score for Random Forest Classifier is:',round(result_rm.mean()*100,2))
y_pred = cross_val_predict(model,all_features,Targeted_feature,cv=10)
sns.heatmap(confusion_matrix(Targeted_feature,y_pred),annot=True,fmt='3.0f',cmap="summer")
plt.title('Confusion_matrix', y=1.05, size=15)

僅需10分鐘：開啟你的機器學習之路

哇哦！準確率高達 83%。就第一次嘗試而言，這個結果已經很好了。

交叉驗證分數的意思是 K 折驗證方法。如果 K=10，就是說要把資料分成 10 個變數，計算所有分數的均值，並將它們作為最終分數。

微調

現在你已經完成了用 Python 實現機器學習的步驟。但再加一個步驟可以讓你得到更好的結果——微調。微調的意思是為機器學習演算法找到最佳引數。以上面的隨機森林程式碼為例：

model = RandomForestClassifier(criterion='gini', n_estimators=700,
                             min_samples_split=10,min_samples_leaf=1,
                             max_features='auto',oob_score=True,
                             random_state=1,n_jobs=-1)

你需要設定許多引數。順便說一下，上面的都是預設值。你可以根據需要改變引數。但當然了，這需要花費很多時間。

別擔心——有一種叫做網格搜尋（Grid Search）的工具，它可以自動找出最佳引數。聽起來還不錯，對吧？

# Random Forest Classifier Parameters tunning 
model = RandomForestClassifier()
n_estim=range(100,1000,100)
## Search grid for optimal parameters
param_grid = {"n_estimators" :n_estim}
model_rf = GridSearchCV(model,param_grid = param_grid, cv=5, scoring="accuracy", n_jobs= 4, verbose = 1)
model_rf.fit(train_X,train_Y)
# Best score
print(model_rf.best_score_)
#best estimator
model_rf.best_estimator_

好了，你可以自己嘗試一下，並從中享受機器學習的樂趣。

總結

怎麼樣？機器學習看起來似乎並不難吧？用 Python 實現機器學習很簡單。一切都已經為你準備好了。你可以做一些神奇的事，並給人們帶來快樂。

說3分鐘好像太狂了，5分鐘幫你開啟機器學習的大門吧！
2018-06-05
機器學習
機器學習&深度學習之路
2018-06-07
機器學習深度學習
【機器學習】帶你3分鐘看完《機器學習實戰》總結篇
2018-03-10
機器學習
Hello CSDN 開啟java學習之路
2020-11-17
Java
收藏！836分鐘的谷歌機器學習教程，帶你10分鐘看完！—— Jinkey 原創
2019-02-28
谷歌機器學習
轉行如何開啟機器學習之旅？
2018-12-27
機器學習
機器學習(一)：5分鐘理解機器學習並上手實踐
2021-01-16
機器學習
5分鐘內看懂機器學習和深度學習的區別
2018-09-12
機器學習深度學習
重走機器學習之路——形而上者謂之道
2018-07-23
機器學習
【機器學習】關於機器學習那些你不知道的“民間智慧”
2018-03-02
機器學習
The Next Step for ML 機器學習落地需攻破的9個難題
2019-06-04
機器學習
6分鐘瞭解所有機器學習模型
2020-09-23
機器學習模型
【火爐煉AI】機器學習028-五分鐘教你打造機器學習流水線
2018-09-10
AI機器學習
Linux快速入門開啟你的學習之道
2019-05-09
Linux
阿里雲學生雲伺服器ECS僅需9.5元/月
2019-02-23
阿里伺服器
The Next Step for Machine Learning 機器學習落地需攻破的9個難題
2019-02-26
Mac機器學習
小白機器學習基礎演算法學習必經之路（下）
2018-12-07
機器學習演算法
從零開始學習機器學習
2018-08-09
機器學習
微控制器小白學習之路(十二)---直流電機的控制
2018-08-20
機器學習成才之路：這是一條GitHub高讚的學習路徑
2019-03-21
機器學習Github
滴滴機器學習平臺架構演進之路
2019-03-28
機器學習架構
MapReduce Service更換叢集外部時鐘源，僅需10步
2021-11-09
如何假裝你懂機器學習？
2023-05-09
機器學習
僅需五步，讓你的個人資料更加安全！
2021-02-24
讓機器學習告訴你，你的siri在想什麼！
2018-05-10
機器學習
僅需1/5成本：TPU是如何超越GPU，成為深度學習首選處理器的
2018-09-03
GPU深度學習
Android開發學習之路
2024-03-17
Android
Docker下，五分鐘極速體驗機器學習
2022-10-02
Docker機器學習
前置機器學習（三）：30分鐘掌握常用NumPy用法
2020-12-06
機器學習
前置機器學習（五）：30分鐘掌握常用Matplotlib用法
2020-12-25
機器學習
【機器學習】機器學習簡介
2018-11-29
機器學習
從 0 開始機器學習 - 機器學習演算法診斷
2020-07-16
機器學習演算法
五分鐘學Java：如何學習Java面試必考的JVM虛擬機器
2020-03-19
Java面試JVM虛擬機
機器學習中的元學習
2024-03-13
機器學習
【機器學習】深度學習開發環境搭建
2018-11-26
機器學習深度學習開發環境
昇騰CANN：為你開啟機器人開發的Buff 加成
2022-12-28
機器人
十大Python機器學習常用庫python開發，你用過你個？
2018-05-05
Python機器學習
從零開始機器學習
2018-08-10
機器學習

僅需10分鐘：開啟你的機器學習之路

相關文章