機器學習——線性迴歸-KNN-決策樹(例項)

抿嘴脣發表於2018-10-09

匯入類庫

1 import numpy as np
2 import pandas as pd
3 from sklearn.linear_model import LinearRegression
4 from sklearn.preprocessing import StandardScaler
5 from sklearn.neighbors import KNeighborsClassifier
6 from sklearn.feature_extraction import DictVectorizer
7 from sklearn.tree import DecisionTreeClassifier

線性迴歸

 1 def price_predict():
 2     # 資料有三個特徵:距離地鐵距離、附近小學數量、小區綠化率
 3     X = np.array([[500.0, 3.0, 0.3], [1000.0, 1.0, 0.6], [750.0, 2.0, 0.3], [600.0, 5.0, 0.2], [1200.0, 1.0, 0.6]])
 4     # 具有三個特徵的房屋對應的房價
 5     Y = np.array([10000, 9000, 8000, 12000, 8500])
 6 
 7     # 標準化,按列轉化,轉化到資料均值為0方差為1的標準分佈內
 8     std_x = StandardScaler()
 9     x_train = std_x.fit_transform(X)
10     std_y = StandardScaler()
11     y_train = std_y.fit_transform(Y.reshape(-1, 1))
12 
13     # 構建線性預測模型
14     lr = LinearRegression()
15     # 模型在歷史資料上進行訓練,Y.reshape(-1,1)將Y變為二維陣列,fit函式要求二維陣列
16     lr.fit(x_train, y_train)
17 
18     # 使用訓練模型預測新房屋價格
19     x_predict = std_x.transform(np.array([[1300, 3.0, 0.4]]))
20     print(std_y.inverse_transform(lr.predict(x_predict)))

KNN

 1 # K近鄰分類(K表示以最近的幾個鄰居作為分類的指標)
 2 # KNN表示了物以類聚人以群分的基本思考方法,最近的K個鄰居是什麼類別,預測樣本就會被劃為該類別
 3 def knn_predict_rev():
 4     # 資料理解為二維座標上的6歌點
 5     X = np.array([[1.0, 1.0], [1, 1.5], [0.5, 1.5], [3.0, 3.0], [3.0, 3.5], [2.8, 3.1]])
 6     # 6個點的類別,按順序和X依次對應
 7     Y = np.array([0, 0, 0, 1, 1, 1])
 8 
 9     # n_neighbors就是KNN中的K
10     knn = KNeighborsClassifier(n_neighbors=3)
11     knn.fit(X, Y)
12     print(knn.predict(np.array([[2.0, 3.0]])))

決策樹

 1 def decide_play():
 2     ```
 3     ID3
 4     :return:
 5     ```
 6     df = pd.read_csv(`dtree.csv`)
 7     # 將資料轉換為字典格式,orient=`record`引數指定資料格式為{column:value}的形式
 8     # 一個字典對應一行資料
 9     dict_train = df.loc[:, [`Outlook`, `Temperatur`, `Humidity`, `Windy`]].to_dict(orient=`record`)
10     # 如果pandas從DataFrame取出一列資料,該資料型別會變成Series
11     dict_target = pd.DataFrame(df[`PlayGolf`], columns=[`PlayGolf`]).to_dict(orient=`record`)
12 
13     # 訓練資料字典向量化
14     dv_train = DictVectorizer()
15     x_train = dv_train.fit_transform(dict_train)
16     # 目標資料字典向量化
17     dv_target = DictVectorizer()
18     y_target = dv_target.fit_transform(dict_target)
19 
20     # 建立決策樹
21     d_tree = DecisionTreeClassifier()
22     # 訓練資料
23     d_tree.fit(x_train, y_target)
24     data_predict = {
25         `Humidity`: 85,
26         `Outlook`: `sunny`,
27         `Temperatur`: 85,
28         `Windy`: False
29     }
30     # 標準化要預測的資料
31     x_data = dv_train.transform(data_predict)
32     # 預測資料並轉換為原格式
33     print(dv_target.inverse_transform(d_tree.predict(x_data)))

 

相關文章