匯入類庫
1 import numpy as np 2 import pandas as pd 3 from sklearn.linear_model import LinearRegression 4 from sklearn.preprocessing import StandardScaler 5 from sklearn.neighbors import KNeighborsClassifier 6 from sklearn.feature_extraction import DictVectorizer 7 from sklearn.tree import DecisionTreeClassifier
線性迴歸
1 def price_predict(): 2 # 資料有三個特徵:距離地鐵距離、附近小學數量、小區綠化率 3 X = np.array([[500.0, 3.0, 0.3], [1000.0, 1.0, 0.6], [750.0, 2.0, 0.3], [600.0, 5.0, 0.2], [1200.0, 1.0, 0.6]]) 4 # 具有三個特徵的房屋對應的房價 5 Y = np.array([10000, 9000, 8000, 12000, 8500]) 6 7 # 標準化,按列轉化,轉化到資料均值為0方差為1的標準分佈內 8 std_x = StandardScaler() 9 x_train = std_x.fit_transform(X) 10 std_y = StandardScaler() 11 y_train = std_y.fit_transform(Y.reshape(-1, 1)) 12 13 # 構建線性預測模型 14 lr = LinearRegression() 15 # 模型在歷史資料上進行訓練,Y.reshape(-1,1)將Y變為二維陣列,fit函式要求二維陣列 16 lr.fit(x_train, y_train) 17 18 # 使用訓練模型預測新房屋價格 19 x_predict = std_x.transform(np.array([[1300, 3.0, 0.4]])) 20 print(std_y.inverse_transform(lr.predict(x_predict)))
KNN
1 # K近鄰分類(K表示以最近的幾個鄰居作為分類的指標) 2 # KNN表示了物以類聚人以群分的基本思考方法,最近的K個鄰居是什麼類別,預測樣本就會被劃為該類別 3 def knn_predict_rev(): 4 # 資料理解為二維座標上的6歌點 5 X = np.array([[1.0, 1.0], [1, 1.5], [0.5, 1.5], [3.0, 3.0], [3.0, 3.5], [2.8, 3.1]]) 6 # 6個點的類別,按順序和X依次對應 7 Y = np.array([0, 0, 0, 1, 1, 1]) 8 9 # n_neighbors就是KNN中的K 10 knn = KNeighborsClassifier(n_neighbors=3) 11 knn.fit(X, Y) 12 print(knn.predict(np.array([[2.0, 3.0]])))
決策樹
1 def decide_play(): 2 ``` 3 ID3 4 :return: 5 ``` 6 df = pd.read_csv(`dtree.csv`) 7 # 將資料轉換為字典格式,orient=`record`引數指定資料格式為{column:value}的形式 8 # 一個字典對應一行資料 9 dict_train = df.loc[:, [`Outlook`, `Temperatur`, `Humidity`, `Windy`]].to_dict(orient=`record`) 10 # 如果pandas從DataFrame取出一列資料,該資料型別會變成Series 11 dict_target = pd.DataFrame(df[`PlayGolf`], columns=[`PlayGolf`]).to_dict(orient=`record`) 12 13 # 訓練資料字典向量化 14 dv_train = DictVectorizer() 15 x_train = dv_train.fit_transform(dict_train) 16 # 目標資料字典向量化 17 dv_target = DictVectorizer() 18 y_target = dv_target.fit_transform(dict_target) 19 20 # 建立決策樹 21 d_tree = DecisionTreeClassifier() 22 # 訓練資料 23 d_tree.fit(x_train, y_target) 24 data_predict = { 25 `Humidity`: 85, 26 `Outlook`: `sunny`, 27 `Temperatur`: 85, 28 `Windy`: False 29 } 30 # 標準化要預測的資料 31 x_data = dv_train.transform(data_predict) 32 # 預測資料並轉換為原格式 33 print(dv_target.inverse_transform(d_tree.predict(x_data)))