機器學習學習筆記：sklearn.preprocessing.PolynomialFeatures偏置值inlude_bias設定，以及在Pipeline中的設定

木心95發表於2021-10-11

原文網址 : https://www.cnblogs.com/mumuxin-gv/p/15393598.html

機器學習筆記

在人工智慧課程中學習線性迴歸一章時，高階線性迴歸需要用到PolynomialFeatures方法構造特徵。

先看一下官方文件對於sklearn.preprocessing.PolynomialFeatures方法的解釋：

Generate polynomial and interaction features.

Generate a new feature matrix consisting of all polynomial combinations of the features with degree less than or equal to the specified degree. For example, if an input sample is two dimensional and of the form [a, b], the degree-2 polynomial features are [1, a, b, a^2, ab, b^2].

簡單翻譯一下，意思就是：

生成多項式互動特徵。

生成一個新的特徵矩陣，包含特定階數及以下的全部多項式組合。例如，樣本特徵為二維的，包含[a, b]。其全部二階多項式特徵為[1, a, b, a^2, ab, b^2]。

解釋一下，其中包含0階特徵[1]，一階特徵為[a， b]，二階特徵[a^2, ab, b^2]。也就是說，你只要輸入[a, b]，自動生成並返回[1, a, b, a^2, ab, b^2]這樣一個特徵矩陣。（偏置值設為預設值include_bias=True）

在用線性模型LinearRegression擬合時，輸入新生成的特徵矩陣和標籤值矩陣，便可以擬合訓練為一個相應高階的模型。

下面展示一下PolynomialFeatures的使用：

1、首先建立一個資料集。

將其分為訓練集和驗證集，由於這裡用不到所以先不生成測試集了。

import numpy as np
from sklearn.model_selection import train_test_split

# 生成訓練集與驗證集，資料帶有標準差為0.1的噪聲
n = 100
n_train = int(0.8 * n)
n_valid = int(0.2 * n)
x = 6 * np.random.rand(n, 1) - 3
y = 1.2 * x - 3.4 * (x ** 2) + 5.6 * (x ** 3) + 5 + 0.1 * np.random.randn(n, 1)
x_train_set, x_valid_set, y_train_set, y_valid_set = train_test_split(x, y, test_size=0.2, random_state=5)

2、呼叫PolynomialFeatures方法生成特徵矩陣。

由於我們的特徵樣本只有[x]，並且設為三階（degree=3），所以生成的特徵矩陣（include_bias=True）為[1, x, x^2, x^3]。

可以看到矩陣下標為0的這列全部為‘1’，這就是偏置值的作用。

3、設定偏置值include_bias=False

生成的特徵矩陣變為[x, x^2, x^3]

4.1、帶入公式計算引數theta

此時的X_poly是include_bias=True時生成的

4.2、或是使用sklearn.linear_model.LinearRegression擬合模型

此時的X_poly是include_bias=False生成的

5、Pipeline中inlude_bias的設定

根據上面的例子，我們可以看到，使用sklearn的LinearRegression方法進行模型擬合時，輸入的是不含偏置值的特徵矩陣，即include_bias=False。

同理，可以理解，在使用sklearn.pipeline.Pipeline是，如果需要生成多項式特徵矩陣，LinearRegression方法的偏置值設定也是include_bias=False。

如下圖

相關文章

linux學習筆記三：防火牆設定
2018-05-13
Linux筆記防火牆
css樣式設定技巧學習筆記
2021-09-09
CSS筆記
MySQL定時器EVENT學習筆記
2021-09-09
MySql定時器筆記
機器學習學習筆記
2021-06-01
機器學習筆記
吳恩達機器學習筆記 —— 12 機器學習系統設計
2018-07-24
吳恩達機器學習筆記
機器學習整合學習—Apple的學習筆記
2018-11-01
機器學習APP筆記
python學習筆記 - 設定Excel單元格樣式
2020-12-25
Python筆記Excel
fiddler之設定斷點的學習記錄
2020-10-05
斷點
<react學習筆記(2)>JSX語法和樣式的設定
2018-12-03
React筆記JS
機器學習筆記
2024-08-25
機器學習筆記
Python機器學習筆記：sklearn庫的學習
2018-12-29
Python機器學習筆記
OpenXml SDK學習筆記（4）：設定檔案級別的樣式
2021-11-10
XML筆記
Jenkins學習筆記第八篇pipeline機制
2020-11-11
Jenkins筆記
李巨集毅機器學習-學習筆記
2018-11-13
機器學習筆記
機器學習學習筆記——基本知識
2024-04-15
機器學習筆記
機器學習演算法學習筆記
2023-03-13
機器學習演算法筆記
iOS學習筆記15 序列化、偏好設定和歸檔
2018-06-02
iOS筆記
機器學習 | 吳恩達機器學習第九周學習筆記
2018-11-22
機器學習吳恩達筆記
Linux學習/TCP程式設計學習筆記
2024-08-24
LinuxTCP程式設計筆記
《機器學習初步》筆記
2024-10-07
機器學習筆記
設計模式學習筆記
2022-01-07
設計模式筆記
學習筆記-設計模式
2021-01-01
筆記設計模式
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
機器學習（3），opencv4.0中SVM各個引數的意義，設定
2019-09-25
機器學習OpenCV
設計模式學習筆記（十四）責任鏈模式實現以及在Filter中的應用
2022-04-04
設計模式筆記Filter
（資料科學學習手札100）搞定matplotlib中的字型設定
2020-12-11
資料科學
機器學習-學習筆記(一) --> （假設空間 & 版本空間）及歸納偏好
2022-05-02
機器學習筆記
設計模式學習筆記（十六）迭代器模式及其在Java 容器中的應用
2022-04-06
設計模式筆記Java
設計模式學習筆記（3）裝飾器
2019-02-03
設計模式筆記
機器學習課程筆記
2018-05-15
機器學習筆記
學習筆記-虛擬機器
2020-11-01
筆記虛擬機
Machine Learning 機器學習筆記
2018-03-27
Mac機器學習筆記
JS學習筆記之由定時器引發的深入思考
2018-04-12
JS筆記定時器
機器學習中的聚類演算法演變及學習筆記
2020-05-16
機器學習聚類演算法筆記
php設計模式學習筆記
2019-04-03
PHP設計模式筆記
JavaScript設計模式學習筆記
2020-05-27
JavaScript設計模式筆記
win NTFS許可權設定學習筆記加題整理 2020/11/28
2020-11-28
筆記
DNS入門學習：什麼是TTL值？如何設定合適的TTL值？
2023-10-23
DNS