周志華西瓜書《機器學習》第三章線性模型

Yolo_1996發表於2018-12-09

原文網址 : https://blog.csdn.net/dagongsmallguy/article/details/84921588

又好像很久更新了，但這幾天我都有在學習哦~。一位同學和我說感覺我的筆記很多是對書本原文的再現，缺少自己的思考和重點提煉。我反思了一下好像真的是這樣的呢，這樣子寫似乎的確是和原文沒有多大的區別（而且敲那麼多字非常的累）。
所以從這篇筆記開始我會挑選書中的重點來記錄啦，對於個別比較難理解的公式也會單獨拿出來推導，不再把時間花在重複勞動上。
在寫文章方面我只是一個小白，希望大家多多包涵。

3.1基本形式

對於一個物體，線性模型通過學得各個屬性的線性組合來對其進行預測：
$f\left ( x \right )=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+...+w_{d}x_{d}+b$
上式可以用向量形式 $f\left ( x \right )=w^{T}x+b$ 來進行簡單表示。

當我們學習得到 $w=\left ( w_{1}; w_{2}; w_{3}...; w_{d};\right )$ 和 $b$ 之後便可以將模型確定下來。

線性模型的應用範圍比較有限，但我們可以在這幾個基礎上通過層級結構或高維對映得到功能更為強大的非線性模型。
線上性模型中， $w$ 直觀表達了各屬性在預測中的重要性，因此線性模型有很好的可解釋性(comprehensibility) 。

3.2 線性迴歸

我們可以使用"線性迴歸" (linear regression)來學得一個模型從而對預測值做出準確的預測輸出標記。

線上性迴歸中，我們試圖學得： $f\left ( x \right )=w^{T}x+b\cong y_{i}$ 。在這裡我們用均方誤差來進行效能度量，直接讓均方誤差最小化便可求得結果。即：
在這裡插入圖片描述

我們求解 $w$ 和 $b$ 讓 $E_{\left ( w,b \right )}=\sum_{i=1}^{m}\left ( y_{i}-wx_{i}-b \right )^{2}$ 實現最小值，這個過程可以通過對 $w$ 和 $b$ 求導來實現：
在這裡插入圖片描述
讓兩者分別為0便可以求得 $w$ 和 $b$ 的最優解：

對於有多個屬性的情況，我們可以用多元線性迴歸來實現問題的求解，將資料集用一個矩陣X來進行表示：
在這裡插入圖片描述
資料集的標記我們也可以用向量形式 $y=\left ( y_{1}; y_{2};...;y_{m};\right )$ 來表示，從而可以得到和單屬性相似的結果：

在上文部分，我們實現了單屬性和多屬性的線性迴歸推導，但在我們的實際生活中，線性迴歸的應用場景並不是那麼常見，我們可以通過加一層對映來實現對y“衍生物”的逼近。

如 $x$ 到 $y$ 的實際對映為指數函式，我們令 $y^{`}=lny$ ,那麼x到 $y^{`}$ 的對映就變成了線性函式，我們可以繼續用剛才講過的那一部分知識來分析問題。得到 $lny=w^{T}x+b$ 。

上式形式上仍然是線性迴歸，但是在實質上已經是在求解輸入空間到輸出空間的非線性函式對映。這裡的對數函式起到了將線性迴歸模型的預測值和真實標記聯絡起來的作用。
在這裡插入圖片描述

更一般的，我們通過引入單調可微函式g(`)得到廣義線性模型：
$y=g^{-1}\left ( w^{T}x+b \right )$

3.3對數機率迴歸

這裡我們首先要注意的是對數機率迴歸是用於處理分類問題嗎，不是迴歸問題。

我們通過一個單調可微函式將分類任務的真實標記 $y$ 與線性迴歸模型的預測值聯絡起來。
在這裡插入圖片描述
因為單位階躍函式不連續，所以我們用對數機率函式來進行替代：
$y=\frac{1}{1+e^{-z}}$ ,將對數機率函式作為我們之前提出的可微函式g(·)，得：
$y=\frac{1}{1+e^{-\left ( w^{T}x+b \right )}}$
上式可以推導為： $ln\frac{y}{1-y}=w^{T}+b$ 。

其中我們把 $y$ 看做是正例的可能性， $1-y$ 看成是反例的可能性，則=兩者的比值 $\frac{y}{1-y}$ 稱為機率，反映了 $x$ 作為正例的相對可能性對機率取對數則得到"對數機率": $ln\frac{y}{1-y}$

接下來，我們就可以用“極大似然法”來對 $w$ 和 $b$ 進行估計。

3.4線性判別分析

線性判別分析（LDA）是一種經典的線性學習方法：給定一個訓練樣本，設法將樣例投影到一條直線上，使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離;在對新樣本進行分類時，將其投影到同樣的這條直線上，再根據投影點的位置來確定新樣本的類別：
在這裡插入圖片描述

投影： $w^{T}\mu _{0}$ 和 $w^{T}\mu _{1}$
協方差： $w^{T}\sum _{0} w$ 和 $w^{T}\sum _{1} w$

欲使同類樣例的投影點儘可能接近，可以讓同類樣例投影點的協方差儘可能小;而欲使異類樣例的投影點儘可能遠離，可以讓類中心之間的距離儘可能大。
在這裡插入圖片描述

藉助"類內散度矩陣" 和"類間散度矩陣"，我們可以將上式轉化為：
在這裡插入圖片描述

3.5 多分類學習

這一部分主要是講述如何對資料集進行拆分換個整合。

有些二分類學習方法可直接推廣到多分類，但在更多情形下，我們是基於一些基本策略，利用二分類學習器來解決多分類問題。

對於考慮N 個類別 $C_{1},C_{2},C_{3}....C_{N}$ ，多分類學習的基本思路是"拆解法"即將多分類任務拆為若干個二分類任務求解.

最經典的拆分策略有三種. “一對一” (One vs. One，簡稱OvO) 、“一對其餘” (One vs. Rest ，簡稱OvR)和"多對多" (Many vs. Many，簡稱MvM)。

3.6類別不平衡問題

類別不平衡(class-imbalance)就是指分類任務中不同類別的訓練樣例數目差別很大的情況。

當訓練集中正、反例的數目不同時，我們直接拿預測機率和觀測機率進行比較就可以得出結論。如正例數目為 $m^{+}$ ,反例數目為 $m^{-}$ ,則觀察機率為 $\frac{m_{+}}{m_{-}}$ ,當分類器的預測機率高於觀測機率便可以判斷為正例：
在這裡插入圖片描述
具體與上文的判別方法進行結合，我們只需要對預測值進行調整即可：

也就是我們常說的“再縮放”

周志華西瓜書《機器學習》
2019-12-17
機器學習
周志華西瓜書《機器學習筆記》學習筆記第二章《模型的評估與選擇》
2018-12-02
機器學習筆記模型
機器學習-周志華
2023-10-03
機器學習
周志華《機器學習》西瓜書精煉版筆記來了！16 章完整版
2019-09-28
機器學習筆記
重磅！周志華《機器學習》手推筆記來了！
2019-11-11
機器學習筆記
機器學習定義及基本術語（根據周志華的《機器學習》概括）
2018-07-25
機器學習
《機器學習_05_線性模型_最大熵模型》
2020-05-18
機器學習模型熵
比啃西瓜書更高效的“機器學習”方法
2020-04-06
機器學習
機器學習第6篇：線性模型概述
2020-11-04
機器學習模型
周志華西瓜書詳細公式推導，Datawhale開源pumpkin-book專案
2019-04-04
公式
機器學習西瓜書02：第四章，決策樹。
2020-10-06
機器學習
模式識別與機器學習——迴歸的線性模型
2019-01-30
模式機器學習模型
機器學習演算法筆記之3：線性模型
2020-04-06
機器學習演算法筆記模型
機器學習：線性迴歸
2024-11-19
機器學習
從線性模型（linear model）衍生出的機器學習分類器（classifier）
2019-03-24
模型機器學習
機器學習之支援向量機（線性模型）的最佳化問題
2020-07-04
機器學習模型
北大張志華：機器學習就是現代統計學
2019-05-16
機器學習
機器學習之線性迴歸
2020-02-07
機器學習
機器學習：線性迴歸（下）
2024-11-26
機器學習
機器學習整理（線性迴歸）
2022-03-12
機器學習
資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐
2022-03-09
資料科學機器學習演算法
[DataAnalysis]機器學習演算法——線性模型（邏輯迴歸+LDA）
2018-08-26
機器學習演算法模型邏輯迴歸LDA
機器學習模型
2024-03-30
機器學習模型
【機器學習】線性迴歸預測
2022-06-23
機器學習
機器學習5-線性迴歸
2021-01-20
機器學習
機器學習 | 吳恩達機器學習第九周學習筆記
2018-11-22
機器學習吳恩達筆記
談談機器學習模型的可解釋性
2021-07-29
機器學習模型
“圍剿”殺人機器人，周志華、Hinton等57位學界大牛出手了
2018-04-06
機器人
【機器學習】線性迴歸python實現
2019-01-17
機器學習Python
【機器學習】線性迴歸原理介紹
2019-01-17
機器學習
【機器學習】線性迴歸sklearn實現
2019-01-17
機器學習
【機器學習】李宏毅——線性降維
2022-12-16
機器學習
機器學習實戰（一）—— 線性迴歸
2020-12-01
機器學習
【機器學習】從0開始的啃西瓜指導
2020-12-08
機器學習
【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [6] 樸素貝葉斯實踐
2018-09-11
資料科學機器學習演算法
TVM 中文站正式上線！最全機器學習模型部署「參考書」它來了
2022-11-23
機器學習模型
tensorflow機器學習模型的跨平臺上線
2018-07-01
機器學習模型
【機器學習】乾貨丨機器學習知識點；機器學習模型的“可解釋性”到底有多重要？
2018-03-14
機器學習模型