周志華西瓜書《機器學習》第三章線性模型
又好像很久更新了,但這幾天我都有在學習哦~。一位同學和我說感覺我的筆記很多是對書本原文的再現,缺少自己的思考和重點提煉。我反思了一下好像真的是這樣的呢,這樣子寫似乎的確是和原文沒有多大的區別(而且敲那麼多字非常的累)。
所以從這篇筆記開始我會挑選書中的重點來記錄啦,對於個別比較難理解的公式也會單獨拿出來推導,不再把時間花在重複勞動上。
在寫文章方面我只是一個小白,希望大家多多包涵。
3.1基本形式
對於一個物體,線性模型通過學得各個屬性的線性組合來對其進行預測:
上式可以用向量形式來進行簡單表示。
當我們學習得到和之後便可以將模型確定下來。
- 線性模型的應用範圍比較有限,但我們可以在這幾個基礎上通過層級結構或高維對映得到功能更為強大的非線性模型。
- 線上性模型中,直觀表達了各屬性在預測中的重要性,因此線性模型有很好的可解釋性(comprehensibility) 。
3.2 線性迴歸
我們可以使用"線性迴歸" (linear regression)來學得一個模型從而對預測值做出準確的預測輸出標記。
線上性迴歸中,我們試圖學得:。在這裡我們用均方誤差來進行效能度量,直接讓均方誤差最小化便可求得結果。即:
我們求解和讓實現最小值,這個過程可以通過對和求導來實現:
讓兩者分別為0便可以求得和的最優解:
對於有多個屬性的情況,我們可以用多元線性迴歸來實現問題的求解,將資料集用一個矩陣X來進行表示:
資料集的標記我們也可以用向量形式來表示,從而可以得到和單屬性相似的結果:
在上文部分,我們實現了單屬性和多屬性的線性迴歸推導,但在我們的實際生活中,線性迴歸的應用場景並不是那麼常見,我們可以通過加一層對映來實現對y“衍生物”的逼近。
如到的實際對映為指數函式,我們令,那麼x到的對映就變成了線性函式,我們可以繼續用剛才講過的那一部分知識來分析問題。得到。
上式形式上仍然是線性迴歸,但是在實質上已經是在求解輸入空間到輸出空間的非線性函式對映。這裡的對數函式起到了將線性迴歸模型的預測值和真實標記聯絡起來的作用。
更一般的,我們通過引入單調可微函式g(`)得到廣義線性模型:
3.3對數機率迴歸
這裡我們首先要注意的是對數機率迴歸是用於處理分類問題嗎,不是迴歸問題。
我們通過一個單調可微函式將分類任務的真實標記與線性迴歸模型的預測值聯絡起來。
因為單位階躍函式不連續,所以我們用對數機率函式來進行替代:
,將對數機率函式作為我們之前提出的可微函式g(·),得:
上式可以推導為:。
其中我們把看做是正例的可能性,看成是反例的可能性,則=兩者的比值稱為機率,反映了作為正例的相對可能性對機率取對數則得到"對數機率":
接下來,我們就可以用“極大似然法”來對和進行估計。
3.4線性判別分析
線性判別分析(LDA)是一種經典的線性學習方法:給定一個訓練樣本,設法將樣例投影到一條直線上,使得同類樣例的投影點儘可能接近、異類樣例的投影點儘可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別:
投影:和
協方差: 和
欲使同類樣例的投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小;而欲使異類樣例的投影點儘可能遠離,可以讓類中心之間的距離儘可能大。
藉助"類內散度矩陣" 和"類間散度矩陣",我們可以將上式轉化為:
3.5 多分類學習
這一部分主要是講述如何對資料集進行拆分換個整合。
有些二分類學習方法可直接推廣到多分類,但在更多情形下,我們是基於一些基本策略,利用二分類學習器來解決多分類問題。
對於考慮N 個類別, 多分類學習的基本思路是"拆解法"即將多分類任務拆為若干個二分類任務求解.
最經典的拆分策略有三種. “一對一” (One vs. One,簡稱OvO) 、“一對其餘” (One vs. Rest ,簡稱OvR)和"多對多" (Many vs. Many,簡稱MvM)。
3.6類別不平衡問題
類別不平衡(class-imbalance)就是指分類任務中不同類別的訓練樣例數目差別很大的情況。
當訓練集中正、反例的數目不同時,我們直接拿預測機率和觀測機率進行比較就可以得出結論。如正例數目為,反例數目為,則觀察機率為,當分類器的預測機率高於觀測機率便可以判斷為正例:
具體與上文的判別方法進行結合,我們只需要對預測值進行調整即可:
也就是我們常說的“再縮放”
相關文章
- 周志華西瓜書《機器學習》機器學習
- 機器學習-周志華機器學習
- 周志華《機器學習》西瓜書精煉版筆記來了!16 章完整版機器學習筆記
- 周志華 機器學習ppt機器學習
- 周志華《機器學習》課後習題解答系列(四):Ch3 - 線性模型機器學習模型
- 周志華西瓜書《機器學習筆記》學習筆記第二章《模型的評估與選擇》機器學習筆記模型
- 周志華西瓜書詳細公式推導,Datawhale開源pumpkin-book專案公式
- 機器學習-周志華-課後習題答案5.5機器學習
- 重磅!周志華《機器學習》手推筆記來了!機器學習筆記
- 機器學習定義及基本術語(根據周志華的《機器學習》概括)機器學習
- 周志華《機器學習》課後習題解答系列(一):目錄機器學習
- 周志華《機器學習》課後習題解答系列(四):Ch3.5 - 程式設計實現線性判別分析機器學習程式設計
- 周志華《機器學習》課後習題解答系列(三):Ch2 - 模型評估與選擇機器學習模型
- AI會議排名_周志華AI
- 《機器學習》西瓜書學習筆記(五)機器學習筆記
- 周志華《機器學習》課後習題解答系列(五):Ch4 - 決策樹機器學習
- AI會議的總結(by南大周志華)AI
- 《機器學習_05_線性模型_最大熵模型》機器學習模型熵
- 周志華《機器學習》課後習題解答系列(六):Ch5 - 神經網路機器學習H5神經網路
- 比啃西瓜書更高效的“機器學習”方法機器學習
- 周志華《機器學習》課後習題解答系列(六):Ch5.8 - SOM網路實驗機器學習H5
- 周志華《機器學習》課後習題解答系列(六):Ch5.7 - RBF網路實驗機器學習H5
- 機器學習 第6篇:線性模型概述機器學習模型
- 周志華《機器學習》課後習題解答系列(四):Ch3.4 - 交叉驗證法練習機器學習
- 周志華《機器學習》課後習題解答系列(六):Ch5.5 - BP演算法實現機器學習H5演算法
- 周志華《機器學習》課後習題解答系列(六):Ch5.6 - BP演算法改進機器學習H5演算法
- 牛人(周志華)推薦的人工智慧網站人工智慧網站
- 北大張志華:機器學習就是現代統計學機器學習
- 《機器學習導論》和《統計機器學習》學習資料:張志華教授機器學習
- 機器學習西瓜書02:第四章,決策樹。機器學習
- 2018 AI World 觀後感——周志華教授partAI
- 偶爾轉帖:AI會議的總結(by南大周志華)AI
- 周志華《機器學習》課後習題解答系列(四):Ch3.3 - 程式設計實現對率迴歸機器學習程式設計
- 周志華《機器學習》課後習題解答系列(六):Ch5.10 - 卷積神經網路實驗機器學習H5卷積神經網路
- 西瓜書筆記筆記
- 機器學習演算法筆記之3:線性模型機器學習演算法筆記模型
- 模式識別與機器學習——迴歸的線性模型模式機器學習模型
- 周志華《機器學習》課後習題解答系列(五):Ch4.3 - 程式設計實現ID3演算法機器學習程式設計演算法