機器學習之邏輯迴歸

贪心科技發表於2019-01-22

原文網址 : https://www.jiqizhixin.com/articles/2019-01-22-8

機器學習邏輯迴歸

1. 邏輯迴歸的應用背景

主要解決問題：分類問題---二分類問題

如果需要解決多分類問題--- softmax 迴歸

什麼是分類？

分類是監督學習的一個核心問題，在監督學習中，當輸出變數Y取有限個離散值時，預測問題便成為分類問題。這時，輸入變數X可以是離散的，也可以是連續的。監督學習從資料中學習一個分類模型或分類決策函式，稱為分類器。分類器對新的輸入進行輸出的預測，稱為分類。

與線性迴歸的區別：線性迴歸預測輸出的是（-∞,+∞）

而邏輯迴歸輸出的是{0,1}，這裡面0我們稱之為負例，1稱之為正例。

如果分類器用的是迴歸模型，並且已經訓練好了一個模型，可以設定一個閾值：

如果機器學習之邏輯迴歸，則預測，既y屬於正例

如果機器學習之邏輯迴歸，則預測，既y屬於負例

但是對於二分類問題來說，線性迴歸模型的輸出值機器學習之邏輯迴歸可以大於1也可以小於0，所以我們需要一個函式，將輸出轉換到0和1之間。這裡我們引入一個函式，sigmoid函式

機器學習之邏輯迴歸

這裡g代表的就是這個函式：

機器學習之邏輯迴歸

影像如下：

機器學習之邏輯迴歸

這個函式的導數：機器學習之邏輯迴歸

1.1 為什麼要用 sigmoid 函式

我們可以從熵的角度，來理解一下這個問題。熵原本是資訊熵中的概念，用在概率分佈上可以表示這個分佈中所包含的不確定度，熵越大不確定度越大。所以大家可以想象到，均勻分佈熵最大，因為基本新資料是任何值的概率都均等。

而我們現在關心的是，給定某些假設之後，熵最大的分佈。也就是說這個分佈應該在滿足我假設的前提下越均勻越好。比如大家熟知的正態分佈，正是假設已知均值和方差後熵最大的分佈。

回過來看邏輯迴歸，這裡假設了什麼呢？首先，我們在建模預測機器學習之邏輯迴歸，並認為服從伯努利二項分佈，所以我們只需要知道；其次我們需要一個線性模型，所以。接下來我們就只需要知道是什麼就行了。而我們可以通過最大熵原則推出的這個，就是函式。其實還有一種解釋可以看成伯努利二項分佈的指數族形式，也就是機器學習之邏輯迴歸函式。

2. 邏輯迴歸

邏輯迴歸的數學表達模型：

機器學習之邏輯迴歸

其中機器學習之邏輯迴歸是引數，輸出的直觀解釋：

機器學習之邏輯迴歸對於給定的輸入，時估計的概率

例如：對於腫瘤問題（惡性/良性），輸入變數為腫瘤的大小機器學習之邏輯迴歸，表示的是病人的腫瘤有70%的可能是惡性的。

較正式的說法可以如下表示：

給定輸入機器學習之邏輯迴歸，引數化的(引數空間)，時的概率。數學上可以如下表示：

機器學習之邏輯迴歸

2.1 損失函式

這裡我們選擇對數似然損失函式作為邏輯迴歸的損失函式

損失函式為：

機器學習之邏輯迴歸

前面的機器學習之邏輯迴歸可以去掉，化簡為：

機器學習之邏輯迴歸

注意中括號中的公式正是對邏輯迴歸進行最大似然估計中的最大似然函式

機器學習之邏輯迴歸

將兩個合在一起

機器學習之邏輯迴歸

有了這個我們可以求出邏輯迴歸的最大似然函式

機器學習之邏輯迴歸

對數似然函式為：

機器學習之邏輯迴歸

對數似然取最大值等價於損失函式取最小值

2.2 梯度下降法

演算法流程：

(1)初始化機器學習之邏輯迴歸 (隨機初始化)

(2)進行迭代，新的機器學習之邏輯迴歸能夠使得更小

(3)如果機器學習之邏輯迴歸能夠繼續減小，返回(2)

機器學習之邏輯迴歸

其中，機器學習之邏輯迴歸稱為學習率或步長

這其中最主要的就是求解機器學習之邏輯迴歸的梯度，即梯度方向

機器學習之邏輯迴歸

注意，這個演算法和線性迴歸裡的梯度下降演算法幾乎是一致的，除了機器學習之邏輯迴歸的表示不同。

2.3 為什麼損失函式不用最小二乘

也就是損失函式為什麼不應平方損失而是選擇用交叉熵。原因是平方損失在訓練的時候會出現一定的問題。當預測值與真實值之間的差距過大時，這時候引數的調整就需要變大，但是如果使用平方損失，訓練的時候可能看到的情況是預測值和真實值之間的差距越大，引數調整的越小，訓練的越慢。

如果使用平方損失作為損失函式，損失函式如下

機器學習之邏輯迴歸

其中機器學習之邏輯迴歸表示真實值，表示預測值。

對引數求梯度

機器學習之邏輯迴歸

由此可以看出，引數機器學習之邏輯迴歸除了跟真實值與預測值之間的差距有關外，還和啟用函式的該點的導數有關，跟啟用函式的梯度成正比，常見的啟用函式是函式，當這個點越靠近上邊或者下邊的時候梯度會變得非常小，這樣會導致當真實值與預測值差距很大時，引數變化的非常緩慢，與我們的期望不符合。

而使用交叉熵損失在更新引數的時候，當誤差越大時，梯度也就越大，引數調整也能更大更快。

參考文獻：

1、李航，統計學習方法，清華大學出版社，2012

2、https://blog.csdn.net/qikaihuting/article/details/78518263

知乎原文連結：

https://zhuanlan.zhihu.com/p/53387812

相關文章

機器學習：邏輯迴歸
2024-12-02
機器學習邏輯迴歸
機器學習整理（邏輯迴歸）
2022-03-23
機器學習邏輯迴歸
機器學習之邏輯迴歸：計算概率
2020-06-21
機器學習邏輯迴歸
機器學習之邏輯迴歸：模型訓練
2020-06-27
機器學習邏輯迴歸模型
機器學習之使用Python完成邏輯迴歸
2019-07-10
機器學習Python邏輯迴歸
機器學習之邏輯迴歸：計算機率
2020-06-21
機器學習邏輯迴歸計算機
機器學習 | 線性迴歸與邏輯迴歸
2020-09-23
機器學習邏輯迴歸
人工智慧-機器學習-邏輯迴歸
2024-05-15
人工智慧機器學習邏輯迴歸
【機器學習基礎】邏輯迴歸——LogisticRegression
2021-10-20
機器學習邏輯迴歸
【機器學習】邏輯迴歸過程推導
2019-02-15
機器學習邏輯迴歸
【6%】100小時機器學習——邏輯迴歸
2021-09-09
機器學習邏輯迴歸
機器學習筆記-多類邏輯迴歸
2021-09-09
機器學習筆記邏輯迴歸
從零開始學機器學習——邏輯迴歸
2024-09-30
機器學習邏輯迴歸
機器學習入門 - 快速掌握邏輯迴歸模型
2019-01-15
機器學習邏輯迴歸模型
手擼機器學習演算法 - 邏輯迴歸
2021-06-24
機器學習演算法邏輯迴歸
機器學習演算法--邏輯迴歸原理介紹
2021-12-05
機器學習演算法邏輯迴歸
機器學習簡介之基礎理論- 線性迴歸、邏輯迴歸、神經網路
2019-04-02
機器學習邏輯迴歸神經網路
[DataAnalysis]機器學習演算法——線性模型（邏輯迴歸+LDA）
2018-08-26
機器學習演算法模型邏輯迴歸LDA
機器學習之Logistic迴歸
2018-03-28
機器學習
從零開始學習邏輯迴歸
2018-11-23
邏輯迴歸
機器學習-邏輯迴歸：從技術原理到案例實戰
2023-12-06
機器學習邏輯迴歸
100天搞定機器學習|Day17-18 神奇的邏輯迴歸
2019-08-14
機器學習邏輯迴歸
邏輯迴歸
2021-09-09
邏輯迴歸
機器學習之迴歸指標
2020-02-14
機器學習指標
機器學習之線性迴歸
2020-02-07
機器學習
數學推導+純Python實現機器學習演算法：邏輯迴歸
2019-03-03
Python機器學習演算法邏輯迴歸
把ChatGPT調教成機器學習專家，以邏輯迴歸模型的學習為例
2023-05-12
ChatGPT機器學習邏輯迴歸模型
【機器學習】求解邏輯迴歸引數（三種方法程式碼實現）
2018-06-08
機器學習邏輯迴歸
機器學習之-邏輯迴歸演算法【人工智慧工程師--AI轉型必修課】
2020-04-04
機器學習邏輯迴歸演算法人工智慧工程師AI
Python邏輯迴歸
2020-02-29
Python邏輯迴歸
邏輯迴歸模型
2024-09-05
邏輯迴歸模型
機器學習實戰之Logistic迴歸
2018-06-25
機器學習
線性迴歸與邏輯迴歸
2019-07-08
邏輯迴歸
機器學習演算法（一）: 基於邏輯迴歸的分類預測
2020-11-09
機器學習演算法邏輯迴歸
機器學習-樹迴歸
2020-12-25
機器學習
學習筆記——機器學習演算法（一）: 基於邏輯迴歸的分類預測
2020-12-15
筆記機器學習演算法邏輯迴歸
機器學習之迴歸分析--預測值
2020-11-19
機器學習
對數機率迴歸（邏輯迴歸）原理與Python實現
2021-01-10
邏輯迴歸Python