線性迴歸，邏輯迴歸的學習（包含最小二乘法及極大似然函式等）

夜空中最亮的不咚發表於2018-03-27

原文網址 : https://juejin.im/post/5aba19686fb9a028bf05578e

邏輯迴歸函式

迴歸問題的前提：

1）收集的資料

2）假設的模型，即一個函式，這個函式裡含有未知的引數，通過學習，可以估計出引數。然後利用這個模型去預測/分類新的資料。

1. 線性迴歸

假設特徵和結果都滿足線性。即不大於一次方。這個是針對收集的資料而言。

收集的資料中，每一個分量，就可以看做一個特徵資料。每個特徵至少對應一個未知的引數。這樣就形成了一個線性模型函式，向量表示形式：

向量預設為列向量，此處的X表示一個列向量，其中內容為（x1，x2，x3.......,xn），用以表示收集的一個樣例。

向量內容為設定的係數（w1,w2.....,wn），也就是要通過學習得到的係數，轉置後成為行向量。兩者相乘後得到預測打分h。

這個就是一個組合問題，已知一些資料，如何求裡面的未知引數，給出一個最優解。一個線性矩陣方程，直接求解，很可能無法直接求解。有唯一解的資料集基本是不存在的。基本上都是解不存在的超定方程組（未知數的個數小於方程的個數）。因此，需要退一步，將引數求解問題，轉化為求最小誤差問題，求出一個最接近的解，這就是一個鬆弛求解。

求一個最接近解，直觀上，就能想到，誤差最小的表達形式。仍然是一個含未知引數的線性模型，一堆觀測資料，其模型與資料的誤差最小的形式，模型與資料差的平方和最小：

這就是損失函式（cost function）的來源，文中之後我們稱之為目標函式。接下來，就是求解這個函式最小值的方法，有最小二乘法，梯度下降法等（利用這些方法使這個函式的值最小）。

**********最小二乘法：************

多元函式求極值的方法，對θ求偏導，讓偏導等於0，求出θ值。當θ為向量時，需要對各個θi求偏導計算。

為了便於理解，可以先看當資料集中的樣本只有一個特徵時的情況，參看之前的最小二乘法博文，可以直接得出theta的值（原先博文中表示為beta）。當含有多個特徵時，需要進行矩陣計算從而求出各個θi:

如上圖中將目標函式拆解為兩個式子相乘的形式（

）其中的X表示獲取的資料集轉換成的矩陣，與列向量

相乘後得到預測打分（列向量θ），與真實打分y向量想減後平方。上圖中的下半部分對於拆解後的目標函式進行求導，令求導後的式子=0，如下圖:

由此可以得到向量θ的值。

其中補充說明:

*****************梯度下降法：**************************

分別有梯度下降法，批梯度下降法，增量梯度下降。本質上，都是偏導數，步長/最佳學習率，更新，收斂的問題。這個演算法只是最優化原理中的一個普通的方法，可以結合最優化原理來學，就容易理解了。（梯度下降中用到的目標函式不一定是之前提到的那個距離最小函式，在之後的邏輯迴歸中，要用到梯度上升，在那裡細述）

******************極大似然法************************************

極大似然的核心思想為：

當從模型總體隨機抽取n組樣本觀測值後，最合理的引數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大。打個比方：一個袋子中有20個球，只有黑白兩色，有放回的抽取十次，取出8個黑球和2個白球，計算袋子裡有白球黑球各幾個。那麼我會認為我所抽出的這個樣本是被抽取的事件中概率最大的。p（黑球=8）=p^8*（1-p）^2,讓這個值最大。極大似然法就是基於這種思想。

極大似然估計的定義如下：

求解方法同樣採用多元函式求極值法。

2、邏輯迴歸

邏輯迴歸與線性迴歸的聯絡、異同？

邏輯迴歸的模型是一個非線性模型，sigmoid函式，又稱邏輯迴歸函式。但是它本質上又是一個線性迴歸模型，因為除去sigmoid對映函式關係，其他的步驟，演算法都是線性迴歸的。可以說，邏輯迴歸，都是以線性迴歸為理論支援的。只不過，線性模型，無法做到sigmoid的非線性形式，sigmoid可以輕鬆處理0/1分類問題。

在另一篇博文（logistic）中有對邏輯迴歸的詳細說明。在邏輯迴歸中，重新定義了cost function，

另外它的推導含義：仍然與線性迴歸的最大似然估計推導相同，最大似然函式連續積（這裡的分佈，可以使伯努利分佈，或泊松分佈等其他分佈形式），求導，得損失函式。

（參看logistic那篇博文）