最小二乘法小結

weixin_34162629發表於2019-01-08

http://www.cnblogs.com/pinard/p/5976811.html

最小二乘法是用來做函式擬合或者求函式極值的方法。在機器學習，尤其是迴歸模型中，經常可以看到最小二乘法的身影，這裡就對我對最小二乘法的認知做一個小結。

1.最小二乘法的原理與要解決的問題　

　　　　最小二乘法是由勒讓德在19世紀發現的，原理的一般形式很簡單，當然發現的過程是非常艱難的。形式如下式：

　　　　　　目標函式 = Σ（觀測值-理論值）²

　　　　觀測值就是我們的多組樣本，理論值就是我們的假設擬合函式。目標函式也就是在機器學習中常說的損失函式，我們的目標是得到使目標函式最小化時候的擬合函式的模型。舉一個最簡單的線性迴歸的簡單例子，比如我們有m個只有一個特徵的樣本：

　　　　(x(1),y(1)),(x(2),y(2),...(x(m),y(m))

　　　　樣本採用下面的擬合函式：

　　　　hθ(x)=θ0+θ1x

　　　　這樣我們的樣本有一個特徵x，對應的擬合函式有兩個引數θ0和θ1

需要求出。

　　　　我們的目標函式為：

　　　　J(θ0,θ1)=∑i=1m(y(i)−hθ(x(i))2=∑i=1m(y(i)−θ0−θ1x(i))2

　　　　用最小二乘法做什麼呢，使J(θ0,θ1)

最小，求出使J(θ0,θ1)最小時的θ0和θ1

，這樣擬合函式就得出了。

　　　　那麼，最小二乘法怎麼才能使J(θ0,θ1)

最小呢？

2.最小二乘法的代數法解法

　　　　上面提到要使J(θ0,θ1)

最小，方法就是對θ0和θ1分別來求偏導數，令偏導數為0，得到一個關於θ0和θ1的二元方程組。求解這個二元方程組，就可以得到θ0和θ1

的值。下面我們具體看看過程。

　　　　J(θ0,θ1)對θ0

求導，得到如下方程：

　　　　∑i=1m(y(i)−θ0−θ1x(i))=0

①

　　　　J(θ0,θ1)對θ1

求導，得到如下方程：

　　　　∑i=1m(y(i)−θ0−θ1x(i))x(i)=0

　　　　　　　　 ②

　　　　①和②組成一個二元一次方程組，容易求出θ0和θ1

的值：

　　　　θ0=∑i=1m(x(i))2∑i=1my(i)−∑i=1mx(i)∑i=1mx(i)y(i)/m∑i=1m(x(i))2−(∑i=1mx(i))2

　　　　θ1=m∑i=1mx(i)y(i)−∑i=1mx(i)∑i=1my(i)/m∑i=1m(x(i))2−(∑i=1mx(i))2

　　　　這個方法很容易推廣到多個樣本特徵的線性擬合。

　　　　擬合函式表示為 hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn

, 其中θi (i = 0,1,2... n)為模型引數，xi (i = 0,1,2... n)為每個樣本的n個特徵值。這個表示可以簡化，我們增加一個特徵x0=1

，這樣擬合函式表示為：

　　　　hθ(x0,x1,...xn)=∑i=0nθixi

。

　　　　損失函式表示為：

J(θ0,θ1...,θn)=∑j=1m(hθ(x(j)0),x(j)1,...x(j)n))−y(j)))2=∑j=1m(∑i=0nθix(j)i−y(j))2

　　　　利用損失函式分別對θi

(i=0,1,...n)求導,並令導數為0可得：

　　　　∑j=0m(∑i=0n(θix(j)i−y(j))x(j)i

= 0 (i=0,1,...n)

　　　　這樣我們得到一個N+1元一次方程組，這個方程組有N+1個方程，求解這個方程，就可以得到所有的N+1個未知的θ

。

　　　　這個方法很容易推廣到多個樣本特徵的非線性擬合。原理和上面的一樣，都是用損失函式對各個引數求導取0，然後求解方程組得到引數值。這裡就不累述了。

3.最小二乘法的矩陣法解法

　　　　矩陣法比代數法要簡潔，且矩陣運算可以取代迴圈，所以現在很多書和機器學習庫都是用的矩陣法來做最小二乘法。

　　　　這裡用上面的多元線性迴歸例子來描述矩陣法解法。

　　　　假設函式hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn

的矩陣表達方式為：

　　　　　hθ(x)=Xθ

　　　　其中，假設函式hθ(X)

為mx1的向量,θ為nx1的向量，裡面有n個代數法的模型引數。X

為mxn維的矩陣。m代表樣本的個數，n代表樣本的特徵數。

　　　　損失函式定義為J(θ)=12(Xθ−Y)T(Xθ−Y)

　　　　其中Y

是樣本的輸出向量，維度為mx1. 12

在這主要是為了求導後係數為1，方便計算。

　　　　根據最小二乘法的原理，我們要對這個損失函式對θ

向量求導取0。結果如下式：

　　　　∂∂θJ(θ)=XT(Xθ−Y)=0

　　　　這裡面用到了矩陣求導鏈式法則，和兩個矩陣求導的公式。

　　　　　　公式1：∂∂X(XXT)=2X

　　　　　　公式2：∂∂θ(Xθ)=XT

　　　　對上述求導等式整理後可得：

　　　　XTXθ=XTY

　　　　兩邊同時左乘(XTX)−1

可得：

　　　　θ=(XTX)−1XTY

　　　　這樣我們就一下子求出了θ

向量表示式的公式，免去了代數法一個個去求導的麻煩。只要給了資料,我們就可以用θ=(XTX)−1XTY算出θ

。

4.最小二乘法的侷限性和適用場景　　

　　　　從上面可以看出，最小二乘法適用簡潔高效，比梯度下降這樣的迭代法似乎方便很多。但是這裡我們就聊聊最小二乘法的侷限性。

　　　　首先，最小二乘法需要計算XTX

的逆矩陣，有可能它的逆矩陣不存在，這樣就沒有辦法直接用最小二乘法了，此時梯度下降法仍然可以使用。當然，我們可以通過對樣本資料進行整理，去掉冗餘特徵。讓XTX

的行列式不為0，然後繼續使用最小二乘法。

　　　　第二，當樣本特徵n非常的大的時候，計算XTX

的逆矩陣是一個非常耗時的工作（nxn的矩陣求逆），甚至不可行。此時以梯度下降為代表的迭代法仍然可以使用。那這個n到底多大就不適合最小二乘法呢？如果你沒有很多的分散式大資料計算資源，建議超過10000個特徵就用迭代法吧。或者通過主成分分析降低特徵的維度後再用最小二乘法。

　　　　第三，如果擬合函式不是線性的，這時無法使用最小二乘法，需要通過一些技巧轉化為線性才能使用，此時梯度下降仍然可以用。

　　　　第四，講一些特殊情況。當樣本量m很少，小於特徵數n的時候，這時擬合方程是欠定的，常用的優化方法都無法去擬合資料。當樣本量m等於特徵數n的時候，用方程組求解就可以了。當m大於n時，擬合方程是超定的，也就是我們常用與最小二乘法的場景了。

最小二乘法擬合圓心
2024-09-03
Django——小結
2018-10-29
Django
Runtime小結
2019-03-31
MiniUI小結
2018-08-06
UI
mysql小結
2024-04-06
MySql
RPA小結
2020-11-15
BootStrap小結
2018-04-19
boot
Jquery小結
2018-04-04
jQuery
canvas小結
2021-09-09
Canvas
線性迴歸：最小二乘法實現
2021-01-10
小程式實踐小坑小結（一）
2018-08-02
javascript 詞法結構小結
2018-12-27
JavaScript
CocoaPods使用小結
2019-04-01
SVN小總結
2018-11-18
docker小結(nginx)
2018-07-04
DockerNginx
分塊小結
2024-03-08
函式小結
2020-09-26
函式
Git使用小結
2020-10-04
Git
小總結(1)
2024-08-11
js列印小結
2018-04-23
JS
webpack用法小結
2018-04-07
Web
學習小結
2018-03-30
做題小結
2024-07-05
DataCube 漏洞小結
2024-05-30
小總結吧
2021-04-16
FlatBuffers使用小結
2021-01-18
Spring 小總結
2020-12-05
Spring
最小二乘法和卡爾曼濾波 BY AI
2024-11-21
AI
機器學習回顧篇（2）：最小二乘法
2019-07-14
機器學習
使用最小二乘法進行線性迴歸（Python）
2024-10-30
Python
命令列使用小結
2019-02-28
命令列
面試小結（四）
2019-02-16
面試
面試小結（一）
2019-02-16
面試
Android容器類小結
2018-11-12
Android
python練習小結
2018-11-20
Python
Elasticsearch bool query小結
2018-12-17
Elasticsearch
Flex知識小結
2018-12-01
Flex
Mongoose和Redis小結
2018-11-13
GoRedis

最小二乘法小結

1.最小二乘法的原理與要解決的問題

2.最小二乘法的代數法解法

3.最小二乘法的矩陣法解法

4.最小二乘法的侷限性和適用場景

相關文章

1.最小二乘法的原理與要解決的問題　

4.最小二乘法的侷限性和適用場景