神經網路學習筆記(4)——期望與算術平均值的區別、方差與均方誤差的區別

在禿頂的邊緣瘋狂試探發表於2020-10-05

本來說直接看BP演算法的程式碼的,但是看書的時候又確實遇到了這兩個東西,所以就先記上這麼一個學習筆記。
雖然這種純數學的東西放在神經網路的學習筆記中好像也不太對,但是確實是學習神經網路的時候遇到的,所以就勉強記錄在內。

期望與算數平均數

無論是期望還是算數平均數,從大的概念來說都是求的一個均值,不過建立在的不同的基礎上。

我們來看一個樣本數為100的樣本集合 { ( x 1 , p 1 ) , ( x 2 , p 2 ) , ⋅ ⋅ ⋅ , ( x 100 , p 100 ) } \{(x_1,p_1),(x_2,p_2),···,(x_{100},p_{100})\} {(x1,p1),(x2,p2),,(x100,p100)} x i x_i xi表示第 i i i個樣本, p i p_i pi代表第 i i i個樣本出現的概率。

期望就是指我們像現在這樣,能夠一眼就看穿整個樣本集合(即站在了高維一樣,主要是我不喜歡上帝視角這個名詞,所以不如說我們站在了高維[doge]),我們對整個集合一覽無餘,那麼我們就能很方便的求出這個集合的均值,即 ∑ i = 1 100 x i p i \sum_{i=1}^{100}x_ip_i i=1100xipi

但是假設我們遭受了降維打擊,也就是我們並不知道每個樣本出現的概率,我們只能在實驗中大膽假設,小心求證的時候,這就是算術平均值。比如我們實驗了5次,得到的資料為 { x 1 , x 25 , x 1 , x 86 , x 23 } \{x_1,x_{25},x_1,x_{86},x_{23}\} {x1,x25,x1,x86,x23},那麼我們在這五個結果中的算術平均值為 x 1 + x 25 + x 1 + x 86 + x 23 5 \frac{x_1+x_{25}+x_1+x_{86}+x_{23}}{5} 5x1+x25+x1+x86+x23。只有當我們實驗多次的時候,算術平均值才會與期望值相等。

所以總的來說,期望就是指我們知道整個資料集合,站在全域性角度上的一個均值,而算術平均值是我們只有一撮資料,針對這一撮資料的均值。

方差與均方誤差

我們還是沿用上一個100的樣本集合,只不過這裡將這個二元組擴充到三元組: { ( x 1 , y 1 , p 1 ) , ( x 2 , y 2 , p 2 ) , ⋅ ⋅ ⋅ , ( x 100 , y 100 , p 100 ) } \{(x_1,y_1,p_1),(x_2,y_2,p_2),···,(x_{100},y_{100},p_{100})\} {(x1,y1,p1),(x2,y2,p2),,(x100,y100,p100)} x i x_i xi代表著第 i i i個樣本的樣本值, y i y_i yi代表著第 i i i個樣本的真實值。

我們假設我們已經求出了這100個樣本值 x \boldsymbol x x的期望 μ \mu μ,方差的公式如下: σ 2 = 1 100 ∑ i = 1 100 ( x i − μ ) 2 \sigma^2=\frac{1}{100}\sum_{i=1}^{100}(x_i-\mu)^2 σ2=1001i=1100(xiμ)2

對應的,均方誤差的公式如下:
M S E = 1 100 ∑ i = 1 100 ( x i − y i ) 2 MSE=\frac{1}{100}\sum_{i=1}^{100}(x_i-y_i)^2 MSE=1001i=1100(xiyi)2

注:放在N個樣本中,那麼對應的100的位置改為N就行了

那麼我們看到上面這兩個公式好像基本差別不大對吧,反正至少長得一樣,都差點認為是失散多年的好兄妹或者好姐弟了對吧,但是其實有如下兩個差別:

  1. 方差是隻針對某一項的(比如上面栗子中,只針對了樣本值 x \boldsymbol x x),而均方誤差是針對樣本值與真實值的;
  2. 方差是某一項與其均值的關係,而均方誤差是某一項與其真實值(輸出值)的關係。

所以總的來說,這兩者的區別如下:方差衡量的是資料與中心的偏離程度,均方誤差衡量的是樣本資料與真實資料(輸出資料)的偏離程度

相關文章