機器學習數學知識積累之數理統計

世有因果知因求果發表於2018-07-06

原文網址 : https://www.cnblogs.com/kidsitcn/p/9272159.html

數理統計

概率論是從已知分佈出發，來研究隨機變數$X$的性質，規律和數字特徵等

數理統計以概率論為理論基礎，研究怎樣用有效的方法去收集整理，分析帶隨機影響的資料，以便對所研究的問題給出估計和推斷。數理統計研究物件$X$的分佈並不知道，或者不完全知道，我們通過觀察它的取值（採集資料），通過分析資料來推斷$X$服從什麼概率分佈。

在數理統計中，最基本的研究問題的方法是：“以部分資料資訊來推斷整體相關資訊”

數理統計可以分為兩類:

描述統計學:對隨機現象進行觀測，試驗以便取得有代表性的觀測值(統計量)

推斷統計學:對已經取得的觀測值進行整理，分析，做出推斷和決策，從而找出所研究物件的規律性.

概率論/數理統計/統計學

已知一個資料產生過程（隨機分佈，隨機過程，...）對觀測資料作出推測的是概率論研究的內容。

已知觀測資料（樣本）對資料產生過程作出推測的是統計學。

數理統計可以理解為統計裡的數學部分，即是統計學的理論基礎，但是同時也是概率論的應用領域。

從數學的邏輯嚴密程度上來說，或者說更數學的程度看:(由小到大排序)

統計學< 數理統計 < 概率論

概率論和數理統計的關係

概率論是數理統計的理論基礎，數理統計是概率論的重要應用

重要概念

總體:

研究物件的全體

總體可能是有限的，也可能是無限的。比如某大學3000名大一學生的身高，體重。。共3000名大學生，因此是有限的總體

也可能是無限的，比如測量一個湖泊任意點的深度，這時點是無窮多的

個體：

總體中的某個成員。比如一名大學生，湖泊的一個測量點

在數理統計中，人們往往關心的是總體中的每個個體的一項或多項指標(feature)和該指標在總體中的分佈情況。

由於人們往往關心總體的某項數量指標，我們把該指標記為$X$，其不同的個體取值不同。我們往往用$X$來等同總體。總體就可以用隨機變數$X$及其分佈來描述

樣本：

按一定的規則從總體中抽取的一部分個體

樣本容量

樣本中所包含的個體的數量就叫做樣本容量。比如3個人的樣本

抽樣：

從總體中抽取樣本的過程就是抽樣。由於抽樣的隨機性，樣本也具有隨機性，容量為n的樣本用隨機變數$X_1,X_2,...,X_n$來表示

簡單隨機樣本：

若樣本中的個體$X_1,X_2,..,X_n$是相互獨立的(獨立性)且與總體X有相同的分佈（代表性），則稱$X_1,X_2,..,X_n$為來自總體$X$的一個容量為$n$的簡單隨機樣本，簡稱為X的一個樣本

樣本值:

樣本($X_1,X_2,..,X_n$)的每一個觀測值($x_1,x_2,...,x_n$)稱為樣本值，或者樣本的一次實現。想象一下我們研究骰子廠10000個產品（總體）的質地均勻情況，我們抽取100個作為樣本，分別投擲一次，記錄其點數，則每一次投擲取得的100個點數集合就是樣本值，是這組100個骰子樣本的一次實現，每一個樣本的點數$X_1,X_2,X_n$組成了獨立同分布的隨機變數序列

樣本空間：

樣本值的集合被成為樣本空間

由於總體分佈決定了樣本取值的概率規律，因而可以用樣本值去推斷總體。

數理統計的重要任務就是研究如何根據樣本去推斷總體。

樣本分佈(聯合分佈)

如果總體$X$的分佈函式為$F(x)$, $X_1,X_2,..,X_n$為來自$X$的一個樣本，則樣本($X_1,X_2,..,X_n$)的聯合分佈函式就為:

$$F(x_1,x_2,...,xn)= \prod_{i=1}^{n}F(x_i)$$

樣本，個體，特徵(feature)，觀測值

$$ \begin{matrix}Sample&&X&Y&Z\\1&\rightarrow &X_1(x_{1})&Y_1(y_{1})&Z_1(z_{1})\\2&\rightarrow &X_2(x_{2})&Y_2(y_{2})&Z_2(z_{2})\\3&\rightarrow &X_3(x_{3})&Y_3(y_{3})&Z_3(z_{3})\\n&\rightarrow &X_n(x_{n})&Y_n(y_{n})&Z_n(z_{n})\end{matrix} $$

$X,Y$是要考察的個體的feature（隨機變數）,$Z$為每個個體隨特徵變數決定的輸出值(比如收入是否大於50k，是否購買，是否點選廣告...)。每行為一個個體的所有feature記錄，每一列$x_1,y_2$都對應著隨機變數$X_1,Y_2$的一個觀測值。注意：$X_1,Y_2$可以理解為$X_i,Y_i$隨機變數序列中的一個隨機變數。而$x_1,y_2$可以理解為該隨機變數的觀測值。$X_1,Y_2$雖然代表了一個獨立的樣本，一旦取樣就確定了，沒有隨機性，但是由於抽樣具有隨機性，因此可以理解為$X_1,Y_2$也是一個隨機變數，因為下一次再取樣的話，其觀測值就會不同，因此可以將$X_1,X_2,..,X_n$視為獨立同分布隨機變數序列。

使用統計學方法就是要研究各feature的觀測值去推斷整體，並且建模研究輸出$Z$這些feature之間的關係

數理統計的理論基礎

切比雪夫不等式-概率區間估計

對於任意隨機變數$X$,如果其方差$D(X)$存在，則對任意$\varepsilon > 0$，有

$$P(|X-E(X)| \geq \varepsilon)\leq \frac{D(X)}{\varepsilon ^2}$$

或:

$$P(|X-E(X)| < \varepsilon)\geq 1-\frac{D(X)}{\varepsilon ^2}$$

該定理常用於概率的粗略估計,其幾何意義如下:

伯努利大數定理:

在n重伯努利實驗中，$Y_n$是事件A發生的次數，p是事件A的概率，那麼對於任意$\varepsilon$

$$\lim_{n->\infty }P(|\frac{Y_n}{n}-p|< \varepsilon ) = 1, $$

伯努利大數定理為使用頻率來確定概率的理論依據。也就是說可以利用有限的data來研究無限的空間

獨立同分布隨機變數序列:

若隨機變數序列$X_1,X2,....X_n$相互獨立，對$n\geq 2$, $X_1,X_2,...X_n$獨立，且有相同的分佈函式，則稱$X_1,X_2,...X_n$是獨立同分布的隨機變數序列,比較形象的例子是：做實驗擲骰子記錄出現各點的點數，共有${1,2,3,4,5,6}$個樣本，如果將兩個骰子一把扔出去，記錄其點數之和，則樣本$2,3,4,...,12$,兩個骰子的取得的點數分別記為$X_1,X_2$則他們互相獨立並且同分布，同理，同時扔3個骰子，則形成三個獨立同分布隨機變數$X_1,X_2,X_3$，他們也是獨立同分布骰子數量足夠大時，考察$X_1+X_2+...+X_n$的分佈，會發現近似於滿足正態分佈。

一般的，我們可以將機器學習中的feature列作為隨機變數$X_1,X_2...$，如果他們獨立同分布，則也有以下中心極限定理。

http://www.muelaner.com/uncertainty-of-measurement/

獨立同分佈下的中心極限定理:

$$\sum_{i=1}^{n} X_i \sim N(n\mu,n\sigma^2)$$

切比雪夫大數定理(辛欽大數定律)

設$X_1,X_2,...X_n$是獨立同分布的隨機變數序列，且$E(X_i) = \mu ,(i=1,2,3,...)$，則對$\forall \varepsilon > 0$

$$\forall \varepsilon, \lim_{n->\infty }P(|\frac{1}{n}\sum X_i-\mu|< \varepsilon ) = 1$$

該定律給出了隨機變數序列的統計量：算數平均值(依概率收斂於)穩定於數學期望的理論基礎，反過來，我們可以使用均值當作數學期望

樣本矩的大數定理

$$\widehat{a_k} = A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k \xrightarrow[n-> \infty]{P} a_k = E(X^k), k = 1,2,...,m$$

$$\widehat{\theta} = h(A_1,A_2,...,A_m) \xrightarrow[n-> \infty]{P} \theta = h(a_1,a_2,...a_m)$$

樣本的k階原點矩以概率收斂於總體的k階原點矩，樣本的矩函式以概率收斂於總體的矩函式

大數定律的意義

給出了頻率穩定性的嚴格數學解釋；

提供了通過試驗來確定事件概率的方法；

是數理統計中引數估計的重要理論依據之一；

是Monte Carlo方法的主要數學理論基礎

Monte Carlo方法利用大數定律模擬解決不規則圖形的面積求解

隸莫佛-拉普拉斯定理

如果隨機變數$Y_n$服從引數n,p的二項分佈，則對充分大的n，有$$Y_n \sim N(np,npq) , q=1-p$$,近似有以下近似公式：

$$P(a<Y_n\leq b)\approx \phi (\frac{b-np}{\sqrt{npq}}) - \phi (\frac{a-np}{\sqrt{npq}})$$

統計量

數理統計由樣本推斷總體，我們需要對樣本值進行"加工"，這就要構造一些樣本的函式(統計量)，它把樣本中所含的某一方面資訊集中起來，用於對總體進行推斷和把握。

統計量依賴且只依賴於樣本x1,x2,…xn；它不含總體分佈的任何未知引數。從樣本推斷總體（見統計推斷）通常是通過統計量進行的。例如X1,X2，…，Xn是從正態總體N(μ,1）（見正態分佈）中抽出的簡單隨機樣本，其中總體均值（見數學期望）μ是未知的，為了對μ作出推斷，計算樣本均值。可以證明，在一定意義下，包含樣本中有關μ的全部資訊，因而能對μ作出良好的推斷。這裡只依賴於樣本X1,X2，…，Xn，是一個統計量。注意：統計量由於是樣本這些n個隨機變數的n元函式，因此統計量也是一個隨機變數。具體的統計量的一次觀測值就是利用樣本計算出來的統計量的值。我們也需要研究統計量的數字特徵和概率分佈，以便使用這些統計量去推斷總體。確定統計量的分佈是概率統計的基本問題之一。

期望($E[X]$）和均值

均值是一個統計學概念，是後驗資料，是對統計得到的樣本取均值；

期望是概率與數理統計的概念，是先驗資料，是根據經驗的概率分佈“預測"的樣本均值，是隨機變數總體的一個數字特徵

如果我們的概率分佈是正確的假設的話，那麼當實驗次數足夠大時，樣本的均值就趨向於期望。

數學期望的計算性質

離散型隨機變數的期望：

$$E[X]=\sum p_ix_i$$

如果說概率是頻率隨樣本趨於無窮的極限，那麼期望就是平均數隨樣本趨於無窮的極限

常用分佈的數學期望和方差:

連續型隨機變數的期望：

$$E(X) = \int_{-\infty }^{+\infty}x \cdot f(x)dx$$

可以看到實際上就是用x代替離散型定義的$x_i$，用$f(x)dx$代替離散型定義的$p_i$,其中$f(x)$是隨機變數x的概率密度函式

隨機變數函式的期望

設$Y = g(x)$,則：

1. 如果x是離散型變數:

$$E(Y)=E[g(X)]=\sum g(x_i)p_i$$

2. 如果x是連續型變數:

$$E(Y) = E(g(x)) = \int_{-\infty }^{+\infty}g(x) \cdot f(x)dx$$

方差$D(X)$

定義：$D(X) = E[X-E(X)]^{2} $ 也就是說方差是$[X-E(X)]^{2}$的數學期望(均值)

常用計算公式 $D(X) = E(X^{2}) - (E(X))^{2}$

方差$D(X)$的性質

協方差及相關係數

先假設有兩個隨機變數$X,Y及其均值分別為\bar X, \bar Y$,這兩個隨機變數容量為n的樣本，我們由$X,Y$構造兩個向量(可以這麼認為，對於隨機變數組成的向量，其均值才是原點):

$\vec{x} = (X_1-\bar X, X_2-\bar X,..,X_i - \bar X,..X_n-\bar X); \vec{y} = (Y_1-\bar Y, Y_2-\bar Y,..,Y_i - \bar Y,..Y_n-\bar Y)$

樣本方差

$S_X^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2 = \frac{\vec{x} \cdot \vec{x}}{n-1}$

$S_Y^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i-\bar Y)^2 = \frac{\vec{y} \cdot \vec{y}}{n-1}$

樣本協方差:

樣本計算式:$S_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y) = \frac{\vec{x} \cdot \vec{y}}{n-1}$

理論定義式:$Cov(X,Y) = E([X-E(X)][Y-E(Y)]) = E(XY) - E(X)E(Y)$

若X,Y互相獨立，則$S_{XY},Cov(X,Y) = 0$ ，協方差為0；$S_{XY},Cov(X,Y) > 0 $ 則稱X,Y是正相關;若$ S_{XY},Cov(X,Y) < 0 $ 則稱X,Y是負相關

若協方差為0，不能推出$X,Y$獨立，也就是說雖然線性無關，但是有可能非線性方式相關。獨立是一個強條件，是沒有任何關係

特徵工程中，如果兩個變數的協方差絕對值比較大的話，則說明X,Y是線性相關的，那麼就應該剔除掉一個，否則出現"多重共線性"

一般來說通過協方差就能描述兩個向量之間的關係了，但是由於協方差的值會受到向量長度本身的影響，因此很難判斷其相關的程度，為解決該問題，我們引入相關係數這個概念以消除向量長度的影響。

給定一個特徵向量$(X_1,X_2,...,X_n)$兩兩計算其協方差會形成一個nxn的協方差矩陣，這個矩陣在PCA降緯時使用.

$$C= \begin{bmatrix} c_{11} & c_{12} & ... & c_{1n}\\ c_{21} & c_{22} & ... & c_{2n}\\ ... & ... & ... & ...\\ c_{n1} & c_{n2} & ... & c_{nn} \end{bmatrix}$$

互資訊$I(X,Y)$

https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF

http://www.cnblogs.com/liugl7/p/5385061.html

決定係數(coefficient of Determination)和相關係數(correlation of Coefficient)

https://blog.csdn.net/danmeng8068/article/details/80143306

先看以下幾個定義：

a. Sum of Squares Due to Error

b. total sum of squares

c. sum of squares due to regression

以上三者之間存在以下關係:

決定係數用於判斷迴歸方程的擬合程度，也就是通過model得出的因變數的變化有百分之多少可以由自變數來解釋，從而判斷擬合的程度。在Y的總平方和中，由X引起的平方和所佔的比例，記為$R^{2}$ (R的平方). 當$R^{2}$接近於1時，表示模型參考價值越高，

相關係數：測試因變數自變數之間的線性關係的，也就是說自變數發生變化時，因變數的變化情況如何

似然函式,損失函式和最大似然估計

https://www.cnblogs.com/hejunlin1992/p/7976119.html

似然函式是關於統計模型中的引數函式，表示模型引數的似然性。往往通過求解當似然函式最大時的引數作為最優引數

損失函式則是機器學習中用於度量模型效果的函式，他是模型引數的函式，給定資料集，只和模型引數有關。

常用統計量(統計量不允許有任何未知引數，只和樣本資料本身有關)

樣本均值$\bar X = \frac{1}{n}\sum_{i=1}^{n}X_i$

用途：當總體均值$E(X)=\mu$未知時（基本上都是未知的!），我們使用樣本的均值$\bar X$來估計總體均值$\mu$.

注意這樣做的理論基礎是切比雪夫大數定理

樣本方差

$$S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2 = \frac{1}{n-1}(\sum_{i=1}^{n}X_i^2 - n {\bar X}^2)$$

樣本標準差

將方差開根號

用途：用樣本的標準差$S^2$去估計總體方差$\sigma ^2$

矩

$E(X^k)$ : k階原點矩

$E[(X-E(X))^k]$ : k階中心矩

$E(X^kY^l)$ :(k,l)階聯合原點矩

$E[(X-E(X))^k(Y-E(Y))^l]$ : (k,l)階聯合中心矩

期望是一階原點矩，方差是二階中心矩，協方差是(1,1)階聯合中心矩

樣本k階原點矩

$$A_k = \frac{1}{n}\sum_{i=1}^{n}X_i^k, k = 1,2,..$$

$$\bar X = A_1 = \frac{1}{n} \sum_{i=1}^{n} X_i$$

用途，當總體的k階原點矩 $E(X^k) = a_k$未知時，使用該值估計總體

樣本k階中心原點矩

$$B_k = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k, k = 1,2,..$$

用途：以樣本去評估總體

樣本的2階中心矩$S^{*2}$ 或者記為$S_n^2$

$$S^{*2} = B_2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2 = \frac{1}{n}\sum_{i=1}^{n} X_i^2 - {\bar X}^2$$

我們可以使用該引數來估計總體方差$D(X)$.

注意樣本方差$S^2$與樣本2階中心矩$S^{*2}$的關係：

$$S^{*2} = B_2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^2 = \frac{(n-1)S^2}{n}$$

順序統計量:

將樣本（$x_1,x_2,...,x_n$）從小到大排序，並且變換下標$x_{(1)},x_{(2)},...,x_{(n)}$,

$X_{(1)}$為最小順序量, $X_{(n)}$為最大順序量

樣本中位數(median)

樣本極差

$$R=X_{(n)} - X_{(1)}$$

樣本幾何均數

變異係數（標註差率）(coefficient of variation, CV)

主要用於描述資料的相對離散程度，特別是對於多個指標的變異程度進行比較時，如果資料本身的量綱或者均值不同時，將會由於資料的絕對大小的不同而失去橫向比較的意義，因此使用下式剔除相關量綱的影響:（否則，如果量綱及均值都相同時，也可以直接用標準差去度量和比較兩個變數的變異程度）

$$CV = \frac{S}{\bar X }\times 100 \% $$

分類變數的統計描述:統計量

相對數

比(Ratio)

又稱為相對比，表示兩個有關聯的指標之比。

比如:

性別比(Sex Ratio) = 男性人口數/女性人口數 X 100

體質指數(BMI) = 體重(kg)/身高平方

比例(Proportion)（小於等於100%）

指事物內部各部分所佔的比重（又稱為構成百分比）.

比如高血壓患病率

率(Rate)

表示單位時間內某時間發生的頻率

統計量的幾個性質

設總體$X$指標$E(X) = \mu$,方差$D(X) = \sigma ^2$, $(X_1,X_2,...,X_n)$為取自該總體的一個樣本，那麼該樣本的統計量隨機變數

$\bar X, S^2, S_n^2$其期望及方差有以下性質：

1）$E(\bar X) = \mu, D(\bar X) = \frac{\sigma ^2}{n}$

2）$E(S^2) = \sigma ^2, E(S_n^2) = \frac{n-1}{n}\sigma ^2, n\geq 2$

統計推斷

由樣本到總體的推理就稱為統計推斷。常用的統計推斷有三種基本形式:

抽樣(樣本函式)分佈，引數估計和假設檢驗

抽樣(樣本函式)分佈

當用統計量推斷總體時，須知道統計量（隨機變數）的分佈，統計量的分佈屬於樣本函式的分佈，人們把樣本函式的分佈統稱為“抽樣分佈”

數理統計中常用做置信估計的概率分佈模型:卡方分佈，t分佈, F分佈

需要注意的是統計學中的卡方分佈，t分佈，f分佈與概率論中對隨機變數分佈定義的區別。在概率論中：我們一般給出符合某種概率分佈律或密度分佈特徵的分佈分別稱呼為泊松分佈，指數分佈，正態分佈，幾何分佈等等。但是在統計學(數理統計)中，我們卻並未給出統計量(隨機變數)的密度函式給大家，原因是在統計中，是以資料為基礎對總體的推斷，面向的是樣本，需要強調的是樣本來源於哪裡，經過整理後得到的結果是什麼樣子的，這個樣子的統計量就符合什麼分佈。比如卡方分佈，我們得到一批來自正態總體的一個樣本$X_1,X_2,..,X_n$，隨後凡是整理成$X_1^2+X_2^2+...+X_n^2$這個樣子的統計量就符合卡方分佈.而卡方分佈的密度函式需要n重積分，一般不要求證明。同時其密度函式一般也沒有解析表示式，往往通過數值方法預先給出然後查表取得概率值

卡方分佈

若n個相互獨立的隨機變數ξ₁、ξ₂、……、ξn ，均服從標準正態分佈（也稱獨立同分佈於標準正態分佈），則這n個服從標準正態分佈的隨機變數的平方和

構成一新的隨機變數，其卡方分佈分佈規律稱為

分佈（chi-square distribution），其中引數

稱為自由度，正如正態分佈中均數或方差不同就是另一個正態分佈一樣，自由度不同就是另一個

分佈。記為

或者

（其中

，

為限制條件數）。

卡方分佈是由正態分佈構造而成的一個新的分佈，當自由度

很大時，

分佈近似為正態分佈。

特別地，當n=2時，兩個標準正態變數的平方和服從引數為2的指數分佈

t分佈

如果一個隨機變數是由一個服從正態分佈的隨機變數除以一個服從卡方分佈的變數組成的，則該變數服從t分佈，t分佈是正態分佈的小樣本形態。

比如對於正態分佈樣本的均值變換為$t = \frac{\bar X - \mu}{S_{\bar X}} = \frac{\bar X - \mu}{S/ \sqrt n}$後就服從自由度為n-1的t分佈

t分佈是於自由度$v$有關的一組曲線，隨著$v$的增大接近標準正態分佈

F分佈

設$X,Y$是兩個相互獨立的遵循卡方分佈的隨機變數$X \sim \chi ^2(n_1),Y \sim \chi ^2(n_2)$,則

$F = \frac{X/n_1}{Y/n_2} = \frac {n2}{n1} \cdot \frac {X}{Y} \sim F(n_1,n_2)$服從自由度為n1,n2的F分佈

單個正態總體統計量抽樣分佈

由於抽樣分佈(統計量的分佈)是一個n維隨機變數函式的聯合分佈，一般來說非常複雜，我們只研究與正態總體相關的抽樣分佈:卡方分佈，t-分佈, F-分佈.

如果$X_1,X_2,...,X_n$是總體$N(\mu,\sigma^2)$的一個樣本，其樣本均值$\bar X = \frac{1}{n} \sum_{i=1}^{n} X_i$, 服從$ \bar X \sim N(\mu, \frac{\sigma ^2}{n})$

其他性質：

上面的定理1.屬於基本結論，定理2常用於單個正態整體均值推斷，區間估計，精度分析，假設檢驗

兩個正態整體統計量分佈

定理3用於比較兩個正態整體方差，精度，穩定性比較的推斷

定理4用於兩個正態整體均值差的統計推斷問題，注意定理4要求兩個樣本方差一樣，方差齊性

均數的抽樣誤差

在抽樣研究中，由於抽樣造成的樣本均數與總體均數之間的差異或者樣本均數之間的差異，稱為均數的抽樣誤差。（sampling error）抽樣誤差是不可避免的，造成抽樣誤差的根本原因是個體變異的客觀存在。

抽樣誤差的計算-標準誤

不同樣本之間均值差異的來源

1. 如果來自同一總體，則差異僅由抽樣誤差造成；

2. 如果兩個樣本來自不同總體，則差異可能由兩個總體之間的不同造成的。比如男生身高的樣本均值可能不同，這又有可能兩個樣本本身就不是來自同一總體，

比如：一個樣本取自北方的男性，而另一個樣本來自南方的男性，一般來說北方的均值要高於南方。。而如果樣本來自同一整體，也就是說既考慮了南方，又考慮了北方的男性，那麼樣本均值不同就是抽樣誤差造成的了。而抽樣誤差本身是不可避免的！我們只能結合置信區間的引數估計去做有資訊的估值。

3. 系統誤差：比如測量方法的不同，測量儀器的不同，測量儀器本身就不準確，具有系統誤差，這時計量資料就帶有系統誤差，系統誤差是可以解決的

分位點及在標準正態分佈，卡方，t分佈，F分佈中分位點查表方法(注意小於0.5時可能需要用到性質)

非正態總體樣本均值，方差等統計量分佈

引數估計

引數估計是利用從總體抽樣得到的資訊來估計總體的某些引數或者引數的某些函式.比如估計產品的合格率，估計降雪量，估計湖泊中的魚的數量

設有一個統計總體，總體的分佈函式已知$F(x,\theta)$,其中的$\theta$是未知引數，現在從該總體中取樣本$X_1,X_2,...X_n$,要求我們根據樣本對引數$\theta$做出估計，或者估計$\theta$的某個已知函式$g(\theta)$,這類問題就是"引數估計"問題

點估計

利用樣本$X_1,X_2,..,X_n$確定一個統計量$\widehat{\theta} = \theta (X_1,X_2,..X_n)$,用該統計量去估計總體的未知引數$\theta$,該統計量也稱為引數$\theta$的估計量，其中如果使用最大似然估計方法求得的估計量我們稱為最大似然估計值。（估計值由於是統計量，因此他是一個確定的實數，只和樣本本身有關）具體地，我們使用樣本的觀測值$x_1,x_2,..,x_n$去算得一個統計量，用於估計未知引數，常用的估計方法有矩估計法和最大似然估計法。但是點估計沒能反映出估計的誤差範圍，使用起來把握有多大。

矩估計法:

思想：用樣本矩估計總體矩，用樣本矩函式估計總體矩函式,據此求解已知概率模型中的未知引數值，其理論依據為大數定理（樣本的k階原點矩以概率收斂於總體的k階原點矩，從而樣本的矩函式(本質為矩的線性組合)以概率收斂於總體的矩函式）。

最大似然估計法(MLE)

設總體分佈為$f(x,\theta )$, $X_1,X_2,...,X_n$為該總體取樣得到的樣本。因為$X_1,X_2,...X_n$獨立同分布，於是，他們的聯合密度函式為:

$$ L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k) = \prod_{i=1}^{n}f(x_i;\theta1,\theta2,...,\theta_k)$$

上述$L()$是$\theta$的函式，我們稱之為似然函式，問題往往轉化為求引數$\theta$的值，使得聯合分佈密度取得最大值(也就是似然函式)

引例：已知灌中有黑白圍棋子若干，黑子和白子兩者的數目之比為3:2,但是黑子和白子誰佔3/5,誰佔2/5並不知道，現在我們做一個實驗：從灌中有放回地取4個棋子，觀察實驗結果為：白，黑，白，白。請根據該實驗結果推斷白子的佔比為3/5的概率有多大？

這種問題有部分引數未知，希望通過實驗結果來做引數的估計。最終根據代入法，明顯取3/5時，實驗結果出現的概率比較大，因此推斷白棋為3/5

選擇一個引數使得已發生的實驗結果以最大概率出現，也就是樣本隨機變數的聯合概率分佈取得最大值（因為實驗觀測值已經是事實的存在，故要求其出現概率最大是合理的）的思想就是最大似然估計的基本思想。

在這個例子中，能夠反映實驗發生概率大小的函式就叫似然函式，也就是: $P(x_1 = 1, x_2=0,x_3=1,x_4=1) = p^3(1-p)$，一般地，當似然函式取得最大值的時候對應的未知引數的值，就叫做引數的最大似然估計

一般定義：

設離散型總體$X$的分佈律為$P(X=x) = p(x;\theta_1,\theta_2,...,\theta_m)$ 其中$\theta_1,\theta_2,...,\theta_m$為未知引數， $X_1,X2,...X_n$為樣本，其觀察值為$x_1,x_2,...,x_n$,觀察值$(X_1=x_1,X_2=x_2,...,X_n = x_n)$出現的概率為:

$$L(\theta_1,...,\theta_m) = P\{ X_1 = x_1, X_2 = x_2, ..., X_n =x_n \} = \prod_{i=1}^{n}p(x_i;\theta_1,\theta_2,...,\theta_m)$$

若統計量（注意：統計量就是樣本值的線性或非線性組合）$\widehat{\theta_1}(X_1,..,X_n),...,\widehat{\theta_m}(X_1,..,X_n)$使得似然函式取得最大值，

$$L(\widehat{\theta_1},..,\widehat{\theta_m}) = \overset{\theta_1,\theta_m} {max} L(\theta1,...\theta_m)$$

則稱$\widehat{\theta_1}(X_1,...X_n),\widehat{\theta_m}(X_1,...X_n)$為$\theta_1,..\theta_m$的最大似然估計量（也是一個隨機變數）,每一個$\widehat{\theta_i}$則稱為$\theta_i$的最大似然估計值.

對於連續型隨機變數，使用總體$X$的概率密度函式$f(x;\theta_1,\theta_2,...\theta_m)$在樣本$X_1,X_2...,X_n$的聯合概率密度作為似然函式:

$$L(\theta_1,...,\theta_m) = f(x_1,..,x_n) = \prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,...,\theta_m)$$

最大似然估計的不變性

若$\widehat{\theta}$是$\theta$的最大似然估計，則$g(\widehat{\theta})$也必然是$g(\theta)$的最大似然估計.

這個結論應用場景，比如：

設$X\sim G(p), x_1,x_2,...,x_n$是來自$X$的一個樣本值，則我們先求出引數p的最大似然估計，以及$EX$的最大似然估計。

我們對於引數p可以通過構造樣本的似然函式，通過求極值的方式求出p的最大似然估計。但是對於$EX$又如何求解呢？我們知道對於G分佈，其

$EX=\frac{1}{p}$,所以，$\widehat{EX}= \frac{1}{\widehat{p}}$

從上面介紹的點估計兩種辦法：矩估計和最大似然估計的計算過程發現：矩估計本身結果並不唯一(選擇不同的矩估計結果會不同)；最大似然估計其結果也和選取的樣本本身有關，結果本身也是一個隨機變數，那麼如何對點估計的結果進行評價呢？

引數估計量效果度量鑑定

由於使用不同引數估計方法得到的引數不同，如何來判斷引數估計的效果呢？下面引入幾個常用指標

無偏性

設$\widehat{\theta}(X_1,X_2,..,X_n)$是未知引數$\theta$的估計量，其本身也是一個隨機變數，受抽樣本身影響，如果該估計量本身在真值附近擺動，也就是說該估計量（也是隨機變數，因為不同樣本是會變化的）的期望等於真值的話，我們說是無偏估計。反過來如果估計量本身的期望和真值不相等的話，則稱為系統誤差，屬於有偏估計

樣本的K階矩是總體K階矩的無偏估計!

$A_k = \frac{1}{n}\sum_{i=1}^{n}X_i^k$是$E(X^k)$的無偏估計

特別常用地，我們使用

樣本均值$\bar X$作為總體期望$E(X)$的無偏估計
樣本二階矩$A_2 = \frac{1}{n}\sum_{i=1}^{n}X_i^2$作為總體二階矩$E(X^2)的無偏估計$
樣本方差$S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2$是$D(X)$的無偏估計

有效性

如果$\theta_1,\theta_2$都是$\theta$的無偏估計，則計算其$E(\theta_1-\theta)，E(\theta_2-\theta)$，比較其離散程度，離散程度小，方差小，也就是變化小的統計量估計值更有效靠譜

比如，上圖例子中$\widehat{\mu_1},\widehat{\mu_2}$都是無偏估計量，我們可以結合方差的性質及已有統計量來計算引數估計值這個隨機變數的方差:

$D(\mu_1) = \frac{1}{9}(D(X_1)+D(X_2)+D(X_3)) = \frac{1}{9}(3\sigma^2) = \frac{1}{3}\sigma^2$

而$D(\mu_2) = \frac{25}{72}\sigma^2 $故應該選用$\mu_1$作為其估計量

statsmodel庫中如何計算引數估計值的方差呢？

我們知道引數估計往往使用最大似然估價法利用樣本資料計算可以得出。這個值往往是確定的。只要給定一組樣本，就能給出特定的引數估計，但是該引數估計的方差又是如何給出的呢？？？

應該就是使用上述的統計量+方差性質去求解的。也猜測是否可能會通過模擬生成多個training sets來提供計算（不很靠譜的猜測）

${X}' = \left \{ x | x From X But Replaced) \right \} \left | {X}' \right | = \left | X \right |$

相合性（一致性）

當樣本容量越大，樣本估計是總體引數依概率逼近。樣本k階矩是總體K階矩的相合估計

有偏估計的均方誤差準則

引數估計兩個重要概念Bias vs variance

Bias: how close is the estimate to the true value?

Variance: how much does the estimate change for different runs(e.g. different datasets)?

大多數情況下bias和variance兩個指標是互相制約的，提高bias的表現，必然導致variance變差，反之亦然。因此我們更多的是要做一下折中。

區間估計

區間估計可以彌補點估計的缺陷，他能告訴一個範圍及其可靠的概率。比如針對湖的魚數量估計我們給出一個區間$\theta_1,\theta_2$,使得其有很大的可靠性(概率)包含未知引數$\theta$的真實值，這樣我們對魚兒數目的估計就有把握多了。

區間估計的一般定義

設總體$X$的分佈函式為$F(x,\theta)$, $\theta$是未知引數，對給定的$\alpha (0<\alpha<1, \alpha=0.05)$,由樣本$X_1,X_2,...,X_n$來確定兩個統計量$\widehat{\theta_1} = \widehat{\theta_1}(X_1,...,X_n), \widehat{\theta_2} = \widehat{\theta_2}(X_1,...,X_n)$

使得:$P(\widehat{\theta_1} < \theta < \widehat{\theta_2}) \geq 1- \alpha$，我們稱$(\widehat{\theta_1} , \widehat{\theta_2}) $為$\theta$置信度為$1-\alpha$的置信區間，$\widehat{\theta_1}$和$\widehat{\theta_2}$分別被稱為置信下限和置信上限

例：$X_1,X_2,...,X_n$是來自總體$N(\mu,2)$的一個樣本，則樣本均值$\bar X$服從$N(\mu,1/4)$的正態分佈。我們就可以計算得到 $P(\bar X -1 < \mu < \bar X +1) = 2 \phi (2) - 1 = 0.954$ ,在這裡，我們就說$(\bar X -1,\bar X +1)$是$\mu$的置信度為0.954的置信區間

我們需要注意的是，針對不同的特定取樣樣本，根據上面的理論計算過程，其置信區間就是確定的了，要麼包含真值，要麼不包含真值，沒有概率可言。

構構造置信區間的一般過程

置信度的幾何意義

區間估計兩要素:精度和可靠度

精度和區間大小成反比，可靠度和精度是負相關關係。我們往往在滿足可靠性的基礎上精度越高越好。

單個正態總體均值及方差的區間估計

總的來說，我們通過構造一個概率分佈已知的檢測統計量，根據樣本值計算得出該統計量的確切值，判斷該確切值是否落入拒絕域，如果是則拒絕，否則不拒絕。常用的統計量為$\bar X$均值的線性變換，依據標準正態分佈去判斷。。。

1. 總體方差已知，求總體期望$\mu$的置信區間:使用標準正態分佈構造樞軸量

2.總體方差未知，求總體期望$\mu$的置信區間：使用t分佈構造樞軸量

3. 總體期望，方差均未知，求方差的置信區間:使用卡方分佈構造樞軸量

假設檢驗

在區間估計中，我們雖然給出了一定置信度下的區間範圍，比如，通過產品質量的抽樣檢查，計算出來的不合格率置信區間為3%到8%，而通過樣本計算出來的不合格率為4%，產品質量控制的閾值為5%，那麼我們根據這些資訊，是否能夠判斷該批次產品總體不合格率確實是小於5%的呢？？？如果以本次抽樣計算得到的不合格率4%作為估計，我們可能說該批次產品是合格的。但是由於抽樣本身是隨機的，這個4%也有可能是一個隨機的比較小的觀測值而已。並且我們通過區間估計得到的置信區間又包含了5%以及以上值，因此沒有理由認為這個本次抽樣的4%不合格率是可信的。在這種情況下，我們就沒有辦法做出必要的推斷和決策了。這也是我們要引入假設檢驗這種更科學的專門解決這類問題的原因。

研究的問題：根據樣本的資訊檢驗關於總體的某個假設是否正確。

可以分類為引數的假設檢驗和非引數的假設檢驗

引數假設檢驗：在總體分佈已知前提下，檢驗關於未知引數的某個假設；

非引數假設檢驗：在總體分佈未知的前提時的假設檢驗問題

相關概念：

被檢驗的假設用$H_0$表示，稱為原假設或者零假設，零假設一般選擇與標準一致或以往經驗一致的假設。如果拒絕原假設則說明有較強的理由支援備擇假設。

而其對立面稱為備擇假設或者對立假設，用$H_1$表示。

一般做法是：從樣本出發，建立一個法則，根據樣本值，利用所制定的法則，就可以做出是接受還是拒絕$H_0$的結論。這種法則稱為一個檢驗。

顯著性檢驗：只提出一個統計假設，而且也僅判斷這個假設是否成立，這類假設檢驗稱為"顯著性檢驗"

常用的理論基礎是小概率原理。

小概率原理

小概率事件在一次實驗中基本上不會發生。

典型例題：

現有一個罐，裝有紅球和白球共100個，兩種球一種有99個，另一種有1個，問這個罐裡是白球99個還是紅球99個？

解決這個問題可以先提出$H_0$假設，設：這個罐子裡有99個白球，現在隨機從罐子中取出一個球，結果得到的是紅色。

此時我們如何根據實驗結果來做判斷？由於假設99個是白球，那麼摸出紅球的概率只有1/100，這是一個"小概率事件"

但是該小概率事件卻在一次試驗中發生了，從而懷疑假設的真實性。這也是一個“帶概率的反證法”

假設檢驗基本思想：

先假設$H_0$是正確的，在此假設下，構造一個概率不超過 $\alpha(0<\alpha<1)$的小概率事件$A$，如果經過一次抽樣檢驗，事件A出現，則拒絕$H_0$,否則接受$H_0$，這裡$\alpha$就稱之為"顯著性水平"，通常取$\alpha = 0.1,0.01,0.05$等。一般地，我們針對固定的樣本容量$n$，顯著性水平$\alpha$，建立檢驗法則，（假設檢驗的本質是把樣本空間分成兩部分，一部分為拒絕域，一部分為接受域），使得犯第一類錯誤（棄真錯誤）的概率不大於$\alpha$

我們需要將$H_0$設定為對我們重要的假設，發生棄真(棄$H_0$)錯誤的可能性越小越好，因此$H_0$往往是對我們來說意義重大的假設為真的假設，也就是那些不應該輕易被否決掉的假設為原假設$P(拒絕H_0|H_0為真)< \alpha$越小越好，或者說接受$H_1$這個結論時是必須可靠的！由於我們沒有過多地考慮2類風險，因此即使我們接受$H_0$，也有可能結論並不十分可靠。

注意H0和H1兩個假設的地位是不對等的；如果能夠得出拒絕$H_0$接受$H_1$的結論時，是非常可靠的!反之不然:也就是說即使沒有拒絕$H_0$,也並不意味著$H_0$確實為真,因為這時並無顯著性檢查的風險控制

下面我們通過假設檢驗的思想來判斷均值$\mu = \mu_0, \mu_0$為待檢驗的總體均值。

單個正態總體的假設檢驗

u檢驗

P值檢驗

例子：判斷是否存在系統誤差：也就是是否均值等於實際值的假設檢驗

一般性方法

兩個正態總體的假設檢驗

兩個總體分別抽樣兩個樣本，得到資料後做針對總體指標的假設檢驗：

1.對均值$\mu$的假設檢驗使用$t$檢驗(臨界值法和p值法)

2.對方差假設檢驗使用$F$檢驗(臨界值法和p值法)

非參假設檢驗問題

在實際生產中，總體的分佈模型往往並不知道，這時就可能需要根據樣本資料來檢查樣本是否能夠擬合某一個模型。。。往往使用卡方檢驗法

方差分析

方差分析是基於樣本方差的分解，分析鑑別一個變數或一些變數對一個特定變數的影響程度的統計分析方法。用於推斷多個正態總體在方差相等的條件下，均值是否相等的假設檢驗問題。

要考察農藥間的殺蟲率是否有顯著差異，實際上就是要分析這些資料差異是由隨機因素造成的，還是系統誤差造成的。如果是系統誤差造成的，則可以說明農藥的效果是有顯著不同的，

T-test， F-test及其作用

https://blog.csdn.net/mydear_11000/article/details/51576564

https://www.zhihu.com/question/60321751

機器學習數學知識積累之概率論
2018-06-25
機器學習
機器學習數學知識積累總結
2019-02-15
機器學習
機器學習數學知識積累之高等數學微積分
2018-07-19
機器學習
機器學習知識積累
2018-07-22
機器學習
機器學習之step by step實戰及知識積累筆記
2018-06-13
機器學習筆記
JAVA學習筆記及知識積累
2018-09-28
Java筆記
統計模型機器學習模型領域相關知識，指標概念及問題點積累
2018-08-24
模型機器學習指標
機器學習中那些必要又困惑的數學知識
2018-12-03
機器學習
知識積累，韓語中的俗語學習
2018-10-12
機器學習之必備知識篇
2019-03-17
機器學習
機器學習之超引數
2018-12-12
機器學習
【機器學習之數學】01 導數、偏導數、方向導數、梯度
2019-03-11
機器學習梯度
機器學習學習筆記——基本知識
2024-04-15
機器學習筆記
機器學習數學知識中令人費解的notation符號註解
2018-08-21
機器學習符號
【機器學習】手寫數字識別
2022-07-04
機器學習
數理統計學概貌
2018-09-30
日常知識積累
2019-02-16
系統學習機器學習之半引數方法（二）--基於密度
2018-12-08
機器學習
機器學習學習中，數學最重要！
2018-10-24
機器學習
MySQL知識-積累篇
2020-10-04
MySql
常用前端知識積累
2020-12-17
前端
機器學習基礎知識1
2020-10-24
機器學習
機器學習知識點整理（三）
2020-12-22
機器學習
機器學習的數學焦慮
2018-11-14
機器學習
Android面試之——數學基礎知識
2018-03-24
Android面試
彩票的數學知識
2018-04-07
統計機器學習
2019-07-19
機器學習
深度學習程式碼積累
2020-12-15
深度學習
從入門到高階，讀懂機器學習需要哪些數學知識（附網盤）
2018-04-12
機器學習
基於機器學習等延伸出的數學知識補救——關於那些大學學了不及時用就會忘掉的知識
2024-05-12
機器學習
java web dev知識積累
2019-01-21
JavaWebdev
js基礎知識積累
2019-11-05
JS
ubuntu點選知識積累
2024-09-19
Ubuntu
動手學深度學習需要這些數學基礎知識
2019-07-24
深度學習
鑑權理論知識學習
2024-08-07
具備基本的數學和程式設計知識，你就可以學習深度學習啦
2019-08-17
程式設計深度學習
容斥原理——數學知識
2020-11-28
機器學習——基尼指數
2019-07-24
機器學習

機器學習數學知識積累之數理統計

數理統計

概率論/數理統計/統計學

概率論和數理統計的關係

重要概念

總體:

個體：

樣本：

樣本容量

抽樣：

簡單隨機樣本：

樣本值:

樣本空間：

樣本分佈(聯合分佈)

樣本，個體，特徵(feature)，觀測值

數理統計的理論基礎

切比雪夫不等式-概率區間估計

伯努利大數定理:

獨立同分布隨機變數序列:

獨立同分佈下的中心極限定理:

切比雪夫大數定理(辛欽大數定律)

樣本矩的大數定理

大數定律的意義

隸莫佛-拉普拉斯定理

統計量

期望($E[X]$）和均值

數學期望的計算性質

離散型隨機變數的期望：

常用分佈的數學期望和方差:

連續型隨機變數的期望：

隨機變數函式的期望

方差$D(X)$

方差$D(X)$的性質

協方差及相關係數

樣本方差

樣本協方差:

相關係數:

互資訊$I(X,Y)$

決定係數(coefficient of Determination)和相關係數(correlation of Coefficient)

似然函式,損失函式和最大似然估計

常用統計量(統計量不允許有任何未知引數，只和樣本資料本身有關)

樣本均值$\bar X = \frac{1}{n}\sum_{i=1}^{n}X_i$

樣本方差

樣本標準差

矩

樣本k階原點矩

樣本k階中心原點矩

樣本的2階中心矩$S^{*2}$ 或者記為$S_n^2$

順序統計量:

樣本中位數(median)

樣本極差

樣本幾何均數

變異係數（標註差率）(coefficient of variation, CV)

分類變數的統計描述:統計量

相對數

統計量的幾個性質

統計推斷

抽樣(樣本函式)分佈

數理統計中常用做置信估計的概率分佈模型:卡方分佈，t分佈, F分佈

卡方分佈

t分佈

F分佈

單個正態總體統計量抽樣分佈

兩個正態整體統計量分佈

均數的抽樣誤差

抽樣誤差的計算-標準誤

不同樣本之間均值差異的來源

分位點及在標準正態分佈，卡方，t分佈，F分佈中分位點查表方法(注意小於0.5時可能需要用到性質)

非正態總體樣本均值，方差等統計量分佈

引數估計

點估計

矩估計法:

最大似然估計法(MLE)

最大似然估計的不變性

引數估計量效果度量鑑定

引數估計兩個重要概念Bias vs variance

區間估計

區間估計的一般定義

置信度的幾何意義

區間估計兩要素:精度和可靠度