數理統計筆記

liangzander發表於2024-06-25

常見的分佈函式

二項分佈

alt text

幾何分佈

alt text

超幾何分佈

alt text

泊松分佈

alt text

alt text

均勻分佈

alt text

指數分佈

alt text

正態分佈

alt text

標準正態分佈

alt text

alt text

二項分佈和泊松分佈之間的關係

泊松分佈可以看作是二項分佈的一種極限形式。當考慮一個二項分佈問題,如果試驗次數𝑛非常大,而每次試驗成功的機率𝑝非常小,但乘積𝑛𝑝(期望值)保持在一個有限的常數𝜆,這時二項分佈就可以近似為泊松分佈。這意味著,在大量獨立的伯努利試驗中,如果每次試驗成功的機率很小,關注的是成功次數而不是每次試驗的具體結果時,泊松分佈提供了一個更簡便的模型。

在上述極限情況下,泊松分佈的引數𝜆實際上等於二項分佈中成功次數的期望值𝑛𝑝。這表明泊松分佈中的事件發生率𝜆可以直接透過二項分佈的引數𝑛和𝑝來確定

二項分佈、泊松分佈、正態分佈的特性

其中的二項分佈B和泊松分佈P具有可加性

alt text

正態分佈之和的特性

alt text

常用函式的期望與方差

alt text

alt text

常用分佈函式

正態分佈

alt text

卡方分佈

alt text

卡方分佈的性質

alt text

t分佈

alt text

t分佈的性質

alt text

F分佈

alt text

alt text

F分佈的性質

alt text

經典題目

alt text

alt text

alt text

分佈函式與密度函式

分佈函式的定義

分佈函式是指隨機變數小於一個數值x的機率,準確來說分佈函式應該叫做累計分佈函式

alt text

通常分佈函式採用大寫字母F來表示,P表示x點發生的機率

從而可以得出以下的性質

alt text

分佈函式與密度函式的關係

alt text

alt text

alt text

變數的獨立性

alt text

獨立的變數相加的方差運算

alt text

兩個變數和的分佈

alt text

alt text

變數和的分佈運算方式與卷積類似

alt text

K階原點矩與K階中心距

alt text

原點距可以看成資料點到原點的距離

中心距則是資料到達資料中心點的距離

極差

alt text

分位數

alt text

alt text

抽樣分佈

正態總體的抽樣分佈

alt text

可以看出,抽樣後的樣本均值符合正態分佈,抽樣的均值等於總體均值,方差等於總體方差的1/n。

需要注意樣本方差與卡方分佈的係數中,卡方分佈的自由度是n-1

alt text

alt text

alt text

alt text

樣本均值

alt text

樣本無偏方差

alt text

樣本均值的期望

alt text

無偏方差的期望

alt text

alt text

alt text

點估計方法

矩法

矩估計是數理統計中一種常用的引數估計方法,它基於總體的矩(如均值、方差等)與引數之間的關係來進行估計。矩估計的基本思想是利用樣本矩來估計相應的總體矩,進而透過總體矩與引數的關係來估計未知引數。這種方法直觀、簡便,並且適用於多種型別的分佈。

alt text

alt text

極大似然估計

極大似然估計(Maximum Likelihood Estimation, MLE)是一種常用的引數估計方法,其核心思想是尋找一組引數值,使得觀察到的資料出現的似然性(即機率)最大。換句話說,極大似然估計選擇使資料觀測值出現機率最大的引數值作為估計值。

alt text

順序統計量法

alt text

alt text

評價估計量地標準

  • 無偏性
  • 有效性
  • 相合性

無偏性

alt text

有效性

alt text

alt text

alt text

alt text

相合性

alt text

置信區間

alt text

alt text

alt text

單側置信區間

alt text

正態總體引數的置信區間

方差已知,均值的置信區間

alt text

alt text

方差未知,均值的置信區間

alt text

均值已知,方差的置信區間

alt text

alt text

均值未知,方差的置信區間

alt text

兩個正態總體的情況

alt text

方差已知,均值的置信區間

alt text

方差未知,均值的置信區間

alt text

alt text

均值已知,方差比的置信區間

alt text

均值未知,方差比的置信區間

alt text

正態總體均值與方差的聯合區間估計

alt text

alt text

alt text

0-1分佈的引數區間估計

alt text

alt text

alt text

alt text

alt text

假設檢驗

alt text

alt text

alt text

檢驗的顯著水平與兩類錯誤

alt text

alt text

alt text

單正態總體的引數假設檢驗

均值的檢驗

alt text

alt text

alt text

alt text

方差的檢驗

alt text

alt text

兩個正態總體的引數假設檢驗

alt text

均值差的檢驗

alt text

alt text

方差比的檢驗

alt text

alt text

非正態總體均值的假設檢驗

方差已知時總體均值的假設檢驗

alt text

alt text

alt text

alt text

alt text

方差未知時總體均值的假設檢驗

alt text

alt text

alt text

方差已知時兩個總體均值的假設

alt text

alt text

alt text

方差未知時兩個總體均值的假設

alt text

alt text

分佈擬合檢驗

卡方檢驗

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

獨立性檢驗

alt text

alt text

alt text

alt text

alt text

兩個總體相等性檢驗

alt text

符號檢驗法

alt text

alt text

alt text

秩和檢驗法

alt text

alt text

alt text

alt text

alt text

alt text

alt text

遊程檢驗法

alt text

alt text

alt text

alt text

迴歸分析

一元線性迴歸

alt text

alt text

最小二乘法

alt text

alt text

alt text

alt text

最小二乘法中a,b兩個引數計算推導過程

線性迴歸的基本概念

線性迴歸模型假定因變數 ( y ) 與自變數 ( x ) 之間存線上性關係,可以表示為:
[ y = a + bx + \epsilon ]
其中, ( a ) 是截距,( b ) 是迴歸係數, ( \epsilon ) 是誤差項。

最小二乘法的目標

最小二乘法(Ordinary Least Squares, OLS)的目標是找到 ( a ) 和 ( b ) 使得觀測值 ( y_i ) 與預測值 (\hat{y}_i ) 之間的誤差平方和最小。即:
[ \hat{y}_i = a + bx_i ]

定義誤差平方和(Sum of Squared Errors, SSE)為:
[ SSE = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 = \sum^{n} \left( y_i - (a + bx_i) \right)^2 ]

對 ( a ) 和 ( b ) 求導

我們透過對 ( SSE ) 關於 ( a ) 和 ( b ) 求偏導數,並令其等於零,以找到使 ( SSE ) 最小的 ( a ) 和 ( b )。

  1. 對 ( a ) 求偏導數:
    [ \frac{\partial SSE}{\partial a} = \sum_{i=1}^{n} 2 \left( y_i - (a + bx_i) \right) \cdot (-1) = -2 \sum_{i=1}^{n} \left( y_i - a - bx_i \right) ]

令其等於零:
[ \sum_{i=1}^{n} \left( y_i - a - bx_i \right) = 0 ]
[ \sum_{i=1}^{n} y_i - na - b \sum_{i=1}^{n} x_i = 0 ]
[ na + b \sum_{i=1}^{n} x_i = \sum_{i=1}^{n} y_i ]

  1. 對 ( b ) 求偏導數:
    [ \frac{\partial SSE}{\partial b} = \sum_{i=1}^{n} 2 \left( y_i - (a + bx_i) \right) \cdot (-x_i) = -2 \sum_{i=1}^{n} x_i \left( y_i - a - bx_i \right) ]

令其等於零:
[ \sum_{i=1}^{n} x_i \left( y_i - a - bx_i \right) = 0 ]
[ \sum_{i=1}^{n} x_i y_i - a \sum_{i=1}^{n} x_i - b \sum_{i=1}^{n} x_i^2 = 0 ]
[ a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]

聯立方程求解 ( a ) 和 ( b )

得到方程組:
[ na + b \sum_{i=1}^{n} x_i = \sum_{i=1}^{n} y_i ]
[ a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]

  1. 先求 ( b ):

記:
[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i ]
[ \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i ]

則方程組改寫為:
[ n \bar{y} = na + b \sum_{i=1}^{n} x_i ]
[ n \bar{y} = na + bn \bar{x} ]
[ \bar{y} = a + b \bar{x} ]

利用第二個方程:
[ a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]

代入 ( a = \bar{y} - b \bar{x} ):
[ (\bar{y} - b \bar{x}) \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
[ \bar{y} \sum_{i=1}^{n} x_i - b \bar{x} \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
[ \bar{y} \sum_{i=1}^{n} x_i + b \left( \sum_{i=1}^{n} x_i^2 - \bar{x} \sum_{i=1}^{n} x_i \right) = \sum_{i=1}^{n} x_i y_i ]

整理得:
[ b = \frac{\sum_{i=1}^{n} x_i y_i - \bar{y} \sum_{i=1}^{n} x_i}{\sum_{i=1}^{n} x_i^2 - \bar{x} \sum_{i=1}^{n} x_i} ]

  1. 再求 ( a ):

從上面推匯出的關係:
[ a = \bar{y} - b \bar{x} ]

最終迴歸係數公式

[
b = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}
]

[
a = \bar{y} - b \bar{x}
]

透過上述步驟,推導了最小二乘法的線性迴歸方程中的迴歸係數 ( b ) 和截距 ( a ) 的公式。

最小二乘法的相關性質

alt text

alt text

alt text

alt text

alt text

alt text

alt text

線性迴歸效果顯著性檢驗

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

F檢驗法

alt text

alt text

t檢驗法

alt text

alt text

未知引數a,b和方差的區間估計

alt text

alt text

alt text

例題

alt text

要解答這道數理統計題目,我們需要進行線性迴歸分析。具體步驟如下:

A. 求 ( \eta ) 對 ( x ) 的線性迴歸方程

給定資料:
[
\begin{array}{c|cccccccccc}
x_i & 150 & 160 & 170 & 180 & 190 & 200 & 210 & 220 & 230 & 240 \
\hline
y_i & 56.9 & 58.3 & 61.6 & 64.6 & 68.1 & 71.3 & 74.1 & 77.4 & 80.2 & 82.6
\end{array}
]

  1. 計算 ( \bar{x} ) 和 ( \bar{y} ):
    [
    \bar{x} = \frac{1}{10} \sum_{i=1}^{10} x_i = \frac{150 + 160 + 170 + 180 + 190 + 200 + 210 + 220 + 230 + 240}{10} = 195
    ]

[
\bar{y} = \frac{1}{10} \sum_{i=1}^{10} y_i = \frac{56.9 + 58.3 + 61.6 + 64.6 + 68.1 + 71.3 + 74.1 + 77.4 + 80.2 + 82.6}{10} = 69.51
]

  1. 計算 ( S_{xy} ) 和 ( S_{xx} ):
    [
    S_{xy} = \sum_{i=1}^{10} (x_i - \bar{x})(y_i - \bar{y}) = (150 - 195)(56.9 - 69.51) + (160 - 195)(58.3 - 69.51) + \cdots + (240 - 195)(82.6 - 69.51)
    ]

[
S_{xx} = \sum_{i=1}^{10} (x_i - \bar{x})^2 = (150 - 195)^2 + (160 - 195)^2 + \cdots + (240 - 195)^2
]

  1. 計算迴歸係數 ( b ) 和截距 ( a ):
    [
    b = \frac{S_{xy}}{S_{xx}}
    ]

[
a = \bar{y} - b \bar{x}
]

B. 檢驗線性迴歸效果的顯著性 (( \alpha = 0.05 ))

  1. 計算迴歸平方和 ( SSR ) 和殘差平方和 ( SSE ):
    [
    SSR = b^2 \cdot S_{xx}
    ]

[
SSE = \sum_{i=1}^{10} (y_i - \hat{y}_i)^2
]

  1. 計算均方誤差 ( MSE ):
    [
    MSE = \frac{SSE}{n-2}
    ]

  2. 利用 F 檢驗:
    [
    F = \frac{SSR}{MSE}
    ]

查表得到臨界值 ( F_{0.05,1,n-2} ),與計算出的 F 值比較。

C. 求迴歸係數 ( b ) 的區間估計 ( (1 - \alpha = 0.95) )

  1. 計算標準誤差 ( SE_b ):
    [
    SE_b = \sqrt{\frac{MSE}{S_{xx}}}
    ]

  2. 利用 t 分佈確定區間:
    [
    b \pm t_{0.025,n-2} \cdot SE_b
    ]

D. 求 ( x_0 = 225kg ) 時,( \eta_0 ) 的預測值及預測區間

  1. 預測值 ( \hat{y}_0 ):
    [
    \hat{y}_0 = a + b x_0
    ]

  2. 預測區間:
    [
    \hat{y}0 \pm t \cdot \sqrt{MSE \left( 1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}} \right)}
    ]

方差分析

單因子模型

alt text

alt text

alt text

alt text

alt text

alt text

顯著性檢驗

alt text

alt text

alt text

引數的估計

alt text

alt text

alt text

alt text

alt text

多重比較

alt text

alt text

alt text

齊次性檢驗

alt text

alt text

alt text

兩個因素的方差分析

有互動作用的方差分析模型

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

無互動作用無重複試驗的方差分析模型

alt text

alt text

alt text

alt text

附錄

正態分佈的積分表

alt text

卡方分佈表

alt text

相關文章