常見的分佈函式
二項分佈
幾何分佈
超幾何分佈
泊松分佈
均勻分佈
指數分佈
正態分佈
標準正態分佈
二項分佈和泊松分佈之間的關係
泊松分佈可以看作是二項分佈的一種極限形式。當考慮一個二項分佈問題,如果試驗次數𝑛非常大,而每次試驗成功的機率𝑝非常小,但乘積𝑛𝑝(期望值)保持在一個有限的常數𝜆,這時二項分佈就可以近似為泊松分佈。這意味著,在大量獨立的伯努利試驗中,如果每次試驗成功的機率很小,關注的是成功次數而不是每次試驗的具體結果時,泊松分佈提供了一個更簡便的模型。
在上述極限情況下,泊松分佈的引數𝜆實際上等於二項分佈中成功次數的期望值𝑛𝑝。這表明泊松分佈中的事件發生率𝜆可以直接透過二項分佈的引數𝑛和𝑝來確定
二項分佈、泊松分佈、正態分佈的特性
其中的二項分佈B和泊松分佈P具有可加性
正態分佈之和的特性
常用函式的期望與方差
常用分佈函式
正態分佈
卡方分佈
卡方分佈的性質
t分佈
t分佈的性質
F分佈
F分佈的性質
經典題目
分佈函式與密度函式
分佈函式的定義
分佈函式是指隨機變數小於一個數值x的機率,準確來說分佈函式應該叫做累計分佈函式
通常分佈函式採用大寫字母F來表示,P表示x點發生的機率
從而可以得出以下的性質
分佈函式與密度函式的關係
變數的獨立性
獨立的變數相加的方差運算
兩個變數和的分佈
變數和的分佈運算方式與卷積類似
K階原點矩與K階中心距
原點距可以看成資料點到原點的距離
中心距則是資料到達資料中心點的距離
極差
分位數
抽樣分佈
正態總體的抽樣分佈
可以看出,抽樣後的樣本均值符合正態分佈,抽樣的均值等於總體均值,方差等於總體方差的1/n。
需要注意樣本方差與卡方分佈的係數中,卡方分佈的自由度是n-1
樣本均值
樣本無偏方差
樣本均值的期望
無偏方差的期望
點估計方法
矩法
矩估計是數理統計中一種常用的引數估計方法,它基於總體的矩(如均值、方差等)與引數之間的關係來進行估計。矩估計的基本思想是利用樣本矩來估計相應的總體矩,進而透過總體矩與引數的關係來估計未知引數。這種方法直觀、簡便,並且適用於多種型別的分佈。
極大似然估計
極大似然估計(Maximum Likelihood Estimation, MLE)是一種常用的引數估計方法,其核心思想是尋找一組引數值,使得觀察到的資料出現的似然性(即機率)最大。換句話說,極大似然估計選擇使資料觀測值出現機率最大的引數值作為估計值。
順序統計量法
評價估計量地標準
- 無偏性
- 有效性
- 相合性
無偏性
有效性
相合性
置信區間
單側置信區間
正態總體引數的置信區間
方差已知,均值的置信區間
方差未知,均值的置信區間
均值已知,方差的置信區間
均值未知,方差的置信區間
兩個正態總體的情況
方差已知,均值的置信區間
方差未知,均值的置信區間
均值已知,方差比的置信區間
均值未知,方差比的置信區間
正態總體均值與方差的聯合區間估計
0-1分佈的引數區間估計
假設檢驗
檢驗的顯著水平與兩類錯誤
單正態總體的引數假設檢驗
均值的檢驗
方差的檢驗
兩個正態總體的引數假設檢驗
均值差的檢驗
方差比的檢驗
非正態總體均值的假設檢驗
方差已知時總體均值的假設檢驗
方差未知時總體均值的假設檢驗
方差已知時兩個總體均值的假設
方差未知時兩個總體均值的假設
分佈擬合檢驗
卡方檢驗
獨立性檢驗
兩個總體相等性檢驗
符號檢驗法
秩和檢驗法
遊程檢驗法
迴歸分析
一元線性迴歸
最小二乘法
最小二乘法中a,b兩個引數計算推導過程
線性迴歸的基本概念
線性迴歸模型假定因變數 ( y ) 與自變數 ( x ) 之間存線上性關係,可以表示為:
[ y = a + bx + \epsilon ]
其中, ( a ) 是截距,( b ) 是迴歸係數, ( \epsilon ) 是誤差項。
最小二乘法的目標
最小二乘法(Ordinary Least Squares, OLS)的目標是找到 ( a ) 和 ( b ) 使得觀測值 ( y_i ) 與預測值 (\hat{y}_i ) 之間的誤差平方和最小。即:
[ \hat{y}_i = a + bx_i ]
定義誤差平方和(Sum of Squared Errors, SSE)為:
[ SSE = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 = \sum^{n} \left( y_i - (a + bx_i) \right)^2 ]
對 ( a ) 和 ( b ) 求導
我們透過對 ( SSE ) 關於 ( a ) 和 ( b ) 求偏導數,並令其等於零,以找到使 ( SSE ) 最小的 ( a ) 和 ( b )。
- 對 ( a ) 求偏導數:
[ \frac{\partial SSE}{\partial a} = \sum_{i=1}^{n} 2 \left( y_i - (a + bx_i) \right) \cdot (-1) = -2 \sum_{i=1}^{n} \left( y_i - a - bx_i \right) ]
令其等於零:
[ \sum_{i=1}^{n} \left( y_i - a - bx_i \right) = 0 ]
[ \sum_{i=1}^{n} y_i - na - b \sum_{i=1}^{n} x_i = 0 ]
[ na + b \sum_{i=1}^{n} x_i = \sum_{i=1}^{n} y_i ]
- 對 ( b ) 求偏導數:
[ \frac{\partial SSE}{\partial b} = \sum_{i=1}^{n} 2 \left( y_i - (a + bx_i) \right) \cdot (-x_i) = -2 \sum_{i=1}^{n} x_i \left( y_i - a - bx_i \right) ]
令其等於零:
[ \sum_{i=1}^{n} x_i \left( y_i - a - bx_i \right) = 0 ]
[ \sum_{i=1}^{n} x_i y_i - a \sum_{i=1}^{n} x_i - b \sum_{i=1}^{n} x_i^2 = 0 ]
[ a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
聯立方程求解 ( a ) 和 ( b )
得到方程組:
[ na + b \sum_{i=1}^{n} x_i = \sum_{i=1}^{n} y_i ]
[ a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
- 先求 ( b ):
記:
[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i ]
[ \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i ]
則方程組改寫為:
[ n \bar{y} = na + b \sum_{i=1}^{n} x_i ]
[ n \bar{y} = na + bn \bar{x} ]
[ \bar{y} = a + b \bar{x} ]
利用第二個方程:
[ a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
代入 ( a = \bar{y} - b \bar{x} ):
[ (\bar{y} - b \bar{x}) \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
[ \bar{y} \sum_{i=1}^{n} x_i - b \bar{x} \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} x_i y_i ]
[ \bar{y} \sum_{i=1}^{n} x_i + b \left( \sum_{i=1}^{n} x_i^2 - \bar{x} \sum_{i=1}^{n} x_i \right) = \sum_{i=1}^{n} x_i y_i ]
整理得:
[ b = \frac{\sum_{i=1}^{n} x_i y_i - \bar{y} \sum_{i=1}^{n} x_i}{\sum_{i=1}^{n} x_i^2 - \bar{x} \sum_{i=1}^{n} x_i} ]
- 再求 ( a ):
從上面推匯出的關係:
[ a = \bar{y} - b \bar{x} ]
最終迴歸係數公式
[
b = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}
]
[
a = \bar{y} - b \bar{x}
]
透過上述步驟,推導了最小二乘法的線性迴歸方程中的迴歸係數 ( b ) 和截距 ( a ) 的公式。
最小二乘法的相關性質
線性迴歸效果顯著性檢驗
F檢驗法
t檢驗法
未知引數a,b和方差的區間估計
例題
要解答這道數理統計題目,我們需要進行線性迴歸分析。具體步驟如下:
A. 求 ( \eta ) 對 ( x ) 的線性迴歸方程
給定資料:
[
\begin{array}{c|cccccccccc}
x_i & 150 & 160 & 170 & 180 & 190 & 200 & 210 & 220 & 230 & 240 \
\hline
y_i & 56.9 & 58.3 & 61.6 & 64.6 & 68.1 & 71.3 & 74.1 & 77.4 & 80.2 & 82.6
\end{array}
]
- 計算 ( \bar{x} ) 和 ( \bar{y} ):
[
\bar{x} = \frac{1}{10} \sum_{i=1}^{10} x_i = \frac{150 + 160 + 170 + 180 + 190 + 200 + 210 + 220 + 230 + 240}{10} = 195
]
[
\bar{y} = \frac{1}{10} \sum_{i=1}^{10} y_i = \frac{56.9 + 58.3 + 61.6 + 64.6 + 68.1 + 71.3 + 74.1 + 77.4 + 80.2 + 82.6}{10} = 69.51
]
- 計算 ( S_{xy} ) 和 ( S_{xx} ):
[
S_{xy} = \sum_{i=1}^{10} (x_i - \bar{x})(y_i - \bar{y}) = (150 - 195)(56.9 - 69.51) + (160 - 195)(58.3 - 69.51) + \cdots + (240 - 195)(82.6 - 69.51)
]
[
S_{xx} = \sum_{i=1}^{10} (x_i - \bar{x})^2 = (150 - 195)^2 + (160 - 195)^2 + \cdots + (240 - 195)^2
]
- 計算迴歸係數 ( b ) 和截距 ( a ):
[
b = \frac{S_{xy}}{S_{xx}}
]
[
a = \bar{y} - b \bar{x}
]
B. 檢驗線性迴歸效果的顯著性 (( \alpha = 0.05 ))
- 計算迴歸平方和 ( SSR ) 和殘差平方和 ( SSE ):
[
SSR = b^2 \cdot S_{xx}
]
[
SSE = \sum_{i=1}^{10} (y_i - \hat{y}_i)^2
]
-
計算均方誤差 ( MSE ):
[
MSE = \frac{SSE}{n-2}
] -
利用 F 檢驗:
[
F = \frac{SSR}{MSE}
]
查表得到臨界值 ( F_{0.05,1,n-2} ),與計算出的 F 值比較。
C. 求迴歸係數 ( b ) 的區間估計 ( (1 - \alpha = 0.95) )
-
計算標準誤差 ( SE_b ):
[
SE_b = \sqrt{\frac{MSE}{S_{xx}}}
] -
利用 t 分佈確定區間:
[
b \pm t_{0.025,n-2} \cdot SE_b
]
D. 求 ( x_0 = 225kg ) 時,( \eta_0 ) 的預測值及預測區間
-
預測值 ( \hat{y}_0 ):
[
\hat{y}_0 = a + b x_0
] -
預測區間:
[
\hat{y}0 \pm t \cdot \sqrt{MSE \left( 1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}} \right)}
]