統計學理論—一元線性迴歸

徐思孟發表於2020-11-13

在學習統計學賈書的過程,在第6—14章節出有許多需要理解與記憶的公式和概念,在此通過部落格的形式做一次梳理,主要內容為統計學中抽樣分佈、假設檢驗、引數估計、分類資料分析、方差分析、一元二元線性分析、時間序列分析、指數的理論知識,不足之處望多多指正。

1.變數間關係的度量

1.1變數間的關係

  • 函式關係
    是一一對應的確定關係;變數 y 隨變數 x 一起變化,並完全依賴於 x ,當變數 x 取某個數值時, y 依確定的關係取相應的值,則稱 y 是 x 的函式(特點是唯一確定
  • 相關關係
    變數間關係不能用函式關係精確表達;一個變數的取值不能由另一個變數唯一確定

(1)常用的一些相關關係:
在這裡插入圖片描述
(2)相關關係的描述與測度
在這裡插入圖片描述

1.2相關係數的描述與測度

  • 相關係數的定義:度量變數之間關係強度的一個統計量,對兩個變數之間線性相關強度的度量稱為簡單相關係數記總體相關係數為 ρ \rho ρ;樣本的相關係數為r
  • 樣本相關係數的計算公式: r = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 ⋅ ∑ ( y − y ˉ ) 2 化 簡 得 到 r = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 ⋅ n ∑ y 2 − ( ∑ y ) 2 r=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^{2} \cdot \sum(y-\bar{y})^{2}}} 化簡得到 r=\frac{n \sum x y-\sum x \sum y}{\sqrt{n \sum x^{2}-\left(\sum x\right)^{2}} \cdot \sqrt{n \sum y^{2}-\left(\sum y\right)^{2}}} r=(xxˉ)2(yyˉ)2 (xxˉ)(yyˉ)r=nx2(x)2 ny2(y)2 nxyxy
  • 樣本相關係數r的常用性質
    (1)r的取值範圍是[-1,1],|r|=1時,兩變數完全相關,r=0不存線上性相關關係,小於0時負相關,大於0時正相關;
    (2)r具有對稱性。即x與y之間的相關係數和y與x之間的相關係數相等;
    (3)r數值大小與x和y原點及尺度無關;
    (4)僅僅是x與y之間線性關係的一個度量,它不能用於描述非線性關係。這意為著, r=0只表示兩個變數之間不存線上性相關關係,並不說明變數之間沒有任何關係;
    (5)r雖然是兩個變數之間線性關係的一個度量,卻不一定意味著x與y一定有因果關係
  • 對於相關係數r的經驗解釋
    (1)|r|>0.8時,可視為兩個變數之間高度相關;
    (2)0.5<|r|<0.8時,可視為中度相關;
    (3)0.3<|r|<0.5時,視為低度相關;
    (4)|r|<0.3時,說明兩個變數之間的相關程度極弱,可視為不相關;
    (5)上述解釋必須建立在對相關係數的顯著性進行檢驗的基礎之上

1.3相關係數的顯著性檢驗

  • 需要知道的性質
    (1)用於檢驗兩個變數之間是否存線上性相關關係;
    (2)等價於對迴歸係數 β 1 \beta_1 β1的檢驗;
    (3)檢驗方式是t檢驗。
  • 檢驗步驟
    (1)提出假設:H0: ρ = 0 \rho=0 ρ=0 ;H1: ρ ≠ 0 \rho \neq 0 ρ=0;
    (2)計算檢驗的統計量: t = ∣ r ∣ n − 2 1 − r 2 ∼ t ( n − 2 ) t=|r| \sqrt{\frac{n-2}{1-r^{2}}} \sim t(n-2) t=r1r2n2 t(n2)
    (3)確定顯著性水平 α \alpha α,並作出決策。

2. 一元線性迴歸

2.1.一元線性迴歸的幾種格式與求解

  • 1、一元線性迴歸模型 y = β 0 + β 1 x + ε {y}={\beta}_{0}+{\beta}_{1} x+\varepsilon y=β0+β1x+ε
    (1)模型的特點y 是 x 的線性函式(部分)加上誤差項;
    (2)線性部分反映了由於 x 的變化而引起的 y 的變化;
    (3)誤差項 ε \varepsilon ε是隨機變數反映了除 x 和 y 之間的線性關係之外的隨機因素對 y 的影響,是不能由 x 和 y 之間的線性關係所解釋的變異性
    (4) β 0 \beta_0 β0 β 1 \beta_1 β1 稱為模型的引數
  • 一元線性迴歸模型的假定
    (1)因變數x與自變數y之間具有線性關係;
    (2)在重複抽樣中,自變數x的取值是固定的,即假定x是非隨機
    (3)誤差項ε是一個期望值為0的隨機變數,既有: E ( y ) = β 0 + β 1 x E(y)={\beta}_{0}+{\beta}_{1} x Ey=β0+β1x
    (4)誤差項ε是一個服從正態分佈的隨機變數,且相互獨立。即ε~N(0 ,σ2 )(關於隨機誤差的理解

在這裡插入圖片描述

  • 2、一元線性迴歸方程 E ( y ) = β 0 + β 1 x E(y)={\beta}_{0}+{\beta}_{1} x Ey=β0+β1x
    (1) β 0 \beta_0 β0是迴歸直線在 y 軸上的截距,是當 x=0 時 y 的期望值
    (2) β 1 \beta_1 β1是直線的斜率,稱為迴歸係數,表示當 x 每變動一個單位時,y 的平均變動值
  • 3、估計的迴歸方程
    (1)作用:用樣本統計量 β ^ 0 \hat\beta_0 β^0 β ^ 1 \hat\beta_1 β^1 代替迴歸方程中的未知引數 β 0 \beta_0 β0 β 1 \beta_1 β1 就得到了估計的迴歸方程
    (2)估計的迴歸方程: y ^ = β ^ 0 + β ^ 1 x \hat y=\hat\beta_0+\hat\beta_ 1 x y^=β^0+β^1x
  • 用最小二乘法估計迴歸方程的引數:
    (1)本質:使得 ∑ i = 1 n ( y i − y ^ ) 2 = ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) 2 = min ⁡ \sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=\min i=1n(yiy^)2=i=1n(yiβ^0β^1xi)2=min,求法是分別對 β ^ 0 \hat\beta_0 β^0 β ^ 1 \hat\beta_1 β^1求偏導;
    (2)求解公式:求偏導 { ∂ Q ∂ β 0 ∣ β 0 = β ^ 0 = − 2 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) 2 = 0 ∂ Q ∂ β 1 ∣ β 1 − β ^ 1 = − 2 ∑ i = 1 n x i ( y i − β ^ 0 − β ^ 1 x i ) 2 = 0 \left\{\begin{array}{l}\left.\frac{\partial Q}{\partial \beta_{0}}\right|_{\beta_{0}=\hat{\beta}_{0}}=-2 \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=0 \\ \left.\frac{\partial Q}{\partial \beta_{1}}\right|_{\beta_{1}-\hat{\beta}_{1}}=-2 \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}=0\end{array}\right. β0Qβ0=β^0=2i=1n(yiβ^0β^1xi)2=0β1Qβ1β^1=2i=1nxi(yiβ^0β^1xi)2=0
    解得: β ^ 1 = n ∑ i = 1 n x i y i − ( ∑ i = 1 n x i ) ( ∑ i = 1 n y i ) n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_{1}=\frac{n \sum_{i=1}^{n} x_{i} y_{i}-\left(\sum_{i=1}^{n} x_{i}\right)\left(\sum_{i=1}^{n} y_{i}\right)}{n \sum_{i=1}^{n} x_{i}^{2}-\left(\sum_{i=1}^{n} x_{i}\right)^{2}} \quad \hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x} β^1=ni=1nxi2(i=1nxi)2ni=1nxiyi(i=1nxi)(i=1nyi)β^0=yˉβ^1xˉ

2.2.迴歸直線的擬合優度檢驗

  • 誤差分解;
    在這裡插入圖片描述
    拆分格式: ∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n ( y ^ i − y ˉ ) 2 + ∑ i = 1 n ( y i − y ^ ) 2 \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2} i=1n(yiyˉ)2=i=1n(y^iyˉ)2+i=1n(yiy^)2
    (1)總平方和SST= ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2} i=1n(yiyˉ)2;反映因變數的 n 個觀察值與其均值的總誤差
    (2)迴歸平方和SSR= ∑ i = 1 n ( y ^ i − y ˉ ) 2 \sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2} i=1n(y^iyˉ)2;反映自變數 x 的變化對因變數 y 取值變化的影響,或者說,是由於 x 與 y 之間的線性關係引起的 y 的取值變化,也稱為可解釋的平方和
    (3)殘差平方和SSE= ∑ i = 1 n ( y i − y ^ ) 2 \sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2} i=1n(yiy^)2。反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩餘平方和

  • 判定係數 R 2 R^2 R2的計算
    (1)計算公式: R 2 = S S R S S T = ∑ i = 1 n ( y ^ i − y ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 = 1 − ∑ i = 1 n ( y i − y ^ ) 2 ∑ i = 1 n ( y ^ i − y ˉ ) 2 R^{2}=\frac{S S R}{S S T}=\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}=1-\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}\right)^{2}}{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}} R2=SSTSSR=i=1n(yiyˉ)2i=1n(y^iyˉ)2=1i=1n(y^iyˉ)2i=1n(yiy^)2
    (2)反映迴歸直線的擬合程度;
    (3)取值範圍在 [ 0 , 1 ] 之間;
    (4)判定係數等於相關係數的平方,即 R 2 = r 2 R^2=r^2 R2r2

  • 標椎估計誤差的計算:
    (1)計算公式: s e = ∑ i = 1 n ( y i − y ^ i ) 2 n − 2 = S S E n − 2 = M S E s_{e}=\sqrt{\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-2}}=\sqrt{\frac{S S E}{n-2}}=\sqrt{M S E} se=n2i=1n(yiy^i)2 =n2SSE =MSE
    (2)實際觀察值與迴歸估計值誤差平方和的均方根;
    (3)對誤差項 ε \varepsilon ε的標準差σ2 的估計,是在排除了x對y的線性影響後,y隨機波動大小的一個估計量。

2.3. 顯著性檢驗

  • 線性關係檢驗
    (1)檢驗自變數與因變數之間的線性關係是否顯著
    (2)計算:將回歸均方(MSR)同殘差均方(MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著,迴歸平方和SSR除以相應的自由度(自變數的個數k) ,殘差平方和SSE除以相應的自由度(n-k-1)。計算公式為: F = S S R / 1 S S E / ( n − 2 ) = M S R M S E ∼ F ( 1 , n − 2 ) F=\frac{S S R / 1}{S S E /(n-2)}=\frac{M S R}{M S E} \sim F(1, n-2) F=SSE/(n2)SSR/1=MSEMSRF(1,n2)
  • 迴歸係數檢驗
    (1)目的:檢驗 x 與 y 之間是否具有線性關係,或者說,檢驗自變數 x 對因變數 y 的影響是否顯著;
    (2)理論基礎是迴歸係數 β ^ 1 \hat\beta_1 β^1 的抽樣分佈
    (3)t檢驗統計量計算公式: t = β ^ 1 s β ^ ∼ t ( n − 2 ) t=\frac{\hat{\beta}_{1}}{s_{\hat{\beta}}} \sim t(n-2) t=sβ^β^1t(n2)(等價於相關係數的顯著性檢驗)

3.利用迴歸方程進行評估和預測

3.1點估計

  • y平均值的點估計
    (1)定義:利用估計的迴歸方程,對於自變數 x 的一個給定值 x0 ,求出因變數 y 的平均值的一個估計值E(y0) ,就是平均值的點估計
    (2)公式: E ( y 0 ) = β 0 + β 1 x E(y_0)={\beta}_{0}+{\beta}_{1} x Ey0=β0+β1x
  • y個別值的點估計;
    (1)定義:利用估計的迴歸方程,對於自變數 x 的一個給定值 x 0 x_0 x0 ,求出因變數 y 的一個個別值的估計值 y ^ 0 \hat y_0 y^0,就是個別值的點估計
    (2)公式: y ^ 0 = β ^ 0 + β ^ 1 x \hat y_0=\hat\beta_0+\hat\beta_ 1 x y^0=β^0+β^1x

3.2區間估計

  • y平均值的置信區間估計
    (1)定義:利用估計的迴歸方程,對於自變數 x 的一個給定值 x0 ,求出因變數 y 的平均值的估計區間 ,這一估計區間稱為置信區間;
    (2)E( y 0 y_0 y0)1-a置信區間水平下的計算公式: y ^ 0 ± t α / 2 ( n − 2 ) s e 1 n + ( x 0 − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 \hat{y}_{0} \pm t_{\alpha / 2}(n-2) s_{e} \sqrt{\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}} y^0±tα/2(n2)sen1+i=1n(xixˉ)2(x0xˉ)2

  • y估計值的預測區間估計
    (1)定義:利用估計的迴歸方程,對於自變數 x 的一個給定值 x0 ,求出因變數 y 的一個個別值的估計區間,這一區間稱為預測區間;
    (2)公式: y ^ 0 ± t α / 2 ( n − 2 ) S e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 \hat{y}_{0} \pm t_{\alpha / 2}(n-2) S_{e} \sqrt{1+\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}} y^0±tα/2(n2)Se1+n1+i=1n(xixˉ)2(x0xˉ)2 兩種區間估計區別在於根號裡面(幾何區別)
    在這裡插入圖片描述

幾者的區別:在點估計條件下,平均值的點估計和個別值的的點估計是一樣的,但在區間估計中則不同。

4.殘差分析

4.1殘差與殘差圖

*殘差
(1)因變數的觀測值與根據估計的迴歸方程求出的預測值之差,用e表示公式為: e i = y i − y ^ i e_{i}=y_{i}-\hat{y}_{i} ei=yiy^i
(2)反映了用估計的迴歸方程去預測而引起的誤差 ;
(3)作用:可用於確定有關誤差項的假定是否成立 。

  • 殘差影像
    (1)好壞判別:判斷誤差項 ε \varepsilon ε是否符合假定(均值為零的正態分佈)
    (2)一般影像:
    在這裡插入圖片描述

標椎化殘差

  • 標椎化殘差的計算:(殘差除以它的標準差): z e i = e i s e = y i − y ^ i s e z_{e_{i}}=\frac{e_{i}}{s_{e}}=\frac{y_{i}-\hat{y}_{i}}{s_{e}} zei=seei=seyiy^i即: z i = y i − y ^ i s e 1 − ( 1 n + ( x i − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 ) z_{i}=\frac{y_{i}-\hat{y}_{i}}{s_{e} \sqrt{1-\left(\frac{1}{n}+\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum\left(x_{i}-\bar{x}\right)^{2}}\right)}} zi=se1(n1+(xixˉ)2(xixˉ)2) yiy^i
    (1)作用:用以直觀地判斷誤差項服從正態分佈這一假定是否成立 ;
    (2)若假定成立,標準化殘差的分佈也應服從正態分佈;
    (3)在標準化殘差圖中,大約有95%的標準化殘差在-2到+2之間

參考

《統計學》 第7版_賈俊平

相關文章