概率論與數理統計中基於有限樣本推斷總體分佈的方法,基於總體未知引數區間估計的假設檢驗方法之討論,以及從數理統計視角重新審視線性迴歸函式本質

鄭瀚Andrew.Hann發表於2019-07-27

1. 總體與樣本

0x1:數理統計中為什麼要引入總體和個體這個概念

概率論與數理統計中,一個很重要的研究物件就是總體的概率分佈,理論上說,我們希望獲得被研究物件的總體樣本,基於這份總體樣本進一步研究其概率分佈,但是遺憾地是,幾乎在100%的情況下,我們都不可能獲得真正的總體,我們只能獲取有限的樣本量(例如自然生物裡的統計問題),有時候甚至還是非常少的小樣本集(例如宇宙星體觀測結果),如何有效、準確、誤差可控地利用有限的樣本集,進行最大程度合理的統計推斷,既是一個理論研究課題,也是非常有現實意義的應用理論。

因此概率論與數理統計科學家們提出了總體和個體這個概念,主要觀點如下:

  • 在大數定律的理論支撐下,只要我們的個人樣本數足夠多,個人樣本的統計量會在趨近於1的概率下,趨近於總體樣本的統計量。這就是我們在沒有完整總體樣本的情況下,依然能夠利用概率論與數理統計這個強大的武器,對未知的事物開展統計研究的理論依據。
  • 同樣在大數定律的理論支撐下,即使樣本數不夠多,基於有限的樣本數得到的估計結果,和理論總體之間的誤差,也可以可以通過概率分佈統計量的形式,定量地給出的,這給統計推斷的不確定性決策提供了基礎。

0x2:總體與樣本

1. 總體的形式定義

在一個統計問題中,我們把研究物件的全體稱為總體,也即樣本空間全集,構成總體的每個成員稱為個體,也即樣本子集。

對於具體問題中,我們將研究物件的某個數量指標值(例如身高)的全體稱為總體,每一個總體都是由一組資料組成的,因此可以用一個概率分佈描述,所以說總體數量指標就是服從一個分佈的隨機變數。

我們用大寫字母X表示總體,那麼總體X就是具有未知分佈函式F(x)的一個隨機變數。

2. 樣本的形式定義

在數理統計中,總體分佈永遠是未知的。所以我們希望從客觀存在的總體中按一定的規則選取一些個體(即抽樣),通過對這些個體作觀察或測試來推斷關於總體分佈的某些統計量(例如總體X的均值、方差、中位數等),被抽取出的這部分個體就組成了總體的一個樣本。

這裡所謂的”一定規則“,是指保證總體中每一個個體有同等的機會被抽到的規則。

在總體中抽取樣本的過程稱之為”抽樣“,抽取規則則稱之為”抽樣方案“。在大部分時候,我們都採用簡單隨機抽樣,表示對總體的每一個抽樣,總體中的所有個體都有相同的被選概率,用這種抽樣方案得到的樣本稱為簡單隨機樣本

由於在觀測前,樣本觀測值是不確定的,所以樣本是一組隨機變數(或隨機向量),為了體現隨機性,用大寫字母(X1,X2,....,Xn)表示,其中n為樣本的大小,稱之為樣本容量

一旦給定的簡單隨機抽樣方案實施後,樣本就是一組資料,用小寫英文字母(x1,x2,...,xn)表示,也稱為樣本觀測值

簡單隨機樣本具有下列兩個特性:

  • 1)相互獨立性:X1,X2,...,Xn相互獨立,樣本中每個個體的取值不受到其他個體取值的影響
  • 2)代表性:Xi 同總體分佈(Xi ~ f(xi;θ)),總體中的每一個個體都有同等機會被選入樣本

3. 樣本的聯合分佈概率函式公式

我們知道,簡單隨機樣本表示X1,X2,...,Xn是獨立同分布的隨機變數,且每一個 Xi 的分佈都與總體X的分佈相同,因此我們可以根據概率論中多維隨機變數分佈的性質得到樣本的聯合分佈如下:

1)離散型隨機變數

設總體X是一個離散型隨機變數,分佈律為P(X=x;θ),樣本(X1,X2,....,Xn)的聯合分佈律為:

2)連續型隨機變數

設總體X是一個連續型隨機變數,密度函式為f(x;θ),樣本(X1,X2,....,Xn)的聯合密度函式為:

樣本的聯合分佈累乘公式是一個非常基礎且重要的公式,是很多下游演算法的公式基礎,它表達了一個最質樸的概率論思想,即:任何複雜的事物都可以分解為多個複雜度更低的子事件,所有子事件同時發生等同於複雜事物發生,而所有獨立同分布的子事物同時發生在概率論中又等價於所有子事物的概率逐個累乘。即P(AB) = P(A)*P(B)

樣本的聯合分佈概率函式公式,在模型引數估計、NLP語言模型建模等領域中都有廣泛應用。

3)樣本聯合分佈函式舉例說明

設總體X~B(1,p),(X1,X2,...,Xn)為取自該總體的一個樣本,求樣本(X1,X2,...,Xn)的聯合分佈律f(x1,x2,...,xn;p)

在概率分佈函式的討論中,我們的討論物件往往是在某個確定的概率函式前提下,某個點或某個區間的確定性概率問題。而在樣本聯合分佈概率函式的討論中,我們的討論物件是多個相同的概率分佈函式疊加在一起,綜合而成的一個新的概率分佈函式。它們二者之間有點像個體與群體的關係。

Relevant Link: 

《概率論與數理統計》同濟大學數學系 第6章 第一節 

 

2. 樣本隨機變數的統計量 

0x1:為什麼要研究樣本的統計量

數理統計中最重要的部分就是研究樣本的概率分佈,也即抽樣分佈。

抽樣分佈也是一種隨機變數,因此自然也有對應的概率密度函式以及概率分佈函式。但其實對抽樣分佈的概率分佈函式的研究並不是十分重要,或者說相比於抽樣分佈的統計量研究來說不是那麼重要。

我們研究樣本的核心目的在於估計總體分佈的形式和引數,而抽樣分佈的統計量,是連線抽樣分佈和總體分佈之間的橋樑,基於抽樣樣本的統計推斷是基於抽樣統計量作出的,所以研究抽樣分佈的統計量是統計推斷中一個十分重要的環節。

0x2:樣本統計量 - 連線樣本和總體未知引數推斷之間的橋樑

數理統計的基本任務之一是利用樣本所提供的資訊來對總體分佈中未知的量進行推斷,簡單來說,就是由樣本推斷總體。

但是,樣本常常表現為一組資料,很難直接用來解決我們所要研究的具體問題,人們常常把資料加工成若干個簡單明瞭的數字特徵,由資料加工後的數字特徵就是統計量。所以說統計量綜合了樣本的資訊,是統計推斷的基礎。統計量的選擇和運用在統計推斷中佔核心地位。

1. 樣本統計量基本定義

設(X1,X2,...,Xn)為取自總體的一個樣本,樣本(X1,X2,...,Xn)的函式為g(X1,X2,...,Xn),若g中不直接包含總體分佈中的任何未知引數,則稱g(X1,X2,...,Xn)為統計量。統計量本質上也是一種隨機變數。

在抽樣前,統計量是一個隨機變數,在抽樣後,得到樣本(X1,X2,...,Xn)的一次觀測值(x1,x2,...,xn),則所得的g(x1,x2,...,xn)即為統計量的一次觀測值。它是一個可以由資料算得的實數。

統計量本身不包含總體分佈中的未知引數,我們構造統計量的主要目的就是去估計總體分佈中的未知引數。

2. 一些常用的樣本統計量

1)樣本均值

設(X1,...,Xn)是一個樣本,稱:

為樣本均值。 

2)樣本方差

稱:

為樣本方差。

稱:

為樣本標準差。

3)k階原點矩

一般地,對任意一個正整數k,稱:

為樣本的k階原點矩。特別的,當k=1時,k階原點矩退化為樣本均值。

4)k階中心矩

稱:

為樣本的k階中心矩。

特別的,當k=2時,二階中心距M2為:

二階中心矩M2和樣本方差的關係為:

顯然,樣本方差比樣本的二階中心矩更大一些,有的教材上也稱樣本方差S為樣本無偏估計,稱二階中心矩為有偏估計。

5)詞序統計量

詞序統計量X(1),X(2),...,X(n)是X1,X2,...,Xn由小到大排序得到的,加圓括號的下標表示排序。

設(X1,X2,...,Xn)是取自總體X的一個樣本,總體X的密度函式為

樣本中取值最小的一個記為,即,稱為最小次序統計量

樣本中取值最大的一個記為,即,稱為最大次序統計量

稱為第i次序統計量,i=1,2,...,n,滿足:

的密度函式分別為,由概率密度函式的定律可得:

次序統計量本質上是基於原始的概率分佈進行了一個函式對映後,得到了一個新的概率分佈函式,那麼這個新的概率分佈函式的形式和原始概率分佈函式是什麼關係呢?我們以指數分佈為例,來具體討論下。

設(X1,X2,...,Xn)是取自總體X的一個樣本,總體X~E(λ),分別求次序統計量的分佈。

總體X~E(λ),所以密度函式為:

分佈函式為:

根據最小次序統計量的概率密度函式分散式可得:

即:

根據最大次序統計量的概率密度函式分散式可得:

3. 常用樣本統計量的性質

由於統計量是樣本(X1,X2,...,Xn)的函式,因此統計量也是隨機變數,因此統計量也同樣具備隨機變數的一些性質。而考察隨機變數的性質,本質上就是用各種統計量來描述隨機變數,所以我們同樣可以用隨機變數的統計量來考察統計量本身,即統計量本身的統計量。

1)樣本均值的統計性質

這個公式要這麼理解,我們將樣本均值作為一個隨機變數,將每次抽樣看做一次觀測,則在多次觀測下,樣本均值本身呈現出的均值和方差的統計規律。

樣本均值的均值還是均值,樣本方差的均值,隨著樣本數n的增大而負向減小。

該性質表明:樣本集可以一定程度上代替總體,實現總體引數估計的目的。因為估計樣本的均值就等於估計出了總體的均值,而隨著樣本數的增加,代表估計誤差的均值方差也是逐漸降低,通俗地說就是樣本越多,引數估計的就越準確

2)樣本方差和二階中心矩的統計性質

上式表明樣本方差的均值還是方差,樣本二階原點矩的均值,隨著樣本數n的增加而緩慢增大,這也所謂有偏估計的由來。

該性質表明:樣本集並不改變總體的方差分佈,對原始的總體來說,樣本既不增加新的資訊熵,也不減少資訊熵

3)樣本均值和方差的依概率收斂性

由獨立同分布情形下的大數定律得到:

所以有:

在大數定理下,不管是有偏估計還是無偏估計,樣本均值和樣本方差最終都會收斂到總體均值和總體方差。

樣本均值和方差的概率收斂性,也是矩估計法和極大似然估計的理論依據,它從理論上證明了基於樣本進行數理統計的合法性和有效性。

4)二項分佈總體下的樣本統計量求解

這個小節我們用一個具體的例子來闡述,如何對統計量的各種概率性質進行定量的分析和計算。

設(X1,X2,...,Xn)是取自總體X的一個樣本,當X~B(1,p)時,分別求下列幾個統計量:

由二項分佈的性質我們知道:

所以有:

0x3:三大分佈 - 正態總體假定下,對樣本隨機變數進行特定統計量函式變換對映後,得到的3種特定概率分佈

標題取得有一些繞,筆者這裡盡力分解解釋一下。

前面說到,樣本是從符合一定概率分佈的總體(任意概率分佈形式)中通過某種取樣方案,取樣抽取得到的。所以我們將樣本看做是一種隨機變數,並計算樣本隨機變數的統計量,例如前面介紹了常用的統計量(例如均值、方差、次序統計量)。但統計量本質也是一種函式變換(例如均值統計量就是一種固定形式的函式),統計量本身又是一種新的隨機變數,所以統計量本身也是有概率分佈函式形式的。 

在所有總體假設中,正態分佈是應用最廣泛的一種概率分佈,根據中心極限定律,所有的概率分佈在大數n情況下,都會趨近於正態分佈,所以我們本章討論正態分佈總體下的抽樣分佈。

雖然正態總體假設下,抽樣隨機變數的統計量形式可以由很多種,但是在學術研究和工業實踐中,使用最多的還是3大分佈,本章我們討論數理統計中用的比較多的3種分佈,包括x2分佈、t分佈、F分佈,它們在正態總體的統計推斷中起著重要作用。

筆者提醒:顯然,數理統計中並不只有這3種概率分佈,理論上說,針對正態總體的抽樣,我們可以用任意的統計量g()函式來得到新的隨機變數,在一些特定的工業場景中,也確實需要我們創造新的統計量函式來應對特定的複雜場景

1. X2分佈

1)概率分佈數學公式

設X1,X2,...,Xn為相互獨立的標準正態分佈隨機變數,都服從N(0,1),稱隨機變數:

所服從的分佈為自由度為n的 χ2 分佈,記作Y ~ χ2(n)。樣本數n越大,自由度越大

χ2(n)分佈的密度函式為:

密度函式的影象如下,它隨著自由度n的不同而有所改變。

2)概率分佈性質

χ2分佈具有如下性質:

  • 當Y ~ χ2(n)時,E(Y)=n,D(Y)=2n
  • χ2分佈的可加性:設X與Y相互獨立,且X~χ2(m),Y~χ2(n),那麼,X+Y ~ χ2(m+n) 

3)x2分佈概率分佈計算舉例

設(X1,X2,X3,X4,X5,X6)為取自標準正態總體N(0,1)的一個樣本,分別求下列三個統計量的分佈:,並求a,b的值。

由樣本的定義可知,X1,X2,X3,X4,X5,X6相互獨立,且都服從N(0,1)分佈,所以根據χ2分佈的定義可知,即自由度為2個χ2分佈。

同理,,即由一個樣本組成的概率分佈為自由度為1的χ2分佈。

,即,又,即

所以由χ2分佈的定義可知:

整理可得,a=1/2,b=1/3。

2. t分佈

1)概率分佈數學公式

設隨機變數X與Y相互獨立,且X~N(0,1),Y~χ2(n)。稱隨機變數:

服從自由度為n的t分佈(學生氏分佈),記為T~t(n)。

T的值域是(-∞,∞),t(n)分佈的概率密度函式為:

t(n)分佈的密度函式影象如下,關於直線t=0對稱:

當n充分大時,其圖形類似於標準正態分佈N(0,1)的密度函式影象,即

t(n)分佈的p分位數記作ta(n),即當T~t(n)時,P(T ≤ ta(n)) = p。

在實際中,當n>45時,對於t分佈的分位數值,就用標準正態分佈的分位數近似,即

3. F分佈

1)概率分佈數學公式

設隨機變數X與Y相互獨立, 且X ~ χ2(m),Y ~ χ2(n),稱隨機變數:

所服從的分佈是自由度為(m,n)的F分佈,記作F ~ F(m,n)。其中m稱為第一自由度,n稱為第二自由度

F(m,n)分佈的概率密度函式為: 

F(m,n)分佈的概率密度函式影象如下:

F(m,n)分佈的p分位數記作Fp(m,n),即當F ~ F (m,n)時,,對一些常用的p,可以通過查表得到,且同時具有如下性質:

2)F分佈概率分佈計算舉例

設隨機變數T~t(n),F=1/T2,求隨機變數F的分佈。

由於T~t(n),設,其中隨機變數X與Y相互獨立,且X~N(0,1),Y~χ2(n)。

則有:

又因為X2~X(1),且X2與Y相互獨立,根據F分佈的公式定義,可得:

F ~ F(n,1),即第一自由度為n,第二自由度為1的F分佈。 

0x4:正態總體假定下的抽樣分佈的統計量性質

統計量是樣本(X1,...,Xn)的函式,它是一個隨機變數。統計量的分佈稱為抽樣分佈。

設(X1,...,Xn )是取自正態總體N(μ,σ2)的一個樣本。下面來研究統計量的性質,我們會看到,有很多分佈性質是需要藉助3大分佈來表達的,這也是3大分佈在數理統計中重要性的體現,同時在後文討論假設檢驗的時候,3大分佈還會頻繁出現。

定理1

  • ,或等價地

關於第二點這裡簡單討論下,從表面上看,是n個正態隨機變數的平方和,但實際上它們不是相互獨立的,它們之間有一個線性約束關係:

這表明,當這n個正態隨機變數中有n-1個取值給定時,剩下一個的取值就跟著唯一確定了。所以其滿足自由度為n-1的X2分佈。

定理2

把結論左端改寫成:

上式右端分子服從N(0,1)

上式右端分母中的

且分子分母兩者相互獨立,因此,由t分佈的定義便知結論成立。

定理3

在很多實際問題中,常常需要比較兩個相互獨立的正態總體的樣本均值差樣本方差比,所以針對兩個相互獨立的正態總體有以下定理。

設(X1,...,Xm )是取自正態總體N(μ1,σ12)的一個樣本,(Y1,...,Yn)是取自正態總體N(μ2,σ22)的一個樣本。 

Relevant Link: 

《概率論與數理統計》同濟大學數學系 第6章 第二節 

 

3. 引數估計 - 概率分佈模型已知時模型引數估計

0x1:引數估計基本定義

在之前的章節中,我們已經討論了總體和樣本的概念,而總體X的分佈永遠是未知的,通常根據實際情況假定服從某種型別的分佈。例如,假定總體X服從正態分佈,那麼刻畫正態分佈的均值μ和方差σ2究竟取什麼值,是引數估計範疇內的知識。

在引數估計的知識推導中,需要用到之前討論過的樣本統計量的概念,樣本統計量和大數定律是引數估計的連線橋樑和理論支撐。

設總體X~f(x;θ),其中 f 的形式已知,θ是未知引數。例如,總體X~B(1,p),其中p未知,這個p即為標記總體分佈的未知引數,簡稱總體引數

總體引數雖然是未知的,但是它可能取值的範圍卻是已知的。稱總體引數的取值範圍為引數空間,記作

如何根據樣本來對未知引數進行估計,這就是數理統計中的引數估計問題。引數估計的形式有兩類:1)一類是點估計;2)一類是區間估計

0x2:引數點估計 - 精確的引數值估計

設總體X的分佈形式已知,但它的一個或多個引數未知,藉助於總體X的一個樣本來估計總體未知引數值的問題,稱為引數的點估計問題

設(X1,X2,...,Xn)是取自總體X的一個樣本,點估計就是依據樣本估計未知引數為某個值,這在數軸上表現為一個點。

具體地說,假定要估計某個未知引數θ,求θ的點估計就是根據樣本(X1,X2,...,Xn)構造一個引數估計統計量,h(X1,...,Xn),在通過抽樣獲得樣本觀測值(x1,...,xn)之後,便用h(x1,...,xn)的值來估計未知引數的值。

稱h(x1,...,xn)為θ的估計量,估計量本質上也是一種隨機變數,記作,也簡記為。根據隨機變數的定義,估計量是引數空間中一個確定的值。

在一個具體問題中,要求未知引數的估計值必須先求出這個未知引數的估計量(即構造一個包含未知引數的概率分佈函式),這裡我們介紹兩種常用的估計方法:1)矩法;2)極大似然法 

1. 矩估計

1)矩估計形式定義

矩估計的思想就是替換思想:用樣本原點矩替換總體原點矩

設總體X的k階原點矩:,樣本的k階原點矩為:,如果未知引數,則θ的矩估計量為。這種估計總體未知引數的方法稱為矩估計。

2)矩估計性質

設一個總體X的均值E(X)=μ,方差D(X)=σ2都未知,(X1,X2,...,Xn)為取自該總體的一個樣本,則是μ的矩估計量,Sn2是σ2的矩估計量,Sn是σ的估計量。

3)矩估計應用例項

設(X1,X2,...,Xn)是取自總體X的一個樣本,求X~B(1,p)和X~E(λ)時,總體未知引數的矩估計量。

X~B(1,p),首先,0-1分佈的期望E(X)=p,所以未知引數記為總體一階原點矩,即p=E(X),應用矩估計的替換思想,用樣本的一階原點矩替代總體一階原點矩,可得p的矩估計量為

X~E(λ),E(X)=1/λ,所以λ=1/E(X),所以λ的矩估計量為

4)求解總體未知引數θ矩估計量一般步驟

  • 1)設k為一正整數,通常取1或者2(即1階或者2階),計算總體的k階原點矩μk = E(Xk) = h(θ)
  • 2)解出θ = h-1(E(Xk)) = h-1(uk),將未知引數轉為為總體k階原點矩的形式
  • 3)用樣本的k階原點矩替換uk,得到θ的矩估計,即將未知引數轉為樣本k階原點矩的形式 

矩估計是一種經典的估計方法,它比較直觀且計算簡單,即使不知道總體分佈型別(矩估計法跳過了總體分佈形式這個環節,直接採取了替換思想),只要知道未知引數與總體各階原點矩的關係並運用替代法,就能得到引數的矩估計量。

2. 極大似然估計

1)極大似然估計形式定義

設總體X有分佈律P(X=x;θ)或密度函式f(x;θ),其中θ為一個未知引數或幾個未知引數組成的向量θ=(θ1,θ2,....,θk),已知 θ∈引數空間。(x1,x2,....,xn)為取自總體X的一個樣本(X1,X2,...,Xn)的觀測值,將樣本的聯合分佈律或聯合概率密度函式看成θ的函式,用L(θ)表示,又稱為θ的似然函式,則似然函式形式如下:

在似然函式的基礎上,稱滿足下列關係式:

的解為θ的極大似然估計,也即讓似然函式取得極大值時的特定引數值θ叫做:θ的極大似然估計量。顯然,極大似然估計量也是一個隨機變數。

筆者插入:極大似然估計是因果論的一種逆向應用,總體未知引數θ是因,樣本的觀測值是果,在所有備選θ中,使得結果發生概率最大的因就是極大似然估計的結果

2)極大似然估計量的求解方式

似然函式L(θ)的極大似然估計問題本質上是一個求極值問題,如果在θ引數較少時,可以用求偏導的方式來求解,同時為了計算方便,一般兩邊取對數,即對數極大似然估計,如下式:

來得到θ的極大似然估計,這是因為L(θ)與lnL(θ)在同一處達到最大值。

當θ引數較多時,一般用矩陣代替偏導數進行計算,其本質是一樣的。

關於極大似然估計的延展討論,讀者朋友朋友可以參閱另一篇文章

3)極大似然估計應用例項

設(X1,...,Xn)是取自總體X的一個樣本,X~P(λ),其中λ未知,λ > 0。

包含總體未知引數λ的似然函式為:

對似然函式兩邊取對數,並對未知引數λ求導數得:

對導數求極值得:

解得:

於是,λ的極大似然估計量為

4)求解總體未知引數θ極大似然計量的一般步驟

  • 1)由總體分佈寫出樣本的聯合分佈律或者聯合密度函式
  • 2)把θ看成自變數,樣本聯合分佈律(或聯合密度函式)看成是θ的函式,記為似然函式L(θ)
  • 3)求似然函式L(θ)的最大值點
  • 4)令L(θ)達到最大值時,θ的取值即為θ的極大似然估計值。

由上面討論可以看出,和矩估計不同的是,求解極大似然估計必須總體X的分佈型別已知,即必須要能夠寫出確定的包含總體未知引數θ的函式形式。極大似然估計的條件比矩估計的條件要苛刻,故極大似然估計一般優於矩估計。或者換句話來說,矩估計並不關心總體分佈的具體形式,直接應用了一個非常強的假設,即任何總體的k階矩都可以用樣本的k階矩代替

3. 點估計優良性評價標準

對於同一個引數,用不同的估計方法求出的估計量可能是不同的,如何定型和定量地評估用哪個估計量更好呢?這個小節會討論3種常用的評判標準。

1)無偏性 - 選矩估計還是極大似然估計

是θ的一個估計量,θ取值的引數空間為Θ,若對任意的θ∈Θ,都有:

則稱θ的無偏估計量,否則稱為有偏估計量。

估計量的無偏性是指,由估計量得到的估計值相對於未知引數真值來說,取某些樣本觀測值時偏大,取另一些樣本觀測值時偏小。

反覆將這個估計量使用多次,就平均來說其均值回到到真值本身,且其偏差為0。

反之,如果估計量不具有無偏性,則無論使用多少次,其平均值也與真值有一定的距離,這個距離就是系統誤差了(即估計量選取本身有問題)。

下面通過一個例子來說明,矩估計和極大似然估計在對特定總體抽樣下,估計統計量的無偏性對比。

設(X1,X2,...,Xn)是取自總體X的一個樣本,總體服從均勻分佈,X~U(0,θ),其中θ>0未知,對比θ的估計量和極大似然估計量的無偏性。

首先,由於E(X)=θ/2,則θ=2E(X),則θ的估計量為,因此該矩估計量的期望為:

因此θ的矩估計量是θ的無偏估計。

另一方面,θ的極大似然估計函式形式(即最大次序統計量)為:

因此該極大似然估計量的期望為:

由上式可以看出,θ的極大似然估計量X(n)不是θ的無偏估計,為θ的有偏估計。

上面只是理論上的分析,但是當樣本量很大時,大數定律會讓問題簡單化,即:

因此:在大量樣本的情況下,X(n)是θ的漸進無偏估計

同時還有一點需要注意的是,對最大次序統計量進行修正,,修正後的統計量滿足期望迴歸真值,即修正後的統計量是無偏估計。

並不是所有的統計量都是可疑修正的,修正後無偏估計在工程實踐中非常有用。

2)有效性 - 無偏估計中繼續擇優

一個未知引數的無偏估計可以有很多(矩估計的各階矩,似然函式極值求導下的多個值),如何在無偏估計中再進行選擇呢?

由於無偏估計的標準是平均偏差為0,所以一個很自然的想法就是每一次估計值與真實值的偏差波動越小越少,偏差波動大小可以用方差來衡量,因此我們用無偏估計的方差大小作為進一步衡量無偏估計優劣的標準,這就是有效性。

是θ的兩個無偏估計,若對任意的θ∈Θ,有下式成立:

則稱有效。

還是繼續沿用上面的均勻分佈的例子,我們已知是θ的無偏估計,且修正後的極大似然估計量也是θ的無偏估計。

且:

,又,所以:

根據函式性質,當n>=2時,,所以修正後的極大似然估計比矩估計更有效。

3)相合性 - 在大數情況收斂於真值的能力

點估計是樣本的樣本,故點估計仍然是一個隨機變數,在樣本量一定的條件下,點估計不可能完全等同於未知引數的真值,但如果隨著樣本量不斷增大,它能夠不斷接近真值,控制在真值附近的強度(概率)越來越大,即無限趨近,那麼這就是一個好的估計,這一性質稱為相合性。

是θ的一個估計量,若對任意ε,有如下公式成立:

則稱估計量具有相合性(一致性),即,這其實就是高數裡收斂的概念,在概率論中叫概率收斂一致性。

相合性被視為對估計的一個很基本的要求,如果一個估計量,在樣本量不斷增大時,它不能把被估引數收斂到任意指定的精度內,那麼這個估計量就是不收斂的(發散的)。通常,不滿足相合性的估計一般不予考慮。 

0x4:區間估計

1. 由一個例子從點估計推導演進到區間估計

上一章討論的引數點估計是基於樣本觀測值計算出一個確定的值去估計總體未知引數。同時上一章也討論到了點估計量的3種評價標準,即無偏性,有效性,相合性。其實這背後已經暗含了一個重要資訊,即引數點估計的結果從概率上是存在誤差的,雖然隨著樣本量的不斷擴大,這個誤差會無限趨近於零,但永遠不可能完全等同於。換句話說,無論是矩估計還是極大似然估計本質上都存在這誤差。

相比於給出精確的點估計值,學者們提出了另一種引數估計方法,即區間估計,即給出一個區間,讓我們能有更大地把握認為真值被包含在這個區間內,這樣的估計就顯得更有實用價值,也更為可信,因為我們把可能出現的偏差也考慮在內了。

用一個具體例子來逐步引入後面對區間估計的形式化定義的討論:

考察某廠生產的水泥構件的抗壓強度(單位:N/cm2),如果在抽樣前已經從歷史上積累的資料中獲悉,該廠生產的水泥構件的抗壓強度 X ~ N(μ,400),其中μ未知 。

抽取了25件樣品進行測試,得到25個資料x1,... ,x25,根據點估計定義,算得:

如果用點估計的觀點看,415應該就是是該廠生產的水泥構件的平均抗壓強度的估計值。確實在判別式模型中,這就是我們所謂的得到一個最優的模型引數估計。

但是由於抽樣的隨機性,μ的真值和樣本的點估計量之間可能總是有偏差的,我們希望得到一個最大偏差d,保證點估計量和真值之間的偏差不超過這個最大偏差的概率達到某個置信概率,即

接著就出現2個互相制衡的約束條件:

  • 1)d究竟取多大才比較合理?  
    • d愈大可信程度也愈高,最極端的情況,當d增大到整個引數空間時,可信度自然也增加到100%了。但區間過寬的估計是沒有實際意義的,畢竟你告訴你的業務方說,我有1%的概率認為這筆交易是一個非法交易,你去阻斷它吧!可想而知後果
    • 反之,d愈小,區間估計就越精確,越收斂,極端情況下,d為零時即退化為點估計。但相應的,可信程度卻降低了
  • 2)這樣給出的區間估計的可信程度如何?
    • 可信度即置信概率,在不同的最大偏差d下,可信度相應調整。顯然,下游業務方是希望這個可信度越高越好。

怎麼調和兩者的矛盾呢?

在抽樣前,區間估計是一個隨機區間,反映區間估計可信程度的量是這個隨機區間覆蓋未知引數μ的概率分佈函式,因此上面2個約束條件可以寫成概率形式:

該式本質上就是點估計量的概率分佈函式

上式中,取不同的d,可以得到對應的概率值。反過來也可以說,取不同的概率值,就可以得到不同的d。

在數理統計中,我們通常取95%這個概率值,我們稱之為置信概率(即能夠接受估計結論的最低概率值),該概率值對應的d得到一個區間【X-d,X+d】我們稱之為置信區間(即誤差的最小下界,即最少包含d的誤差,繼續增加置信概率,d也會相應繼續增大

回到上面這個具體的例子,由於,其中,σ2 = 400 = 202,n = 25,因此,上述概率為:

,其中

如果要求這個概率至少為1-α(稱為置信水平,或置信概率),那麼,由 2Φ(c) - 1 ≥ 1 - α 解得:

上面說到,我們通常取95%作為置信概率,所以當α=0.05,所以有:

於是,置信區間為:

習慣上把這個區間估計通過分位數表達成:

上式清楚地表明瞭這個區間估計的可信程度(即它覆蓋未知引數μ的概率)為1-α

在抽樣後,由樣本觀測值算得,因此,μ的區間估計的觀測值為:

從樣本觀測值提供的資訊,推斷出以95%的可信程度條件下,能夠保證該廠生產的水泥構件的抗壓強度在407.16 ~ 422.84(N/cm2 )之間。

2. 區間估計形式化定義 

設(X1,...,Xn)是取自總體X的一個樣本。對於未知引數θ,給定α,0<α<1。如果存在統計量,使得:

那麼,稱θ的雙側1-a置信區間,稱1-a為置信水平雙側置信下(上)界

上面定義表示雙側1-a置信區間覆蓋未知引數θ的概率至少有1-a。它的直觀意義是:對同一個未知引數θ反覆使用同一個置信區間時,儘管不能保證每一次都,但是,至少有100(1-a)%次使得“”成立。

和引數的點估計統計量一樣,引數的區間估計量也是一個隨機變數,所以稱置信區間的觀測值

3. 求置信區間的一般步驟

置信區間估計的基本思想是:較優的點估計應該屬於置信區間

設未知引數為θ,置信水平為1-α。

  • 步驟1:求出未知引數θ的較優的點估計,一般儘可能使用θ的極大似然估計
  • 步驟2:以為基礎,尋找一個隨機變數(其實就是包含未知引數的概率分佈),它必須包含、也只能包含這個未知引數θ。要求J的分位數能通過查表或計算得到具體數值
  • 步驟3:記J的a/2分位數為a,1-a/2的分位數為b,於是

  •  步驟4:把不等式“a <= J <= b”作等價變形,得到,這個便是一個雙側1-a置信區間

0x5:單正態總體下未知引數的置信區間

引數的區間估計是針對某個已知總體分佈的,例如已知總體分佈為二項分佈,但是其引數未知,需要通過區間估計來得到未知引數分佈的置信區間。

在實際應用環境中,正態總體下未知引數的置信區間是應用價值最大的一類置信區間問題,我們這節來討論當總體分佈為正態分佈時,其未知引數的區間估計問題。

1. 均值和方差的置信區間估計

設(X1,...,Xn)是取自總體X~N(μ,σ2)的一個樣本,置信水平為1-a。

均值μ和方差σ2是否已知對置信區間的估計結果是有影響的,在實際情況中,也存在不同的已知情況,我們分別討論這3種型別。

1)μ未知但σ2已知

當總體分佈為正態分佈,方差已知,但是均值未知時。根據上一節討論確定的置信區間估計的一般步驟,求未知引數μ的置信區間。

μ的極大似然估計是

設統計量J為:

按總體分佈正態標準化定理可知,J~N(0,1),由於,因此 

於是μ的雙側1-α置信區間為:

從上式可以得到兩點資訊:

  • 樣本量n越大,置信區間越窄,極端情況下,n趨近於無窮,則置信區間收斂為μ的極大似然估計是
  • 已知總體的方差越大,置信區間越寬,方差越小,置信區間越窄。

2)μ已知但σ2未知

現在要求未知引數σ2的置信區間。σ2的極大似然估計是:

設統計量J為:

從前面三大分佈的討論中可知,J ~ χ2(n),因此

於是σ2的雙側1-α置信區間為:

3)μ與σ2均未知

未知引數μ的極大似然估計是,令:

按照t分佈定理可得,J ~ t(n-1),由於,因此

於是,μ的雙側1-α置信區間為:

未知引數σ2的極大似然估計是:

設統計量J為:

根據X2分佈定理可得,J ~ χ2(n-1),因此:

於是,σ2的雙側置信區間為:

2. 單正態總體下未知引數置信區間估計案例 

電動機由於連續工作時間過長而會燒壞,今隨機地從某種型號的電動機中選取9臺,並測試它們在燒壞前的連續工作時間(單位:h)。

由樣本資料(x1,... ,x9)算得:

假定該種型號的電動機燒壞前連續工作時間 X ~ N(μ,σ),取置信水平為0.95。

試分別求出μ與σ的雙側置信區間。

1)問題分析

這是一個典型的已知總體概率分佈為正態分佈,同時u和σ引數都未知的引數區間估計問題。

2)置信區間估計

對於具體問題來說,直接套用對應公式即可,u和σ都未知情況下,u的置信區間上下界計算需要涉及到t分佈取值以及S的取值。

查表得t0.975(8)=2.306,同時

因此,μ的雙側95%置信區間的上、下限分別為:

,即[37.66,41.74]

同理套用公式的得σ2的雙側95%置信區間為:

Relevant Link: 

《概率論與數理統計》同濟大學數學系 第7章  

 

4. 假設檢驗

0x1:假設檢驗基本定義

假設檢驗是統計推斷的另一種重要的形式,從數理統計的原理上來理解,筆者認為假設檢驗和引數區間估計本質上是一樣的,都是在計算總體概率分佈密度函式的區間概率。

  • 引數區間估計是已知樣本反推未知引數在總體概率分佈密度函式上的值域區間,不同的值域區間範圍對應了不同的累計概率(即置信度),通過設定不同的置信度閾值,得到對應的值域區間(即置信區間)
  • 假設檢驗是先假設總體分佈的某些未知引數已知(即假設總體已知),在已知總體下得到抽樣概率分佈。不同的值域對應了不同的概率,反之,選定了一個概率值也就得到一個對應的值域區間,假設檢驗就是討論樣本統計量和樣本隨機分佈下的閾值區間之間的關係的一套方法論

可以這麼說,假設檢驗和引數估計的底層本質,都是總體和抽樣統計概率分佈函式的值域或者概率值計算。

在引數估計問題中,常常在抽樣前先對未知總體作出一些假定。例如,假定總體X服從正態分佈,假定某個正態總體的方差為一個已知值,等等。

在數理統計中,把這類關於總體分佈的假定稱為(統計)假設。假設作出了,還需要通過樣本來驗證抽樣前所作出的假設是否與實際相符合, 可以用樣本所提供的資訊來檢查,檢查的方法與過程稱為(統計)檢驗

假設檢驗問題就是研究如何根據抽樣後獲得的樣本來檢驗抽樣前所作出的假設的一套方法論

0x2:硬性假設檢驗 - 基於拒絕域的假設檢驗

從這小節開始,我們先從硬性假設檢驗引入話題,逐步介紹假設檢驗的思想內涵。隱性假設檢驗是筆者在閱讀教材和文獻的時候自己根據理解取的名字。

硬性假設檢驗,是指非白即黑的對立假設,通過設定一個確定的邊界,如果超出邊界就否定假設。

下面通過一個例子來詳細說明。

1. 題目場景分析

某飲料廠在自動流水線上灌裝飲料。在正常生產情形下,每瓶飲料的容量(單位:mL)X服從正態分佈N(500,102)。

經過一段時間之後,為了檢查機器工作是否正常,抽取了9瓶樣品,測得它們的平均值為490mL。

試問此時自動流水線的工作是否正常?即問是否可以認為平均每瓶飲料的容量仍是500mL?假定標準差10mL不變。

2)建立統計假設

在這個問題中,總體X~N(μ,102),總體分佈是正態分佈是已知的,其中引數μ未知。

(x1,...,x9)是取自這個正態總體X的一組樣本觀測值,且已知樣本均值

接下來,我們對實際的總體概率分佈引數建立一正一反兩個假設:

  • “μ=500”:表示自動流水線的工作正常,每個Xi~N(500,102)
  • “μ≠500”:表示自動流水線的工作不正常,每個Xi~N(μ,102),i=1,...,9,其中μ≠500

在數理統計中,把它們看作是兩個對立假設。

習慣上,稱:

  • “μ=500”為原假設(或零假設),記作H0
  • “μ≠500”為備擇假設(或對立假設),記作H1

在假設檢驗問題中,斷言“H0成立”稱為接受H0(或不能拒絕H0)。斷言“H1成立”稱為拒絕H0

3)計算拒絕域 - 統計檢驗 

統計假設建立完之後,為了檢驗H0是否成立,需要基於樣本(X1,...,Xn)計算樣本的統計量。現在已知樣本均值

從表面上看,由於,因此H0不成立。但是,這樣下結論是不能令人信服的。例如,如果,是否還能斷言H0不成立呢?畢竟它只差了一點點呀。

所以一個很自然的思考方式是,我們需要建立一個代表可容忍度的統計標準,在抽樣前先確定一個標準,即事先給定一個常數d,當抽樣後發現時,拒絕H0

至於如何給出這個常數d,這就是接下來統計檢驗要討論的問題。

當H0成立(即μ=500)時,總體X~N(500,102),基於該總體下的抽樣概率分佈為:

所以假設不成立的概率為:

如果要求這個概率不超過α,其中α代表顯著性水平,並記,那麼,由,解得:

一般取,於是,推得當滿足:

時,拒絕H0。把上述標準等價地表達成,當:

時,拒絕H0。這裡的u1-α稱為臨界值,它是最終判斷是拒絕H0還是接受H0的標準。

從上式可以看到,臨界值的是從抽樣統計分佈通過查表法得到的,對於同樣的95%置信度a來說,不同的抽樣樣本得到不同的抽樣概率分佈,最終得到的臨界值也是不同的(本質就是通過概率值反查值域值)。

回到題目,如果取α=0.05,由,及算得:

因此拒絕H0,即可以認為此時自動流水線的工作不正常。

注意!在這種情況下,作出錯誤檢驗判斷的概率為0.05。這就是假設檢驗的核心思想,所有決策皆概率。

0x3:軟性假設檢驗 - p值和p值檢驗法 

上一章節,我們討論了基於樣本隨機變數概率分佈,計算出拒絕域,根據樣本統計量是否超出拒絕域從而決定是否拒絕原假設,這是一種“Hard Hypothesis-Test”。

現在在此基礎上我們提出一個更進一步的問題,樣本統計量超出拒絕域0.01和超出拒絕域100,意味著同樣的拒絕置信嗎?雖然不沒有超過拒絕域但是緊鄰著拒絕域邊緣的情況,要拒絕還是接受呢?

顯然,”Hard Hypothesis-Test“無法完美地回答上述問題,這需要一個柔性的概率性分析的方法論,即告訴我們能以多大的概率接受假設,能以多大的概率拒絕假設。

這就是我們本節要討論的p值檢驗法,它本質上引數區間估計思想是一脈相承的。

1. p值檢驗法定義

假設檢驗的p值是在原假設H0成立的條件下,檢驗統計量Z出現給定觀測值或者比之更極端值的概率,直觀上用以描述抽樣結果與理論假設的吻合程度,因此也稱p值為擬合優度。

例如,正態總體引數檢驗的情況,檢驗統計量為Z,即由樣本資料得到檢驗統計量Z的觀測值為,則p值為:

2. p值檢驗法原則  

p值檢驗法的原則是當p值小到一定程度時拒絕H0

  • 如果p <= a,即檢驗統計量Z的觀測值在拒絕域內,則在顯著性水平a下拒絕原假設H0
  • 如果p > a,則在顯著性水平a下接受原假設H0

通常約定:

  • p <= 0.05:稱結果為顯著,即顯著拒絕
  • p <= 0.01:稱結果為高度顯著,即極大概率應該拒絕

3. p值檢驗法舉例

一美國汽車廠商聲稱他們生產的某節能型汽車耗油量低於29(單位:英里/加侖,mpg),另一汽車廠商表示懷疑,他們抽取了一組同是這一型號的不同汽車的行駛記錄共16條(一組樣本),得到平均耗油量觀測值為28。

假設該節能型汽車的耗油量總體分佈為X~N(μ,9),知道了總體分佈,自然也就得到了抽樣分佈的概率分佈。

現在問在顯著性水平a=0.05假定下,能否接受耗油量低於29的假設?若顯著性水平為a=0.1,則結論會有變化嗎?

在開始解題之前,我們先來分析一下題目問題的本質,我們現在有一個總體概率分佈的假設,同時我們有抽樣樣本,即有抽樣分佈,同時這裡顯著性水平a,代表了概率分佈函式的特定值,不同的a對應了不同的概率值域區間。

解題:

建立假設,給出未知引數μ的估計,則通過正態分佈分位數查表得:

  • 當顯著性水平a=0.05時,0.0918 > 0.05,故不能拒絕H0,認為耗油量不低於29mpg。
  • 當顯著性水平a=0.1時,0.0918 < 0.05,故拒絕H0,認為耗油量低於29mpg。

這個例子告訴我們,在一個較小的顯著性水平(a=0.05)下得到不能拒絕原假設H0的結論,而在一個較大的顯著性水平(a=0.1)下,同一組樣本資料卻得到了相反的結論。

原因在於,當顯著性水平變大時,會導致拒絕域變大,原本落在接受域內的資料可能落到拒絕域內,因而更容易拒絕H0

在實際應用中,可能同一個問題,在不同的顯著性水平假定下得到不同的結論。更常用的做法是,給出p值,由使用者自己決策以多大的顯著性水平來拒絕原假設。p值比拒絕域提供更多的資訊,使用也更靈活。

0x4:單正態總體引數的假設檢驗

上個小節我們舉的例子就已經涉及到單正態總體引數下的假設檢驗了,這個小節我們來形式化討論一下在單正態總體下,假設檢驗的各種形式和定義。

設總體X~N(μ,σ),-∞<μ<∞,σ >0,(X1,...,Xn)是取自正態總體X的一個樣本,顯著性水平為α。

1. μ未知但σ2已知

建立假設:

μ的極大似然估計是,設檢驗統計量:

  • 當H0成立時,的值應較小,等價地,| U | 的觀測值應較小;
  • 當H1成立時,的值較大,可以認為H0不成立,即拒絕H0

於是,拒絕域:

當μ=μ0 時,由顯著性水平a得下式:

解得臨界值,從而拒絕域公式等價為:

即當樣本觀測值(x1,... ,xn)滿足不等式:

時,拒絕H0。通常稱這個檢驗為u檢驗

2. μ已知但σ2未知

如果要檢驗:

那麼,由σ2的極大似然估計構造檢驗統計量 

當,

  • 當H0成立時,即的值應該接近於1,等價的,的觀測值應接近於n
  • 反之,如果根據樣本觀測值(x1,...,xn)發現的值過大或過小地偏離於n,自然可以認為H0不成立,即拒絕H0

於是,拒絕域為:

因為當時,

通常稱這個檢驗為χ2檢驗

3. μ與σ2均未知

1)μ假設檢驗

如果要檢驗:

那麼,在μ的極大似然估計的基礎上,可以構造檢驗統計量:

於是,拒絕域可以表達成,當

時,拒絕H0。通常稱這個檢驗為t檢驗

2)σ2假設檢驗

如果要檢驗:

那麼,在σ2的極大似然估計Sn2的基礎上,可以構造檢驗統計量:

於是,拒絕域可以表達成,當

時,拒絕H0。通常也稱這個檢驗為χ2檢驗。 

0x5:引數估計和假設檢驗的關係

在學習了引數估計和假設檢驗之後,讀者朋友可能會有一個疑問,既然有樣本了,直接基於樣本進行引數估計不就行了嗎?為什麼還需要假設檢驗,假設檢驗最後不還是依靠樣本來估計未知引數嗎?

1. 聯絡

  • 都是根據樣本資訊對總體的數量特徵進行推斷;
  • 都是以抽樣分佈為理論依據,建立在概率論基礎之上的統計推斷;

2. 區別

  • 引數估計是以樣本資料估計總體引數的真值,而假設檢驗是以樣本資料對總體的先驗假設是否成立,以及成立的置信概率作出判斷;
  • 引數估計中的區間估計是以大概率為標準,通常以較大的把握度1-a去保證總體引數的置信區間,而假設檢驗是以小概率原理為標準,通常給定很小的顯著性水平a去檢驗樣本對總體引數的先驗假設是否成立;

3. 同一個問題的不同理論視角

在為總體未知引數構造置信區間時,如果置信水平為95%,則說明總體未知引數位於兩個極限之間的概率達到95%。

而顯著性水平反映了總體未知引數將位於某個極限外的概率,如果顯著性水平為5%,則意味著拒絕域的概率為5%。

假設檢驗和區間估計的關係如下。

假設總體X~N(μ,σ2),μ和σ2均未知,設(X1,X2,....,Xn)是取自總體X的一個樣本,給定置信水平為1-a,顯著性水平為a,則μ的雙側1-a置信區間為:

也可表達成為:

接著考慮如下關於均值μ的雙側檢驗問題:

可得相應的拒絕域為:

對比置信區間和假設檢驗的拒絕域,我們可以發現在單正態總體中,假設σ2未知的情況下,μ的雙側1-a置信區間記為μ的雙側檢驗問題接受域,如下圖所示:

由此可見,假設檢驗和引數區間估計本質上說的是一件事,只是不同的理論視角。

Relevant Link: 

https://zhuanlan.zhihu.com/p/45898097 

 

5. 從擬合優度角度看一元線性迴歸擬合程度

迴歸分析是機器學習中很常用的統計方法,其本質上是利用引數估計與假設檢驗處理一類特定的資料,這類資料往往受到一個或若干個自變數的影響,本章僅討論一個自變數的情形,自變數是普通的變數,但因變數是一個隨機變數,即一元線性迴歸。

0x1:相關關係問題

在實際問題中,常常需要研究變數與變數之間的相互關係。變數之間的相互關係基本上可以分為:

  • 函式關係:確定性關係
  • 相關關係:不確定性關係

1. 函式關係

函式是研究變數之間相互關係的一個有力工具,例如,以速度v作勻速直線運動時,物體經歷的時間t與所經過的路程s之間具有函式關係s=vt。函式關係的基本特徵是,當自變數x的值確定後,因變數y隨之確定

因此,函式實質上是研究變數之間確定性關係的數學工具。但是在實際的資料分析場景中,確定性的關係並不總是存在,從筆者自己的經驗來看,幾乎99%的資料分析場景裡,變數之間的關係都不是確定性的函式關係。關於該話題的討論,可以參閱另一篇文章

2. 相關關係

與此相對的,在客觀世界中變數之間還存在另一種普遍的關係,即不確定性關係。

例如,我們會發現人的身高與體重這兩個變數之間存在某種關係,例如高的人整體上都會重一些,但是這種關係不能用一個函式來表達,因為當人的身高確定後,人的體重並不隨之確定,它們之間存在一種不確定性關係。

變數之間的不確定性關係稱為相關關係

假定要考察自變數x與因變數Y之間的相關關係,由於自變數x給定之後,因變數Y並不隨之確定,它是一個與x有關的隨機變數,它可能取其值域ΩY中的任意某個值,因此,直接研究x與Y之間的相關關係比較困難。因此必須要找一個能夠代表Y的統計量,作為”隨機變數代表“,來和x進行相關關係分析。

注意到均值E(Y)反映了隨機變數Y的平均取值,因此可以將E(Y)統計量作為Y的代表,研究x與E(Y)之間的關係。

隨機變數Y所包含的不確定性通過期望E(Y)被消除,這樣,x與之間便可以得到一種確定性關係,E(Y)成為x的某個函式。

下面通過研究μ(x)這個函式來達到探討x與Y之間相關關係的目的。

0x2:概率論與數理統計理論體系下的一元線性迴歸 - 線性模型的數理統計表達

物理定律告訴我們,彈簧的伸長與拉力之間在理論上存線上性關係。從資料分析的角度,迴歸分析正是為這條物理定律提供了統計依據。我們這節圍繞該問題展開討論。

為了研究彈簧懸掛重量x(單位:g)與長度Y(單位:cm)的關係,通過試驗得到如下一組(6對)資料:

從散點圖看出,自變數x與因變數Y之間肯定不存在函式關係,但是顯然存在相關關係。這6個點雖然不在同一條直線上,但大致在直線L的周圍。

前面說到,在研究x和Y的相關關係的時候,我們一般會給Y選定一個”隨機變數代表“,現在直線L就是隨機變數Y的代表。

記直線L的線性方程為:

y = β0 + β1x。於是,可以把xi與yi之間的關係表示成:

這裡,εi表示試驗誤差,它反映了自變數x與因變數Y之間的不確定性關係,即:

,其中,ε~N(0,σ2),即誤差符合正態分佈(這是高斯在研究正態分佈和隨機誤差時證明的理論)。

對這一組變數(x,Y)作了n次觀測,得到樣本觀測值

站在抽樣前的立場看,這一組樣本可以表示成:

其中,ε1,...,εn是獨立同分布的隨機變數,且都服從N(0,σ)。這個數學模型稱為(一元)線性模型

線上性模型中,自變數x看作一個普通的變數,即它的取值x1,...,xn是可以控制或精確測量的。而因變數Y是一個隨機變數(因為ε是一個隨機變數),即它的取值y1,...,yn在抽樣前是不確定的,即是不可控制的。

線上性模型中,總體Y~N(β0 + β1x,σ2),其中是x的線性函式,這個函式稱為迴歸函式,迴歸函式反映了自變數x與因變數Y之間的相關關係稱β1迴歸係數,稱β2為迴歸偏置

這裡,β0,β1,σ2都是未知引數,-∞ < β0,β1 < ∞,σ2 > 0。

迴歸分析就是要根據樣本(x1,y1),...,(xn,yn)找到β0與β1適當的估計值,從而用經驗公式:

來近似刻畫自變數x與因變數Y之間的相關關係。這個經驗公式稱為經驗迴歸函式

它代表的直線稱為經驗迴歸直線。上圖中的直線L即為經驗迴歸直線。

0x3:最小二乘法

1. 最小二乘形式化定義

如何根據(x1,y1),... ,(xn,yn)來推測經驗迴歸直線L呢?

從直觀上看,這條直線L應最接近已知的n個資料點,通常用

作為任意一條直線y = β0 + β1x與這n個資料點偏離程度的定量指標。

即,希望選取適當的β0,β1使得Q(β0,β1)的值儘量小。用這個方法得到的β0,β1的估計稱為最小二乘估計,這個估計方法稱為最小二乘法

要求Q(β0,β1)的最小值,可以先解下列方程組:

經整理後得到:

稱這個方程組為正則(或正規)方程組,由正則方程組解得:

其中,

於是,β0,β1的最小二乘估計量為:

由β0,β1的最小二乘估計量,得經驗迴歸函式為:

經驗迴歸直線是過n個資料點的幾何重點且斜率為的一條直線

2. 最小二乘估計的性質

分別是β0,β1的無偏估計,且:

0x4:迴歸係數的顯著性檢驗

對於線性迴歸函式來說,迴歸係數β1是一個重要的未知引數,對該引數需要進行假設檢驗:

| β| 的大小反映了自變數x對因變數Y的影響程度,通俗的話說就是,考量是不是在用線性迴歸函式來強擬合。

  • 如果經檢驗拒絕H0,那麼可以認為自變數x對因變數有顯著性影響,稱為迴歸效果顯著;
  • 如果經檢驗不能拒絕H0,即迴歸效果不顯著,那麼原因是多方面的。例如:
    • 可能原來假定E(Y)是x的線性函式β01x這個大前提就有問題,x和Y之間根本就沒有線性關係、
    • 也可能影響因變數Y的自變數不止x一個,甚至還可能x與Y之間不存在必須重視的相關關係,而只是弱線性關係、
    • 也可能是因為取樣過程引入了大量的噪音,導致Y中的噪音方差過大

為了給出迴歸係數的顯著性檢驗的拒絕域,先作一些準備工作,記:

,並稱SS為總偏差平方和

反映了資料中因變數取值的離散程度。記:

,並稱SSR迴歸平方和

得到:

因此,SSR反映了n個值相對於其平均的離散程度,它是由於自變數x取不同的值x1,...,xn 而引起的,因而它在一定程度上反映了迴歸係數β1對資料中因變數取值產生的影響。

現在來討論σ2的點估計。σ2 = D(εi)反映了試驗誤差,在資料中,它通過來表現,其中

是按經驗迴歸函式算得自變數 x = xi 時因變數 y 的值,稱第 i 個殘差

稱:

殘差平方和

殘差平方和反映了n次試驗的累積誤差,它的值恰是Q(β0,β1)的最小值,因為

通常取σ2的估計為 

當n較小時,通常取σ2的估計為 

可以證明是σ2的無偏估計,不具有無偏性,但是σ2的漸進無偏估計。

下面推導殘差平方和的計算公式,由:

得到: 

由殘差平方和的計算公式得到平方和分解公式:

有了上面的準備工作,我們可以開始討論對迴歸係數對顯著性檢驗了。

與SSE相互獨立,且,當β1=0時,

對迴歸係數作顯著性檢驗,有本質上相同的3種常用方法,接下來逐一討論:

1. t檢驗法  

設檢驗統計量:

當β1=0時,,且與SSE相互獨立,因此,

於是在顯著性水平a下,當:

時,拒絕H0

2. F檢驗法

設檢驗統計量:

當β1=0,並且與SSE相互獨立保證與SSE相互獨立,推得F~F(1,n-2)。

於是,在顯著性水平α下,當:

時,拒絕H0。由T2=F,可以看出知F檢驗法本質上與t檢驗法是相同的。

3. 相關係數檢驗法 

設檢驗統計量: 

,稱R為相關係數

類似於隨機變數的相關係數ρ(X,Y),R的取值r反映了自變數x與因變數Y之間的線性相關關係。

於是,在顯著性水平α下,當時,拒絕 H0

相關係數檢驗法是實際問題中被廣泛應用的一種檢驗方法,因為它對x與Y之間線性相關關係給出一個數量表示。

可以證明相關係數檢驗法也與t檢驗法本質上是相同的,因為它們之間存在下列關係:

4. 迴歸係數3種顯著性檢驗舉例

還是沿用前面的彈簧的例子,為了研究彈簧懸掛重量x(單位:g)與長度Y(單位:cm)的關係,通過試驗得到如下一組(6對)資料:

列出計算表格(n=6) 

於是,利用得到:

由上面計算計算表格和樣本均值計算結果得到:

因此,

從而:

同時得到:

將上面帶入t/F/相關係數檢驗公式,得:

3種檢驗的臨界值分別是:

通過查表得到結論,檢驗結論都是拒絕H0,即迴歸效果顯著。這也和我們的直觀判斷是一致的。

筆者思考:損失函式的損失值是從另一個角度,度量了兩個隨機變數之間相關度的概率。損失最小就意味著引數估計的極大似然。可以從資訊理論的統一視角來看它們二者,本質上是同樣的概念

Relevant Link:  

《概率論與數理統計》同濟大學數學系 第8章  

 

相關文章