Spss 學習筆記(八)

orchidllh發表於2004-12-13
亂七八糟的摘錄了好多,都貼這裡吧,時間長了,都不太記得了。

這本書裡提到的變數的劃分是:名義測度(定名測度)、序次測度、間距測度、比率測度。

多元迴歸將所研究的變數分為一個被影響的變數(稱為因變數)和一組影響變數(稱為自變數)。要求因變數必須是艱鉅測度以上等級的變數(連續變數),自變數可以是間距測度變數、也可以是名義測度等級的變數(也稱為分類變數)。

因變數和自變數的確定是建立迴歸模型的主要任務。在迴歸模型中,研究人員以規定因變數和自變數的方式確定研究變數之間的因果關係,加以量化描述,並根據實測資料求解這一模型的各個引數,評價迴歸模型是否能很好的擬合實測資料,檢驗各自變數的作用事否符合預先的構想。如果模型可以很好的擬合實測資料,迴歸模型還可以用於預測。

一個自變數的迴歸稱為一元迴歸或簡單迴歸。

確定係數R2

我們想知道,一個解釋性或者預測性的方程效率如何,也就是說,所得到的迴歸方程在多大程度上解釋了因變數的變化,或者說方程對觀察值得擬合程度如何。

R2稱為方程確定係數,它取值在[01]之間。R2越接近1,表明方程中的變數對y的解釋能力越強。通常將R2乘以100%表示迴歸方程解釋y變化的百分比。

當採用曲線擬合資料時,R2可以作為選擇不同模型的標準。當模型中的變數是線性關係時,R2是方程擬合優度的度量。R2越大,說明迴歸方程擬合資料越好,或者說xy線性關係越強。即迴歸方程中的自變數對y的解釋能力越強。當R2等於1時,所有的觀察值都落在擬合平面上。R2越小。說明xy的線性關係越弱,它們之間的獨立性越強,或者說對x的瞭解無助於對y的預測。當R2接近於0時,說明x與幾乎不存線上性關係,但可能存在很強的非線性關係。

但是R2高並不表示模型選擇食正確的,在建立迴歸方程之前,通常應該先觀察散點圖以確定合適的模型,這時的R2才是有意義的。

隨著自變數個數的增加,餘差平方和逐漸減少,R2隨之增大,儘管有的自變數與y線性關係不顯著,將其引入方程後,也會使R2增加。所以,R2是一個受自變數個數與樣本規模之比影響的係數,一般的常規是110以上為好。當這個比值小於15的時候,R2傾向於高估實際的擬合優度。為了避免這種情形,常用調整地R2代替R2

對於R2開平方,就得到多元相關係數R

R又被稱為複相關係數,它的值域為[01]R值越接近1,表明y與所有x之間的線性關係越密切。當R=1時,所有的觀察值都落在擬合平面上;當R等於0時,這時y的線性變化與x的變化無關。

偏確定係數:

方程的確定係數R2表示方程中所有變數解釋y的變化佔y總變化的比例,但是有時我們還想知道方程中的每一個變數對減少餘差平方和的邊際貢獻。這就是偏確定係數,它的值域也在[01]中變化。

偏確定係數可以用於判斷自變數的重要性。如果它的分母改為總餘差平方和,並將分子分母分別除以相應得自由度,即可以用於偏F檢驗,在逐步迴歸和向後迴歸中,它的數值用以確定保留在方程中的變數。

注意偏確定係數是在原有方程的基礎上增加一個新的變數時計算出來的。根據同一原理,還可以計算偏多元確定係數。即在原有方程的基礎上增加多個變數時所計算出來的,表示的是新增的若干變數對y的邊界貢獻。

它在分析一個不可分割或研究人員不願加以分裂的變數組時是非常有用的。比如,在遇到表示多個不同類別的虛擬變數時,雖然它們是多個,但其實代表的是一個多分類的名義測度變數,因此單個計算偏確定係數實際上是意義不大的。

偏相關係數:

對於偏確定係數開方,即得到偏相關係數的絕對值。這裡所說的偏相關是控制其它變數條件下兩個變數之間的相關,因此這一偏相關是有正負之分的,其符號與對應偏回歸係數的符號一致。通常稱控制變數的個數為階。由於簡單相關沒有控制變數,因此也稱為零階相關。

偏相關係數可以檢驗在控制了其它變數之後,某一個變數x是否與y確有相關關係及關係得強弱,因此是研究分析中十分重要的內容。

迴歸方程的檢驗和迴歸係數的推斷統計

一般情況下,我們是通過抽樣樣本觀測資料來推斷總體的情況。因此,樣本中計算的各統計量都服從一定的抽樣誤差。檢驗樣本回歸方程各統計量,就是為了根據樣本統計量來判斷總體各引數的情況。

當迴歸方程檢驗顯著的時候,就可以認為迴歸方程中至少有一個迴歸係數是顯著的,但是並不一定所有的迴歸係數都是顯著的,我們希望在方程中保留最重要的變數,刪除不顯著的變數,為此必須對每個變數的迴歸係數進行檢驗。

在多元迴歸分析中,一個經常遇到的問題是如何判別在所考察的因素中,哪些是影響的主要因素,哪些是次要因素。

直接比較迴歸係數是不行的,因為它們的值分別與各變數的單位有關係。在測量單位不一致的時候,就不存在可比性。如果將自變數和因變數進行標準化,得到的標準化的迴歸方程,得到的迴歸係數稱為標準化迴歸係數。

當自變數之間高度相關時,迴歸方程中的自變數會相互削弱各自對y的邊界影響,使本身的迴歸係數的數值下降而其標準誤差擴大,於是就會出現迴歸方程整體顯著,但是各個自變數都不顯著的現象,稱為多重共線性。這時候,方程的迴歸係數是不可靠的。

當方程中的自變數高度線性相關,出現嚴重的多重共線性時,會對迴歸分析產生如下影響:

1、  迴歸係數的置信區間變寬,係數變得不穩定,即不同樣本計算得到的迴歸係數將會差別很大,從而將由一個樣本得到的迴歸係數推廣到總體時,是不可靠的。

2、  迴歸係數不能反映自變數的獨立作用,因為當一個自變數變化時,會反映其它相關變數的變化,從而該變數的迴歸係數不能很好代表其它變數不變時,該變數的變化對y的影響。

3、  使新增變數產生的迴歸平方和的增量小於方程中未含有與其相關變數時產生的增量,從而使變數的偏確定係數變小,或者變數的邊界作用下降。

4、  。。。。迴歸結果不可靠。

需要指出的是,多重共線性指的是自變數之間的線性相關,當自變數之間非線性相關時,不一定產生嚴重的多重共線性問題。

最優方程的選擇:

為了使迴歸方程中的自變數都變得顯著,同時這個方程的R2又儘可能的大,就會想到找一個最優的迴歸方程,這個方程包含了儘可能奪得對y有較大影響的變數,同時這些變數又都是顯著的。一個直觀的辦法,就是算出所有不同自變數組合的迴歸方程,從中挑選最優者。

儘管頻率表、條形圖和直方圖對資料的概括和描述很有幫助,但是通過各種綜合測量,進一步描述資料也非常重要。

所謂綜合測量,首先要決定資料的測量水平,測量水平分為四類:標稱(定類)、次序(定序)、區間(定距)、比例(定比)。

給資料確定測量水平之後,接著要選擇合適的統計量。綜合統計量有集中趨勢的統計量、離散趨勢的統計量和形狀測量的統計量三種。

集中趨勢的統計量用於內部差異較小的資料,它的統計量主要有均值、中位數、眾數三種。

眾數:最常發生的頻次。通常只用於標稱資料的測量中,不用於次序資料的測量。

中位數:分為奇數的中位數和偶數的中位數。中位數只用於定序變數的測量中。

奇數的中位數:觀察值排序後其一半落在中位數之上,觀察值的另一半落在中位數之下。

偶數的中位數:等於兩個中心值之和除以2所得的商。

均值:均值是所有觀察值的平均值。只用於區間以上(定距以上)資料的測量,不用於標稱資料和次序資料的測量。

均值受遠離中心的那些資料的影響很大,而中位數則不然。

在對分變數(01編碼)中,均值對這類變數有特殊的解釋。

在對稱分佈中,採用集中趨勢測量時,變數的均值、眾數、中位數三者往往很接近。

離散趨勢的測量:

當甲乙兩種分佈可能相同時,應該採用集中趨勢的統計量,當兩種資料分佈有明顯的差別時,應該採用離散趨勢的統計量進行測量。

統計量分為全距和方差。

當兩端點的資料相同時(沒有差異),方差S2=0;當兩端點的資料差異越大,方差S2也越大。

形狀測量的統計量:

形狀測量可以用來檢測一組資料分佈是否呈現對稱分佈。當一組資料為對稱分佈時,絕大多數觀測值都將集中於圖形的中部;當一組資料為非對稱分佈時,則有更多的觀測值偏向分佈的一側,而形成偏態分佈。

對稱分佈的種類:

       鐘形分佈:這種分佈,越遠離中心點,觀測值出現的頻率就越少。

       正態分佈:在自然界和現實生活中,大多數現象都呈現著正態分佈。正態分佈是統計學中最總要的分佈,也是描述各種樣本分佈的基本參考點。當把圖形沿中間線摺疊起來,兩端是重合的:均值、中位數、眾數三者將分別對應得重疊在一起。

非對稱分佈:

偏態分佈:如果曲線的尾部朝向較大的值時,稱為正偏態或右偏態;如果曲線的尾部朝向較小的值時,稱為負偏態或左偏態。

峰態分佈:以標準偏態曲線為基準,當觀測值向中心點的聚集程度較大時,稱為峰態分佈。

尖峰態:比峰態分佈更陡峭、更聚集。與正態分佈相比,更趨向於有更多的觀測值落在兩端。

低峰值:它的峰態分佈的聚集程度,要比正態分佈平坦和分散。

從一張直方圖可看到某種峭度和偏斜度。但要得到景區值,需要通過spss

標準分(z值)的均值為0、標準偏差為1Z值指出一個觀測值有多少標準偏差落在了均值之上或均值之下。

Levene檢驗:

檢驗兩個樣本的資料是否具有相等方差時,雖然可以採用多種檢測方法,但是多數都是基於資料必須服從正態分佈這一假設,否則就失去資料檢驗的意義。Levene檢驗則較少依賴於正態性的假設,因而,它是等方差性檢驗的特別有效的方法。

Spread-level(幅度-水平)檢驗:

幅度-水平圖,是指框圖的高度與各變數的水平或均值之間的關係。

冪轉換:

將每個資料做特定乘方運算,通常被用於穩定方差。當冪指數為零時,則是對資料求自然對數。

確定冪轉換所用的指數,是把每組資料的中位數求對數及框頂(四分位級差)求對數,再將兩種對數值作為座標,畫在座標圖上。

正態性檢驗:

1、  圖示法:

偏態圖

可以描繪這些點偏離直線的實際偏差,這種偏離直線的偏差則構成了偏態圖。如果樣本來自正態總體,這些點應該分佈在一條過原點的水平線上,且沒有任何模式;如果有一個明顯的模式,則意味著總體並非正態分佈。

正態概率圖:

對於正態概率圖,每個觀察值與其來自正態分佈中的期望值組成資料點,這些資料點多數應落在一條直線上。

2、  顯著性水平檢驗法:

Shapiro-wilks檢驗:

當均值與方差均未知而必須從資料中估計時使用。

Lilliefors正態檢驗法:

當顯著性水平significance<0.05時,固然可以拒絕正態假設。但是,當樣本規模比較大時,任何擬合度的檢驗,幾乎都認為有理由拒絕原假設。因此難以找到一個服從正態分佈的資料。所以,對於大規模的樣本資料,不僅要考察觀察值的顯著性水平,而且還必須考察其對正態分佈的實際偏離程度。

集中趨勢分佈的三種較佳的平穩測量:

一、中位數:

1、  中位數

中位數和均數、眾數不同,中位數依賴於資料的主體部分而非極值。因此,它的值不是過分的受某幾個觀察值的影響。

2、  平穩估計量

如果我們對資料來源的總體做出某個假定,則將會求出更好的分佈位置的估計量,這種估計量稱為平穩(或穩健)估計量。

二、修正均值:

1、修正均值

由於均值受極值影響很大,因此,可以通過去掉一些遠離主體資料的極值,進而獲得一個分佈位置的簡單而平穩的估計量。

修正均值的優點:

       與中位數法一樣,此法生成的統計量也不受極值的影響。

       與中位數不同的是:它並非僅僅基於位於中央的單一值(奇數)或兩個數值(偶數),而是基於位於中央的多個數值。

       中位數可作為一個50%的修正平均值。高於或低於中位數的各佔半數的資料將被忽略。

總之,調整後的均值比中位數可更好的描述資料。

M估計

修正平均值,是把個案分為兩組,一組用來計算均值,另一組則作為比較,然後觀測兩組頻次,並分別賦予其權重10,最後計算其加權平均數。

另一種折中的方法,是把極值包括在計算之內,而賦予一個權重較小的。這種方法可以藉助M估計或採用廣義極大似然度估計。

所有常用的M估計在賦予權重的時候,觀察值離分佈中心越遠,權重就越小,反之亦然。

常見的M估計有4種:HuberM估計量、HampelM估計量、TukeyM估計量、AndrewM估計量。

多元方差分析:

主要的用途是同時分析和檢驗不同類別在多個間距測度等級變數上是否存在顯著差別。

當統計分析中需要比較來自兩個子總體的樣本平均值是否有明顯差異時,我們通常應用t檢驗方法。比如,比較男性和女性的平均初婚年齡時,無差異假設為:

       H0:Y1=Y2

即兩個子總體各自的平均值之間無差異。於是我們從兩個子總體中的隨機樣本中計算的平均值作為對兩個子總體的估計,然後在考慮抽樣誤差的條件下進行比較,以決定接受或拒絕無差異假設。

在研究中如果同時有多個子總體時,應用t檢驗需要兩兩加以比較,顯得十分繁瑣。因此,我們往往應用綜合性更強的方差分析方法而代之。方差分析將提出問題的方式進行了變化,其統計假設為,這些子總體的平均值中是否至少有一個與其他子總體的平均值存在顯著差異,表示為無差異假設。

方差分析的思路為,將來自各子總體抽樣樣本匯合在一起,先假設他們來自一個總體,然後將這個匯合樣本的總變動分解為兩個部分。一部分是組內變動,代表著本組內各案例值關於組平均值的分佈離散程度。另一部分時組間變動,代表著各組平均值關於總平均值的分佈離散程度。實際上,組內變動代表了在匯合總體的總變動中不能用分組因素進行解釋的部分,組間變動代表了同一總變動中可以用分組因素加以解釋的部分。將這兩個變動部分除以他們對應得自由度,即得到均方差。組間變動均方差除以組內變動均方差以後的統計量服從F分佈,於是我們可以通過統計值對應得顯著水平決定接受或者拒絕當初的無差異假設。

由於一個完整的多元迴歸分析中包含了相關分析、方差分析、迴歸分析幾個方面的內容,因此研究人員越來越願意使用代表不同分組的虛擬變數(或效應變數)以多元迴歸的形勢進行方差分析,這種以多元迴歸形勢所進行的方差分析不僅可以檢驗同一無差異假設,而且描述各分組平均值與參照組平均值之間的差異,並且對這些差異分別進行t檢驗。

多元方差分析是方差分析方法的進一步擴充套件。無論是單因素方差分析、多因素方差分析、還是多元迴歸分析,它們的一個共同點是他們只涉及到一個因變數,不管他們的自變數有多少,換句話說,就是其分組有多複雜,最後是通過一個指標上的觀測值來反映其所產生的差異和變化的。所以,方差分析或以多元迴歸形勢進行的方差分析是完全等價的。

數學模型:y=x1+x2+x3+…+xk

其中y是因變數,而且必須是間距測度等級的變數;x是表示分組的名義變數;k是分組變數的序號。

當模型中除了分類變數以外,還有其他間距測度等級的自變數時,這一模型就成為協方差分析,其功能是將間距變數作為控制變數的情況下進行方差分析。

相比多元方差分析的一般模型和多元迴歸的一般模型,這兩個名稱關於元的定義是完全不同的。多元迴歸的元是指自變數的數目,而多元方差分析的元時指因變數的數目。

多元方差分析與一般的方差分析類似,用途也是檢驗不同分組是否存在顯著差異。所不同的是,它檢驗是建立在同時考察多個反映變數的觀測值上,而不是僅考察一個反映變數。

多元方差分析的資料要求和假設條件:

多元方差分析是一元方差分析的擴充套件。它的因變數必須為間距測度等級變數,自變數為名義測度等級的分組變數。

由於存在多個因變數,因此對於因變數之間的關係有專門的要求。首先,因變數之間需要存在一定程度的相關。這裡包含兩層意思:

其一是因變數之間應該為線性相關,如果是非線性關係,則多元方差關係會失去發現和檢驗分組之間多元差異的能力。如果已知某些因變數之間存在非線性關係,可以先對因變數進行改造,使非線性關係線性化,然後再用改造得到的變數進行多元方差分析。

其二是變數之間有一定強度的相關,否則不足以發現和檢驗分組之間的多元差異。因變數之間如果線性相關程度太弱,採用多元方差分析將一無所獲。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/51862/viewspace-180562/,如需轉載,請註明出處,否則將追究法律責任。

相關文章