Spss 學習筆記(三)

orchidllh發表於2004-12-13

相關分析和迴歸分析:

       都可以用來考查兩個連續變數間的關係,但反映的是不同的側面。


儘管在提及相關分析的時候,往往考查的都是兩個連續變數的相關關係,但實際上對任何型別的變數,都可以使用相應的指標進行相關關係得考查。

測量相關程度的相關係數很多,各種引數的計算方法及特點各異。

連續變數的相關指標:

       此時一般用積差相關係數,又稱pearson相關係數來表示其相關性的大小,積差相關係數只適用於兩變數呈線性相關時。其數值介於-1~1之間,當兩變數相關性達到最大,散點呈一條直線時取值為-11,正負號表明了相關的方向,如果兩變數完全無關,則取值為零。

       作為引數方法,積差相關分析有一定的適用條件,當資料不能滿足這些條件時,分析者可以考慮使用Spearman等級相關係數來解決問題。

有序變數的相關指標:

       所謂有序的等級資料的相關性/一致性高,就是指行變數等級高的列變數等級也高,反之亦然。如果行變數等級高而列變數等級低,則被稱為不一致。

簡單相關分析:

       當兩個連續變數在散點圖上的散點呈現直線趨勢時,就可以認為二者存在直線相關趨勢,也稱為簡單相關趨勢。Pearson相關係數,也稱乘積相關係數,就是人們定量描述線性相關程度好壞的一個常用指標。

積差相關係數的適用條件:

       在相關分析中首先要考慮的問題就是兩個變數是否可能存在相關關係,如果得到了肯定的結論,那才有必要進行下一步定量的分析。另外還必須注意以下幾個問題:

1、  積差相關係數適用於線性相關的情形,對於曲線相關等更為複雜的情形,積差相關係數的大小並不能代表相關性的強弱。

2、  樣本中存在的極端值對積差相關係數的影響極大,因此要慎重考慮和處理,必要時可以對其進行剔出,或者加以變數變換,以避免因為一兩個數值導致出現錯誤的結論。

3、  積差相關係數要求相應得變數呈雙變數正態分佈,注意雙變數正態分佈並非簡單的要求x變數和y變數各自服從正態分佈,而是要求服從一個聯合的雙變數正態分佈。

以上幾條要求中,前兩者的要求最嚴,第三條比較寬鬆,違反時係數的結果也是比較穩健的。

Spearman相關係數又稱為秩相關係數,使利用兩變數的秩次大小作線性相關分析,對原始變數的分佈不做要求,屬於非引數統計方法。因此它的適用範圍比Pearson相關係數要廣的多。即使原始資料是等級資料也可以計算Spearman相關係數。對於服從Pearson相關係數的資料也可以計算Spearman相關係數,但統計效能比Pearson相關係數要低一些(不容易檢測出兩者事實上存在的相關關係)。

Kendall’s tau-b等級相關係數是用於反映分類變數相關性的指標,適用於兩個變數均為有序分類的情況。

簡單相關和偏相關有一個共同點,就是對所分析的資料背景應當有一定程度的瞭解。在這種情況下進一步進行積差相關係數的計算,以在定量的水平上對這種關聯予以確認。同理,計算偏相關係數也是同樣的情況,只是又在計算積差相關係數的基礎上考慮了其他因素的影響。但有的時候會遇到一種情況,在分析前對資料所代表的專業背景知識瞭解的尚不充分,本身就屬於探索性的研究,這時往往需要先對各個指標或者案例的差異性、相似程度進行考察,以先對資料有一個初步的瞭解,然後再根據結果考慮如何進行深入的分析。

Distinces過程就可以用於計算記錄(或變數)間的距離(或相似程度),根據變數的不同型別,可以有許多距離、相似程度測量指標供使用者選擇。但由於本模組只是一個預分析的過程,因此距離分析並不會給出常用的p值,而只給出各變數/記錄之間的距離大小,以供使用者自行進行判斷相似性。

Distinces過程可以計算距離測量指標或者相似性測量指標,這可以在主對話方塊中加以切換。

距離測量指標,根據不同的資料型別,距離測量指標也有所不同。分為連續性變數、頻數表資料和二分類變數三種。

相似性測量指標時間上就是前述的那些相關分析指標體系,只是更為詳細一些,主要分為劑量資料和二分類變數兩種。

相關和迴歸描述的是兩變數間聯絡的不同側面,簡單迴歸分析就是尋找因變數數值隨自然量變化而變化的直線趨勢,並在散點圖上找到這樣一條直線,相應得方程也就被稱為直線迴歸方程。

通過迴歸方程解釋兩個變數之間的關係會顯得更為精確。除了描述兩個變數之間的關係外,迴歸方程還可以進行預測和控制。

無序分類變數的統計推斷:x2檢驗

主要用於檢驗某無序分類變數各水平在兩組或多組間的分佈是否一致。還可以用於檢驗一個分類變數各水平出現的概率是否等於指定概率;一個連續變數的分佈是否符合某種理論分佈等。其主要用途:

1、  檢驗某個連續變數的分佈是否與某種理論分佈相一致。

2、  檢驗某個分類變數各類的出現概率是否等於制定概率。

3、  檢驗某兩個分類變數是否相互獨立。

4、  檢驗控制某種或某幾種分類因素的作用以後,另兩個分類變數是否相互獨立。

5、  檢驗某兩種方法的結果是否一致。

主成分分析只是一種中間手段,其背景是研究中經常會遇到多指標的問題,這些指標間往往存在一定的相關,直接納入分析不僅複雜,變數間難以取捨,而且可能因多元共線性而無法得出正確結論。主成分分析的目的就是通過線性變換,將原來的多個指標組合成相互獨立的少數幾個能充分反映總體資訊的指標,便於進一步分析。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/51862/viewspace-180557/,如需轉載,請註明出處,否則將追究法律責任。

相關文章