多益網路策劃分析師知識點

蘆金宇發表於2018-09-06

 

迴歸分析中的多重共線性問題

解釋變數理論上的高度相關與觀測值高度相關沒有必然關係,有可能兩個解釋變數理論上高度相關,但觀測值未必高度相關,反之亦然。所以多重共線性本質上是資料問題。

造成多重共線性的原因有一下幾種:

1、解釋變數都享有共同的時間趨勢;

2、一個解釋變數是另一個的滯後,二者往往遵循一個趨勢;

3、由於資料收集的基礎不夠寬,某些解釋變數可能會一起變動;

4、某些解釋變數間存在某種近似的線性關係;

判別:

1、發現係數估計值的符號不對;

2、某些重要的解釋變數t值低,而R方不低

3、當一不太重要的解釋變數被刪除後,迴歸結果顯著變化;

檢驗;

1、相關性分析,相關係數高於0.8,表明存在多重共線性;但相關係數低,並不能表示不存在多重共線性;

2、vif檢驗;

3、條件係數檢驗;

解決方法:

1、增加資料;

2、對模型施加某些約束條件;

3、刪除一個或幾個共線變數;

4、將模型適當變形;

5、主成分迴歸

處理多重共線性的原則:

1、 多重共線性是普遍存在的,輕微的多重共線性問題可不採取措施;

2、 嚴重的多重共線性問題,一般可根據經驗或通過分析迴歸結果發現。如影響係數符號,重要的解釋變數t值很低。要根據不同情況採取必要措施。

3、 如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果;

KMO(Kaiser-Meyer-Olkin)檢驗統計量是用於比較變數間簡單相關係數和偏相關係數的指標。主要應用於多元統計的因子分析。KMO統計量是取值在0和1之間。

當所有變數間的簡單相關係數平方和遠遠大於偏相關係數平方和時,KMO值接近1.KMO值越接近於1,意味著變數間的相關性越強,原有變數越適合作因子分析;當所有變數間的簡單相關係數平方和接近0時,KMO值接近0.KMO值越接近於0,意味著變數間的相關性越弱,原有變數越不適合作因子分析

衡量資料離散程度的指標有:1.異眾比率,用於測度分類資料的離散程度,衡量眾數對一組資料的代表程度;2.四分位差,用於測量順序資料的離散程度,衡量中位數對一組資料的代表程度;3.方差和標準差,用於測度資料離散程度的最常用測度值,衡量均值對一組資料的代表程度.

Pearson相關係數 (Pearson CorrelationCoefficient)是用來衡量兩個資料集合是否在一條線上面,它用來衡量定距變數間的線性關係

相關係數的絕對值越大,相關性越強:相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。

資料分析方法主要包括對比分析法,分組分析,交叉分析,平均分析法等

相關文章