SixSigma工具 | 多重線性迴歸的適用條件

天行健精益生產發表於2022-09-05

多重線性迴歸模型作為一種統計模型,它有嚴格的適用條件,在建模時也需要對這些適用條件進行判斷。但是許多使用者往往忽視了這一點,在使用過程中只是單一的構建模型,最終很有可能得出錯誤的結論。因此在應用多重線性迴歸之前,我們應該瞭解它需要滿足哪些前提條件呢?

天行健六西格瑪顧問總結可用4個詞來概況:線性(Linear),獨立(Independence),正態(Normality),齊性(Equal variance),縮寫為LINE原則。

(1) 線性:各自變數xi與因變數yi之間存線上性關係,可以透過繪製散點圖來進行判斷;

(2) 獨立:因變數yi的取值之間相互獨立,反映到迴歸模型中,實際上就是要求殘差ei之間相互獨立;

(3) 正態性:構建多重線性迴歸模型後,殘差ei服從正態分佈;

(4) 方差齊性:殘差ei的大小不隨xi取值水平的變化而變化,即殘差ei具有方差齊性。

只有準確把握了LINE核心原則,才能夠保證構建符合統計學要求的多重線性迴歸模型。但是,由於多重線性迴歸模型具有一定的“抗偏倚性”,如果只是想透過構建方程來探討自變數和因變數之間的關聯性,而非對因變數進行預測,那麼後面兩個條件可以適當放寬。

此外,還應該注意以下幾點:

(5) 因變數yi為連續性變數,而非分類變數;

(6) 自變數xi可以為連續變數,也可以為分類變數,當自變數為多分類無序變數時,則需要設定啞變數,當為有序變數時,則需要根據等級順序進行賦值。

(7) 對於自變數xi的分佈特徵沒有具體的限定,只要求自變數xi間相互獨立,不存在多重共線性;

(8) 對於樣本量的要求,根據經驗一般要求樣本量應當為納入模型的自變數的20倍以上為宜,比如模型納入5個自變數,則樣本量應當在100以上為宜。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995298/viewspace-2913468/,如需轉載,請註明出處,否則將追究法律責任。

相關文章