決策樹、邏輯迴歸、線性迴歸使用時注意事項以及模型過擬合策略

shuaishuai3409發表於2016-06-27

決策樹缺點和注意事項:

  • 決策樹的最大缺點是原理中的貪心演算法。因此它所做的選擇只能是某種意義上的區域性最優選擇。
  • 若目標變數是連續變數,那麼決策樹就不使用了,改用迴歸模型
  • 若某些自變數的類別種類較多,或者自變數是區間型時,決策樹過擬合的危險會增大。這種情況需要分箱或多次模型驗證,確保其具有穩定性。
  • 對區間型變數進行分箱操作時,無論是否考慮了順序因素,都有可能因為分箱喪失了某些重要資訊,尤其是當分箱前的區間型便變數與目標變數有明顯的線性關係時,這種分箱造成的損失更為明顯。

邏輯迴歸(目標變數是二元變數)

  • 建模資料量不能太少,目標變數中每個類別所對應的樣本數量要足夠充分,才能支援建模
  • 排除共線性問題(自變數間相關性很大)
  • 異常值會給模型帶來很大干擾,要剔除。
  • 邏輯迴歸不能處理缺失值,所以之前應對缺失值進行適當處理。

線性迴歸缺點和注意事項

  • 對異常值敏感,應剔除。
  • 只適合處理線性關係,若自變數和因變數間有比較強的非線性關係,應該對自變數進行一定的轉換,比如取對數、開方、取平方根等。
  • 多元線性迴歸應用有一定的前提假設,自變數是確定的變數,而不是隨機變數,自變數間沒有線性相關,隨機誤差呈正太分佈,隨機誤差項具有均值為0以及等方差性。

線性迴歸和邏輯迴歸的區別

  • 線性迴歸針對的目標變數是區間型的,邏輯迴歸針對的目標變數是類別型的
  • 線性迴歸模型的目標變數和自變數之間的關係假設是線性相關的,邏輯迴歸模型中的目標變數和自變數是非線性的
  • 線性迴歸中通常會用假設,對應於自變數x的某個值,目標變數y的觀察值是服從正太分佈的。邏輯迴歸中目標變數y是服從二項分佈0和1或者多項分佈的
  • 邏輯迴歸中不存線上性迴歸中常見的殘差
  • 引數估值上,線性迴歸採用最小平方法,邏輯迴歸採用最大似染法。

過擬合產生原因:

  • 樣本里噪聲資料干擾過大。樣本噪聲大到模型過分記住了噪聲特徵,反而忽略了真實的輸入輸出間的關係。
  • 建模時的邏輯假設應用到模型時不成立了。任何預測模型都是在假設的基礎上才可以使用的,比如業務環節沒有發生顯著變化,資料符合某種分佈等,如果上述假設違反了業務場景,那麼該模型就不能用了。
  • 建模時使用了太多輸入變數。同噪聲資料相似,不分析資料特徵,把所有的變數交給機器去處理,撞大運,一個穩定優良的模型一定要遵循輸入變數的少而精的原則。
  • 若用決策樹,沒有對決策樹的生長進行合理的限制和剪枝,由著決策樹自己生長,可能會過分擬合原始資料,對新資料一塌糊塗。
  • 建模樣本抽取錯誤。包括但不限於樣本數量少,抽樣方法錯誤,抽樣時沒有足夠正確的考慮業務場景和特點,以致於抽出的樣本資料不能足夠有效的代表業務邏輯和業務場景。

放置過擬合的手段:

  • 合理有效抽樣,包括分層抽樣,過抽樣等,從而用不同的樣本去檢驗模型。
  • 交叉檢驗,這是目前業界防止過擬合常用手段。
  • 資料若太少,不要用神經網路模型(深度學習),否則是淺度學習,而且一定要實現篩選輸入變數,不要把所有變數一股腦放進去。
  • -

參考書籍:盧輝《資料探勘與資料化運營實戰- 思路方法技巧與應用》

相關文章