決策樹、邏輯迴歸、線性迴歸使用時注意事項以及模型過擬合策略
決策樹缺點和注意事項:
- 決策樹的最大缺點是原理中的貪心演算法。因此它所做的選擇只能是某種意義上的區域性最優選擇。
- 若目標變數是連續變數,那麼決策樹就不使用了,改用迴歸模型
- 若某些自變數的類別種類較多,或者自變數是區間型時,決策樹過擬合的危險會增大。這種情況需要分箱或多次模型驗證,確保其具有穩定性。
- 對區間型變數進行分箱操作時,無論是否考慮了順序因素,都有可能因為分箱喪失了某些重要資訊,尤其是當分箱前的區間型便變數與目標變數有明顯的線性關係時,這種分箱造成的損失更為明顯。
邏輯迴歸(目標變數是二元變數)
- 建模資料量不能太少,目標變數中每個類別所對應的樣本數量要足夠充分,才能支援建模
- 排除共線性問題(自變數間相關性很大)
- 異常值會給模型帶來很大干擾,要剔除。
- 邏輯迴歸不能處理缺失值,所以之前應對缺失值進行適當處理。
線性迴歸缺點和注意事項
- 對異常值敏感,應剔除。
- 只適合處理線性關係,若自變數和因變數間有比較強的非線性關係,應該對自變數進行一定的轉換,比如取對數、開方、取平方根等。
- 多元線性迴歸應用有一定的前提假設,自變數是確定的變數,而不是隨機變數,自變數間沒有線性相關,隨機誤差呈正太分佈,隨機誤差項具有均值為0以及等方差性。
線性迴歸和邏輯迴歸的區別
- 線性迴歸針對的目標變數是區間型的,邏輯迴歸針對的目標變數是類別型的
- 線性迴歸模型的目標變數和自變數之間的關係假設是線性相關的,邏輯迴歸模型中的目標變數和自變數是非線性的
- 線性迴歸中通常會用假設,對應於自變數x的某個值,目標變數y的觀察值是服從正太分佈的。邏輯迴歸中目標變數y是服從二項分佈0和1或者多項分佈的
- 邏輯迴歸中不存線上性迴歸中常見的殘差
- 引數估值上,線性迴歸採用最小平方法,邏輯迴歸採用最大似染法。
過擬合產生原因:
- 樣本里噪聲資料干擾過大。樣本噪聲大到模型過分記住了噪聲特徵,反而忽略了真實的輸入輸出間的關係。
- 建模時的邏輯假設應用到模型時不成立了。任何預測模型都是在假設的基礎上才可以使用的,比如業務環節沒有發生顯著變化,資料符合某種分佈等,如果上述假設違反了業務場景,那麼該模型就不能用了。
- 建模時使用了太多輸入變數。同噪聲資料相似,不分析資料特徵,把所有的變數交給機器去處理,撞大運,一個穩定優良的模型一定要遵循輸入變數的少而精的原則。
- 若用決策樹,沒有對決策樹的生長進行合理的限制和剪枝,由著決策樹自己生長,可能會過分擬合原始資料,對新資料一塌糊塗。
- 建模樣本抽取錯誤。包括但不限於樣本數量少,抽樣方法錯誤,抽樣時沒有足夠正確的考慮業務場景和特點,以致於抽出的樣本資料不能足夠有效的代表業務邏輯和業務場景。
放置過擬合的手段:
- 合理有效抽樣,包括分層抽樣,過抽樣等,從而用不同的樣本去檢驗模型。
- 交叉檢驗,這是目前業界防止過擬合常用手段。
- 資料若太少,不要用神經網路模型(深度學習),否則是淺度學習,而且一定要實現篩選輸入變數,不要把所有變數一股腦放進去。 -
參考書籍:盧輝《資料探勘與資料化運營實戰- 思路方法技巧與應用》
相關文章
- 線性迴歸與邏輯迴歸邏輯迴歸
- 對比線性迴歸、邏輯迴歸和SVM邏輯迴歸
- 邏輯迴歸模型邏輯迴歸模型
- 機器學習 | 線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 機器學習——線性迴歸-KNN-決策樹(例項)機器學習KNN
- R語言中使用線性模型、迴歸決策樹自動組合特徵因子水平R語言模型特徵
- 邏輯迴歸邏輯迴歸
- 多元線性迴歸模型模型
- Python邏輯迴歸Python邏輯迴歸
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 從線性模型到決策樹再到深度學習的分位數迴歸模型深度學習
- 資料探勘從入門到放棄(一):線性迴歸和邏輯迴歸邏輯迴歸
- PRML 迴歸的線性模型模型
- 線性迴歸——lasso迴歸和嶺迴歸(ridge regression)
- [DataAnalysis]機器學習演算法——線性模型(邏輯迴歸+LDA)機器學習演算法模型邏輯迴歸LDA
- 什麼是機器學習迴歸演算法?【線性迴歸、正規方程、梯度下降、正則化、欠擬合和過擬合、嶺迴歸】機器學習演算法梯度
- 線性迴歸
- 通用機器學習演算法:線性迴歸+決策樹+Xgboost機器學習演算法
- 機器學習(六):迴歸分析——鳶尾花多變數回歸、邏輯迴歸三分類只用numpy,sigmoid、實現RANSAC 線性擬合機器學習變數邏輯迴歸Sigmoid
- 邏輯迴歸為什麼使用sigmod邏輯迴歸
- 一元線性迴歸模型模型
- 邏輯迴歸演算法邏輯迴歸演算法
- 1.3 - 線性迴歸
- 邏輯迴歸:使用Python的簡化方法邏輯迴歸Python
- 機器學習簡介之基礎理論- 線性迴歸、邏輯迴歸、神經網路機器學習邏輯迴歸神經網路
- 對數機率迴歸(邏輯迴歸)原理與Python實現邏輯迴歸Python
- 迴歸樹
- 邏輯迴歸 損失函式邏輯迴歸函式
- 2.3 邏輯迴歸演算法邏輯迴歸演算法
- 4.邏輯迴歸(Logistic Regression)邏輯迴歸
- Tensorflow教程(前三)——邏輯迴歸邏輯迴歸
- 機器學習:邏輯迴歸機器學習邏輯迴歸
- Origin進行多元線性迴歸、指數擬合和非線性曲面擬合
- python實現線性迴歸之簡單迴歸Python
- 機器學習之邏輯迴歸:模型訓練機器學習邏輯迴歸模型
- 實驗11-使用keras完成邏輯迴歸Keras邏輯迴歸
- 線性迴歸推導
- 4-線性迴歸
- 線性迴歸實戰