從線性模型到決策樹再到深度學習的分位數迴歸
假設房地產分析師想要根據家庭、年齡以及就業中心的距離來預測房價。其典型的目標是在給定這些因素的情況下生成最佳房價點估計,其中"最佳"通常是指預測與現實之間的最小平方偏差。
但是,如果他們想要預測的不只是單一的估計,還有其範圍呢?這稱為預測區間,產生它們的一般方法稱為分位數迴歸。在這篇文章中,我將描述這個問題是如何正式化,如何採用六種線性,基於決策樹和深度學習的方法中實現它(在Python中,這是Jupyter記事本),以及它們如何針對真實資料集執行的。
分位數迴歸的最小化分位數損失
正如迴歸最小化平方誤差損失函式以預測單點估計一樣,分位數迴歸最小化了預測某個分位數時的分位數損失。最流行的分位數是中位數或第50%,在這種情況下,分位數損失只是絕對誤差的總和。其他分位數可以給出預測區間的終點。例如,中間80%的範圍由第10%和90%來定義。分位數損失根據評估的分位數而不同,使得更多的負誤差對於更高的分位數更多地受到懲罰,並且更多的正誤差對於更低的分位數更加不利。
在深入研究公式之前,假設我們已經預測了一個真值為零的單點,我們的預測範圍從-1到+1。也就是說,我們的錯誤範圍從-1到+1。該圖表示分位數損失如何隨誤差而變化,具體取決於分位數。
讓我們分別看每一行:
-
中藍色線顯示中位數,它在零附近對稱,其中所有損失均等於零,因為預測是完美的。到目前為止看起來很好:中位數的目的是將預測集合平分,因此我們希望將低估等同於高估。正如我們很快就會看到的那樣,中位數附近的分位數損失是絕對偏差的一半,因此-1和-1都是0.5,0時是0。
-
淺藍色線顯示第10個百分位數,它為負誤差分配較低的損失,對正誤差分配較高的損失。第10個百分位意味著我們認為真實價值低於該預測值的可能性為10%,因此將低估的損失分配給低估,而不是高估是有意義的。
-
深藍色線顯示第90個百分位數,這是與第10個百分位數相反的模式。我們還可以透過分位數來檢視低估和高估的預測。分位數越高,分位數損失函式懲罰低估的次數就越多,懲罰高估的次數就越少。
鑑於這種直覺,這裡是分位數損失公式:
在Python程式碼中,我們可以用最大語句替換分支邏輯:
接下來我們將看看六種方法:最小二乘法(OLS)、線性分位數迴歸、隨機森林、梯度提升、Keras和TensorFlow,並瞭解它們如何與一些真實資料一起工作。
資料
該分析將使用波士頓住房資料集,其中包含代表波士頓地區城鎮的506個觀測值。它包括目標旁邊的13個特徵,自住房屋的中位值。因此,分位數迴歸預測城鎮(非住宅)的比例,其中位值住宅價值低於一個值。
我訓練80%的模型並測試剩餘的20%。為了便於視覺化,第一組模型使用單一特徵:AGE,即1940年之前建造的住戶自用單位的比例。正如我們所預期的那樣,城鎮的較舊房屋擁有較低的價值,儘管這種關係是嘈雜的。
對於每種方法,我們將預測測試集上的第10個,第30個,第50個,第70個和第90個百分位數。
(1)普通最小二乘法(OLS)
雖然最小二乘法(OLS)預測均值而不是中值,但我們仍然可以根據標準誤差和逆正態累積分佈函式(CDF)計算預測區間:
這種基線方法產生以均值為中心的線性和平行分位數(預測為中位數)。經過良好調整的模型將在頂部和底部線之間顯示大約80%的點。請注意,這些點與第一個散點圖不同,因為我們在此處顯示了用於評估樣本外預測的測試集。
(2)線性分位數迴歸
線性模型超出平均值到中位數和其他分位數。線性分位數迴歸預測給定的分位數,放鬆最小二乘法的平行趨勢假設,同時仍然強加線性(它使分位數損失最小化)。這對於statsmodel來說很簡單:
(3)隨機森林
我們首次離開線性模型的是決策樹的一種集合隨機森林。雖然這個模型沒有明確地預測分位數,但我們可以將每棵樹視為一個可能的值,並使用其經驗CDF計算分位數:
https://blog.datadive.net/prediction-intervals-for-random-forests/
在這種情況下,它有點瘋狂,暗示過度擬合。由於隨機森林更加常用於高維資料集,我們將在向模型新增更多功能後返回它們。
(4)梯度提升
另一種基於決策樹的方法是梯度提升,scikit-learn的實現支援顯式分位數預測:ensemble.GradientBoostingRegressor(loss ='quantile',alpha = q)
雖然不像隨機森林那樣跳躍,但它在單一特徵模型上看起來並不好看。
(5)Keras(深度學習)
Keras是一個使用者友好的包裝器,包括TensorFlow的神經網路工具包。因此需要檢視Jupyter記事本或閱讀Sachin Abeywardana的更多資訊,瞭解它是如何工作的。#scrollTo=g7s7Grj-A-Sf
最底層的網路是具有扭結的線性模型(稱為整流線性單元,或ReLU),我們可以在視覺上看到:Keras預測在1940年之前建造的城鎮住宅價值會增加70%,同時在非常低和非常高的房齡。這似乎是基於測試資料擬合的良好預測。
(6)TensorFlow
Keras的一個缺點是必須分別訓練每個分位數。為了利用分位數共有的模式,我們必須轉到TensorFlow本身。請參閱Jupyter筆記本和Jacob Zweig的筆記本以瞭解更多相關資訊。
#scrollTo=g7s7Grj-A-Sf
我們可以在其預測中看到跨越分位數的這種共同學習,其中模型學習共同的扭結而不是每個分位數的單獨的扭結。這看起來是一個很好的奧卡姆風格的選擇。
哪個做得最好?
透過觀察表明深度學習表現良好,線性模型表現良好,基於決策樹的方法表現不佳,但我們能否量化哪個最好?是的,我們可以使用測試集上的分位數損失。
回想一下,分位數損失根據分位數而不同。由於我們計算了五個分位數,因此測試集中的每個觀測值都有五個分位數損失。對所有分位數觀測值求平均證實了視覺直覺:隨機森林的表現最差,而TensorFlow表現最佳。
我們也可以透過分位數來解決這個問題,揭示基於決策樹的方法在第90百分位時表現得特別差,而深度學習在較低的分位數處表現最佳。
較大的資料集提供了更多改進最小二乘法(OLS)的機會
因此,隨機森林對於這個單一特徵的資料集非常糟糕,但這並不是它們的目的。如果我們將其他12個功能新增到波士頓的住宅模型會發生什麼?
基於決策樹的方法捲土重來,最小二乘法(OLS)在改進後,將與其他非決策樹方法之間的差距不斷擴大。
現實世界的問題往往超出預測手段。也許應用程式開發人員不僅對使用者的預期用途感興趣,而且對他們成為超級使用者的可能性感興趣。或者一家汽車保險公司想知道司機在不同門檻下的高價值索賠的可能性。經濟學家可能希望隨機將資訊從一個資料集歸結於另一個資料集,從CDF中挑選以確保適當的變化(我將在後續文章中探討一個例子)。
分位數迴歸對於這些用例中的每一個都很有價值,並且機器學習工具通常可以勝過線性模型,尤其是易於使用的基於樹的方法。那麼嘗試採用自己的資料,讓我知道它是怎麼回事!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545819/viewspace-2217710/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 《精通資料科學:從線性迴歸到深度學習》資料科學深度學習
- 機器學習——線性迴歸-KNN-決策樹(例項)機器學習KNN
- 何時線性迴歸,聚類或決策樹?聚類
- 決策樹、邏輯迴歸、線性迴歸使用時注意事項以及模型過擬合策略邏輯迴歸模型
- 淺談樹模型與整合學習-從決策樹到GBDT模型
- 通用機器學習演算法:線性迴歸+決策樹+Xgboost機器學習演算法
- R語言中使用線性模型、迴歸決策樹自動組合特徵因子水平R語言模型特徵
- 深度學習筆記002-線性迴歸深度學習筆記
- 【深度學習 01】線性迴歸+PyTorch實現深度學習PyTorch
- 分類——決策樹模型模型
- PRML 迴歸的線性模型模型
- 【深度學習基礎-10】簡單線性迴歸(上)深度學習
- 多元線性迴歸模型模型
- 《Spark機器學習》筆記——Spark迴歸模型(最小二乘迴歸、決策樹迴歸,模型效能評估、目標變數變換、引數調優)Spark機器學習筆記模型變數
- 【深度學習基礎-13】非線性迴歸 logistic regression深度學習
- 有監督學習——線性迴歸
- 【機器學習】--線性迴歸從初識到應用機器學習
- 一元線性迴歸模型模型
- Spark 線性迴歸模型異常Spark模型
- 【動手學深度學習】第三章筆記:線性迴歸、SoftMax 迴歸、交叉熵損失深度學習筆記熵
- 決策樹模型(3)決策樹的生成與剪枝模型
- 正規方程法來求解線性迴歸模型引數模型
- 深度學習入門實戰(二)- 用 TensorFlow 訓練線性迴歸深度學習
- 線性迴歸演算法學習總結演算法
- TensorFlow學習筆記(1):線性迴歸筆記
- 資料探勘從入門到放棄(一):線性迴歸和邏輯迴歸邏輯迴歸
- 第十二篇:深入學習高階非線性迴歸演算法 --- 樹迴歸系列演算法演算法
- Python學習筆記-StatsModels 統計迴歸(1)線性迴歸Python筆記
- 機器學習——決策樹模型機器學習模型
- 模式識別與機器學習——迴歸的線性模型模式機器學習模型
- 決策樹學習總結
- 線性迴歸
- 《統計學習方法》——從零實現決策樹
- 【機器學習】--線性迴歸中soft-max從初始到應用機器學習
- 利用TensorFlow實現線性迴歸模型模型
- 用scikit-learn和pandas學習線性迴歸
- 用 Scikit-Learn 和 Pandas 學習線性迴歸
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸