何時線性迴歸,聚類或決策樹?
許多文章簡單的定義了決策樹,聚類和線性回歸,以及它們之間的差異,但是他們往往忽視了在哪裡使用這些演算法。
決策樹,聚類和線性迴歸演算法之間的差異已經在許多文章中得到了闡述(如本文和本文)。但是,這些演算法可以使用在什麼地方並不是很清楚。通過這篇博文,我解釋了在哪裡可以使用這些機器學習演算法,以及在為你的需求選擇特定演算法時需要考慮哪些因素。
1.線性迴歸用例:
線性迴歸的一些用途:
1.產品的銷售,定價和風險引數。
2.產生對消費者行為,盈利能力和其他商業因素的見解。
3.評估趨勢,做出估計和預測。
4.確定產品的營銷效果,定價和促銷。
5.評估金融服務和保險的風險。
6.從汽車測試資料研究發動機的效能。
7.計算生物系統引數之間的因果關系。
8.進行市場調查研究和客戶調查結果分析。
9.天文資料分析。
10.隨著房屋面積的增加預測房價。
線性迴歸經常用於一些案例包括股票交易,視訊遊戲,體育博彩和飛行時間預測。
2.決策樹用例:
決策樹的一些用途:
1.建立客戶服務知識管理平臺,提高首次呼叫解決率,平均處理時間和客戶滿意率。
2.在財務方面,預測未來的財務並給出這些結果出現的概率。
3.二項期權定價預測與實物期權分析。
4.客戶願意在給定的環境下購買給定的產品,即離線和在線兩種。
5.產品規劃,例如,**產品公司(Gerber Products,Inc.)使用決策樹來決定是否繼續為製造玩具規劃PVC。
6.一般商業決策。
7.貸款批準。
3.叢集用例
聚類演算法的一些用途:
1.客戶細分。
2.利用物理尺度對物種進行分類。
3.產品分類。
4.電影推薦。
5.在特定區域放置蜂窩塔的位置。
6.考慮到一個地區最容易發生事故的地區的因素,設置緊急病房。
7.屬性數量的影響。
3.如何選擇合適的機器學習演算法?
現在你已經瞭解了這些機器學習演算法的具體用例,接下來讓我們討論如何根據需要選擇完美的機器學習演算法。
3.1線性迴歸選擇標準:
首先,讓我們來談談分類和迴歸功能、錯誤率、資料相容性、資料質量、計算複雜性、可理解性和透明度等這些因素對演算法的影響。
分類和回歸功能:
迴歸模型擁有預測了一個連續變數,例如一天的銷售量或預測城市的溫度。
在建立分類功能時,他們依賴多項式(如直線)來擬合資料集,這是一個真正的挑戰。讓我們想象一下,你想新增另一個資料點,但為了適應它,你需要改變你現有的模型(也可能是閾值本身)。因此,線性迴歸對於分類模型並不好。
錯誤率:
在減少錯誤率方面,線性迴歸比其他演算法弱。
資料相容性:
線性迴歸依賴於連續資料來建立迴歸功能。
資料質量:
每個缺失的值將刪除一個可以優化迴歸的資料點。在簡單線性迴歸中,異常值可能會顯著破壞結果。
計算複雜性:
與決策樹和聚類演算法相比,線性迴歸通常在計算上不復雜。複雜的N個訓練樣例和X的順序通常設有落在或者是O(X2),O(XN),或O-(C3)。
易於理解和透明:
它們很容易理解和透明的性質。它們可以用簡單的數學符號表示給任何人,而且可以很容易被理解。
3.2決策樹選擇標準:
決策樹是將物件分類的一種方法。他們是一種監督學習的形式。
聚類演算法可以進一步分類為“急切學習者”,因為他們首先在訓練資料集上建立分類模型,然後實際分類測試資料集。這種決策樹的本質就是要學習並渴望對未見的觀察結果進行分類,這就是為什麼他們被稱為“渴望學習者”的原因。
分類和回歸能力:
決策樹與另外兩種型別的任務相容——迴歸以及分類。
計算量:
由於決策樹具有記憶體分類模型,因此它們不會帶來高昂的計算成本,因為它們不需要頻繁的資料庫查詢。
易於理解和透明:
它們被銀行廣泛用於貸款審批,僅僅是因為其基於規則的決策極其透明。
資料質量:
決策樹能夠處理高度錯誤和缺失值的資料集。
增量學習:
隨著決策樹分批工作,他們一次對一組訓練觀察進行建模。因此,他們不適合增量學習。
錯誤率:
它們的錯誤率相對較高,但比線性迴歸要好。
資料相容性:
決策樹可以處理具有數字和標稱輸入屬性的資料。
屬性數量的影響:
如果存在複雜的、人為的無形因素,這些演算法往往會產生錯誤的結果。例如,在客戶細分等情況下,很難想象決策樹會返回準確的細分。
3.3聚類演算法選擇標準:
聚類演算法通常用於找出主題在多個不同變數上的相似程度。他們是無監督學習的一種形式。
然而,聚類演算法不是“急切的學習者”,而是直接從訓練例項中學習。他們只有在得到測試觀察分類後才開始處理資料。
分類和回歸功能:
聚類演算法不能用於迴歸任務。
資料處理能力:
聚類可以處理大多數型別的資料集並忽略缺失的值。
資料集質量:
它們與連續和階乘資料值一起工作良好。
易於理解和透明:
與決策樹不同,聚類演算法通常不會帶來相同水平的理解和透明度。通常,他們需要為決策者提供大量的實施級解釋。
計算費用:
聚類演算法通常需要頻繁的資料庫查詢。因此,它們通常可能在計算上是昂貴的。
增量學習:
聚類自然地支援增量學習,並且是線性迴歸和決策樹的首選。
錯誤率:
聚類測試錯誤率更接近於貝葉斯分類器。
屬性數量的影響:
憑藉其處理複雜任意邊界的能力,與決策樹不同,它們可以處理多個屬性和複雜的互動。
我希望上述講解可以幫助你開始使用這些演算法!
本文由@阿里云云棲社群組織翻譯。
文章原標題《decision-trees-vs-clustering-algorithms-vs-linear》
譯者:虎說八道,審校:。
文章為簡譯,更為詳細的內容,請檢視原文文章
相關文章
- 機器學習——線性迴歸-KNN-決策樹(例項)機器學習KNN
- 通用機器學習演算法:線性迴歸+決策樹+Xgboost機器學習演算法
- 從線性模型到決策樹再到深度學習的分位數迴歸模型深度學習
- R語言中使用線性模型、迴歸決策樹自動組合特徵因子水平R語言模型特徵
- 線性迴歸
- 線性迴歸與邏輯迴歸邏輯迴歸
- 線性迴歸——lasso迴歸和嶺迴歸(ridge regression)
- 1.3 - 線性迴歸
- 分類——決策樹模型模型
- 線性迴歸推導
- 4-線性迴歸
- 線性迴歸實戰
- 1維線性迴歸
- 線性迴歸總結
- 多元線性迴歸模型模型
- 對比線性迴歸、邏輯迴歸和SVM邏輯迴歸
- python實現線性迴歸之簡單迴歸Python
- 迴歸樹
- Tensorflow-線性迴歸與手寫數字分類
- spark-mlib線性迴歸Spark
- pytorch實現線性迴歸PyTorch
- TensorFlow實現線性迴歸
- 線性迴歸-程式碼庫
- PRML 迴歸的線性模型模型
- 資料分析:線性迴歸
- 線性迴歸演算法演算法
- 03_利用pytorch解決線性迴歸問題PyTorch
- R:alpha多樣性線性迴歸
- 機器學習 | 線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 線性迴歸—求解介紹及迴歸擴充套件套件
- 線性迴歸-如何對資料進行迴歸分析
- 通俗理解線性迴歸(Linear Regression)
- EVIEWS 簡單線性迴歸 02View
- 一元線性迴歸模型模型
- 機器學習:線性迴歸機器學習
- numpy梯度回傳線性迴歸梯度
- 線性迴歸基礎程式碼
- Python學習筆記-StatsModels 統計迴歸(1)線性迴歸Python筆記
- 決策樹