何時線性迴歸,聚類或決策樹?

【方向】發表於2018-02-20

許多文章簡單的定義了決策,聚性回,以及它的差異,但是他往往忽了在哪裡使用這些演算法。

決策樹,聚類和線性迴歸演算法之間的差異已經在許多文章中得到了闡述(如本文本文)。但是,這些演算法可以使用在什麼地方並不是很清楚。通過這篇博文,我解釋了在哪裡可以使用這些機器學習演算法,以及在為你的需求選擇特定演算法時需要考慮哪些因素。

1.線性迴歸用例:

線性迴歸的一些用途:

1.產品的銷售定價和風險引數。

2.產生對消費者行為,盈利能力和其他商業因素的見解。

3.評估趨勢做出估預測。

4.確定品的營銷效果,定價和促銷。

5.評估金融服務和保險的風險。

6.從汽車測試資料研究發動機的效能。

7.計算生物系統引數之間的因果關系。

8.進行市場調查研究和客戶調查結果分析。

9.天文資料分析。

10.隨著房屋面的增加預測房價。

線性迴歸經常用於一些案例包括股票交易,視訊遊戲,體育博彩和飛行時間預測。

2.決策用例:

決策樹的一些用途:

1.建立客管理平臺,提高首次呼叫解決率,平均時間和客戶滿意率。

2.在財務方面,預測未來的財務並給出這些結果出現的概率。

3.二定價預測物期分析。

4.客願意在定的境下購買給定的品,即離和在兩種。

5.產品規劃,例如,**品公司(Gerber ProductsInc.)使用決策來決定是否繼續為製造玩具PVC

6.一般商決策。

7.貸款批準。

3.叢集用例

聚類演算法的一些用途:

1.客戶細分。

2.利用物理尺度物種行分類。

3.產品分類。

4.電影推薦。

5.在特定區域放置蜂窩塔的位置。

6.考到一個地區最容易生事故的地區的因素,急病房。

7.屬性數量的影響。

3.如何選擇合適的機器學演算法?

現在你已經瞭解了這些機器學習演算法的具體用例,接下來讓我們討論如何根據需要選擇完美的機器學習演算法。

3.1線性迴歸選擇標準:

首先,讓我們來談談分類和迴歸功能、錯誤率、資料相容性、資料質量、計算複雜性、可理解性和透明度等這些因素對演算法的影響。

和回功能:

迴歸模型擁有預測了一個連續變數,例如一天的銷售量或預測城市的溫度。

在建立分類功能時,他們依賴多項式(如直線)來擬合資料集,這是一個真正的挑戰。讓我們想象一下,你想新增另一個資料點,但為了適應它,你需要改變你現有的模型(也可能是閾值本身)。因此,線性迴歸對於分類模型並不好。

錯誤率:

在減少錯誤率方面,線性迴歸比其他演算法弱。

資料相容性:

線性迴歸依賴於連續資料來建立迴歸功能。

資料量:

每個缺失的值將刪除一個可以優化迴歸的資料點。在簡單線性迴歸中,異常值可能會顯著破壞結果。

計算複雜性:

與決策樹和聚類演算法相比,線性迴歸通常在計算上不復雜。複雜的N個訓練樣例和X的順序通常設有落在或者是O(X2),O(XN),或O-(C3)。

易於理解和透明:

它們很容易理解和透明的性質。它們可以用簡單的數學符號表示給任何人,而且可以很容易被理解。

3.2決策樹選擇標準:

決策樹是將物件分類的一種方法。他們是一種監督學習的形式。

聚類演算法可以進一步分類為“急切學習者”,因為他們首先在訓練資料集上建立分類模型,然後實際分類測試資料集。這種決策樹的本質就是要學習並渴望對未見的觀察結果進行分類,這就是為什麼他們被稱為“渴望學習者”的原因。

和回能力:

決策樹與另外兩種型別的任務相容——迴歸以及分類。

計算量:

由於決策樹具有記憶體分類模型,因此它們不會帶來高昂的計算成本,因為它們不需要頻繁的資料庫查詢。

易於理解和透明:

它們被銀行廣泛用於貸款審批,僅僅是因為其基於規則的決策極其透明。

資料量:

決策樹能夠處理高度錯誤和缺失值的資料集。

增量學習:

隨著決策樹分批工作,他們一次對一組訓練觀察進行建模。因此,他們不適合增量學習。

錯誤率:

它們的錯誤率相對較高,但比線性迴歸要好。

資料相容性:

決策樹可以處理具有數字和標稱輸入屬性的資料。

屬性數量的影響:

如果存在複雜的、人為的無形因素,這些演算法往往會產生錯誤的結果。例如,在客戶細分等情況下,很難想象決策樹會返回準確的細分。

3.3演算法選擇標準:

聚類演算法通常用於找出主題在多個不同變數上的相似程度。他們是無監督學習的一種形式。

然而,聚類演算法不是“急切的學習者”,而是直接從訓練例項中學習。他們只有在得到測試觀察分類後才開始處理資料。

和回功能:

聚類演算法不能用於迴歸任務。

資料理能力:

聚類可以處理大多數型別的資料集並忽略缺失的值。

資料集量:

它們與連續和階乘資料值一起工作良好。

易於理解和透明:

與決策樹不同,聚類演算法通常不會帶來相同水平的理解和透明度。通常,他們需要為決策者提供大量的實施級解釋。

計算費用:

聚類演算法通常需要頻繁的資料庫查詢。因此,它們通常可能在計算上是昂貴的。

增量學習:

聚類自然地支援增量學習,並且是線性迴歸和決策樹的首選。

錯誤率:

聚類測試錯誤率更接近於貝葉斯分類器。

屬性數量的影響:

憑藉其處理複雜任意邊界的能力,與決策樹不同,它們可以處理多個屬性和複雜的互動。

我希望上述講解可以幫助你開始使用這些演算法!

本文由@阿里云云棲社群組織翻譯。

文章原標題《decision-trees-vs-clustering-algorithms-vs-linear》

作者:Parikshit Joshi

譯者:虎說八道,審校:。


文章為簡譯,更為詳細的內容,請檢視原文文章


相關文章