6分鐘瞭解所有機器學習模型

京东科技开发者發表於2020-09-23

原文網址 : http://www.jiqizhixin.com/articles/2020-09-22-11

機器學習模型

所有機器學習模型都可以分為有監督的或無監督的。如果模型是監督模型，則將其再分類為迴歸模型或分類模型。我們將介紹這些術語的含義以及下面每個類別中對應的模型。

6分鐘瞭解所有機器學習模型

監督學習模型

監督學習涉及基於示例輸入-輸出對學習將輸入對映到輸出的功能。

例如，如果我有一個包含兩個變數的資料集，即年齡（輸入）和身高（輸出），那麼我可以實現一個監督學習模型，以根據一個人的年齡預測其身高。

6分鐘瞭解所有機器學習模型

監督學習示例

重申一下，在監督學習中，有兩個子類別：迴歸和分類。

迴歸模型

在迴歸模型中，輸出是連續的。以下是一些最常見的迴歸模型型別。

-線性迴歸

6分鐘瞭解所有機器學習模型

線性迴歸示例

線性迴歸的概念就是簡單地找到一條最適合資料的直線。線性迴歸的擴充套件包括多元線性迴歸（例如，找到最佳擬合的平面）和多項式迴歸（例如，找到最佳擬合的曲線）。

-決策樹

圖片來自Kaggle

決策樹是一種普遍應用的模型，常用於運籌學、戰略計劃和機器學習。上方的每個正方形稱為一個節點，你擁有的節點越多，決策樹（通常）將越準確。做出決策的決策樹的最後節點稱為樹的葉子。決策樹直觀且易於構建，但在準確性方面稍有不足。

-隨機森林

隨機森林是一種基於決策樹的整體學習技術。隨機森林涉及使用原始資料透過“自舉法”（Bootstrapping）得到的資料集建立多個決策樹，並在決策樹的每個步驟中隨機選擇變數的子集。然後，模型選擇每個決策樹的所有預測的模式。這有什麼意義呢？透過依靠“多數決定”模型（ ‘Majority Wins’ Model），它降低了單個樹出錯的風險。

6分鐘瞭解所有機器學習模型

如上圖所示，如果我們只建立一個決策樹，那麼第三個決策樹，它的預測值將是0。但是，如果我們依靠所有4個決策樹的模式，則預測值為1。這就是隨機森林的力量。

-神經網路

神經網路的視覺表示

神經網路是一種受人腦啟發的多層模型。就像我們大腦中的神經元一樣，上面的圓圈代表一個節點。藍色的圓圈代表輸入層，黑色的圓圈代表隱藏層，綠色的圓圈代表輸出層。隱藏層中的每個節點代表特定輸入的一個函式，最終生成綠色圓圈中的輸出。

分類模型

在分類模型中，輸出是離散的。以下是一些最常見的分類模型型別。

-邏輯迴歸

邏輯迴歸類似於線性迴歸，但用於模擬有限數量結果的機率，通常是兩個。在對結果的機率建模時，使用邏輯迴歸而不是線性迴歸的原因有很多(詳情可檢視：https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression)。本質上，是以輸出值只能在0到1之間（見下圖）的方式建立邏輯方程。

6分鐘瞭解所有機器學習模型

-支援向量機

支援向量機是一種監督分類技術，實際使用上這種方法可能會非常複雜，但在最基本的級別上卻非常直觀。

假設有兩類資料。支援向量機將在兩類資料之間找到一個超平面或邊界，以使兩類資料之間的餘量最大化（參考下圖）。有許多平面可以將兩個類別分開，但是隻有一個平面可以使兩個類別之間的邊距或距離最大化。

6分鐘瞭解所有機器學習模型

-樸素貝葉斯

樸素貝葉斯（Naive Bayes）是資料科學中另一個通用的分類器。它背後的思想是由貝葉斯定理驅動的:

儘管對樸素貝葉斯（Naive Bayes）做出了許多看起來不太實際的假設（因此將其稱為”Naive“），但事實證明，它在大多數情況下都是可執行的，並且構建起來也相對較快。

如果您想了解更多有關它們的資訊，詳情可參見：https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

決策樹，隨機森林，神經網路……這些模型遵循與先前解釋相同的邏輯。唯一的區別是其輸出是離散的而不是連續的。

無監督學習模型

與監督學習不同的是，無監督學習被用來從輸入資料中推斷和發現模式，而不需要參考標記的結果。無監督學習的兩種主要方法是聚類和降維。

6分鐘瞭解所有機器學習模型

聚類模型

6分鐘瞭解所有機器學習模型

圖片來自GeeksforGeeks

聚類是一種無監督學習的技術，它涉及對資料點的分組或聚類。通常用於客戶細分、欺詐檢測和文件分類等場景。

常見的聚類技術包括k均值聚類、分層聚類、均值漂移聚類和基於密度的聚類。儘管每種技術在尋找聚類時都有不同的方法，但它們都旨在實現同一目標。

降維模型

降維是透過獲取一組主變數來減少所考慮的隨機變數數量的過程[2]。簡單地說，就是減少特性集的維數的過程(更簡單地說，就是減少資料集中的特徵數量)。大多數降維技術可以分為特徵消除技術和特徵提取技術。

主成分分析模型（PCA）

從最簡單的意義上講，PCA涉及將較高維度的資料（例如3維）投影到較小的空間（例如2維）。這樣會導致資料維度較低（2維而不是3維），同時將所有原始變數保留在模型中。

結論

當然，如果你想要深入學習和了解某種特定模型，都將面臨更多的複雜問題，但對每一種機器學習演算法的工作原理有一個基本的瞭解，對你的研究一定會有所幫助。

參考文獻：

[1] Stuart J. Russell, Peter Norvig, Artificial Intelligence: A Modern Approach (2010), Prentice Hall

[2] Roweis, S. T., Saul, L. K., Nonlinear Dimensionality Reduction by Locally Linear Embedding (2000), Science

原文連結：https://towardsdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a

深入瞭解機器學習
2018-09-04
機器學習
圖解機器學習 | LightGBM模型詳解
2022-03-10
圖解機器學習模型
機器學習模型
2024-03-30
機器學習模型
深入瞭解Azure 機器學習的工作原理
2022-03-17
機器學習
從零開始學機器學習——瞭解迴歸
2024-09-25
機器學習
圖解機器學習 | 決策樹模型詳解
2022-03-10
圖解機器學習模型
三分鐘瞭解——計算機網路參考模型
2020-10-07
計算機網路模型
一圖看懂所有機器學習概念
2019-08-20
機器學習
一分鐘瞭解深度學習演算法
2024-01-09
深度學習演算法
如何管理機器學習模型
2019-01-12
機器學習模型
欺騙機器學習模型
2018-04-06
機器學習模型
一、你瞭解機器學習技術體系嗎
2020-08-17
機器學習
機器學習(一)：5分鐘理解機器學習並上手實踐
2021-01-16
機器學習
機器學習導圖系列（5）：機器學習模型及神經網路模型
2019-04-11
機器學習模型神經網路
談談機器學習模型的可解釋性
2021-07-29
機器學習模型
【機器學習】乾貨丨機器學習知識點；機器學習模型的“可解釋性”到底有多重要？
2018-03-14
機器學習模型
【機器學習】--隱語義模型
2018-06-12
機器學習模型
機器學習——決策樹模型
2023-12-26
機器學習模型
機器學習之模型選擇
2020-02-14
機器學習模型
機器學習之模型診斷
2020-02-14
機器學習模型
機器學習之模型評估
2019-06-21
機器學習模型
從零開始學機器學習——瞭解分類演算法
2024-10-14
機器學習演算法
【機器學習】帶你3分鐘看完《機器學習實戰》總結篇
2018-03-10
機器學習
關於機器學習你必須瞭解的十個真相
2018-10-03
機器學習
機器學習全解
2018-06-24
機器學習
機器學習【模型，策略，演算法】
2024-11-27
機器學習模型演算法
從零開始學機器學習——瞭解聚類
2024-11-17
機器學習聚類
機器學習模型可解釋性的詳盡介紹
2019-10-30
機器學習模型
瞭解機率知識，機率作為機器學習的底層邏輯
2020-06-24
機器學習
《機器學習_05_線性模型_最大熵模型》
2020-05-18
機器學習模型熵
分步指南：教你在20分鐘內使用機器學習建立語言檢測模型！
2018-04-27
機器學習模型
【火爐煉AI】機器學習028-五分鐘教你打造機器學習流水線
2018-09-10
AI機器學習
5分鐘內看懂機器學習和深度學習的區別
2018-09-12
機器學習深度學習
8分鐘瞭解TDengine的WAL機制
2022-03-28
8分鐘瞭解 TDengine 的 WAL 機制
2022-02-28
機器學習7-模型儲存&無監督學習
2021-01-22
機器學習模型
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
三分鐘，帶你瞭解EOS新資源模型
2020-12-08
模型

6分鐘瞭解所有機器學習模型

監督學習模型

迴歸模型

分類模型

無監督學習模型

聚類模型

降維模型

主成分分析模型（PCA）

結論

相關文章