6分鐘瞭解所有機器學習模型

京東科技開發者發表於2020-09-23

所有機器學習模型都可以分為有監督的或無監督的。如果模型是監督模型,則將其再分類為迴歸模型或分類模型。我們將介紹這些術語的含義以及下面每個類別中對應的模型。

6分鐘瞭解所有機器學習模型

監督學習模型

監督學習涉及基於示例輸入-輸出對學習將輸入對映到輸出的功能。

例如,如果我有一個包含兩個變數的資料集,即年齡(輸入)和身高(輸出),那麼我可以實現一個監督學習模型,以根據一個人的年齡預測其身高。

6分鐘瞭解所有機器學習模型

監督學習示例

重申一下,在監督學習中,有兩個子類別:迴歸和分類。

迴歸模型

在迴歸模型中,輸出是連續的。以下是一些最常見的迴歸模型型別。

-線性迴歸

6分鐘瞭解所有機器學習模型

線性迴歸示例

線性迴歸的概念就是簡單地找到一條最適合資料的直線。線性迴歸的擴充套件包括多元線性迴歸(例如,找到最佳擬合的平面)和多項式迴歸(例如,找到最佳擬合的曲線)。

-決策樹

6分鐘瞭解所有機器學習模型

圖片來自Kaggle

決策樹是一種普遍應用的模型,常用於運籌學、戰略計劃和機器學習。上方的每個正方形稱為一個節點,你擁有的節點越多,決策樹(通常)將越準確。做出決策的決策樹的最後節點稱為樹的葉子。決策樹直觀且易於構建,但在準確性方面稍有不足。

-隨機森林

隨機森林是一種基於決策樹的整體學習技術。隨機森林涉及使用原始資料透過“自舉法”(Bootstrapping)得到的資料集建立多個決策樹,並在決策樹的每個步驟中隨機選擇變數的子集。然後,模型選擇每個決策樹的所有預測的模式。這有什麼意義呢?透過依靠“多數決定”模型( ‘Majority Wins’ Model),它降低了單個樹出錯的風險。

6分鐘瞭解所有機器學習模型

如上圖所示,如果我們只建立一個決策樹,那麼第三個決策樹,它的預測值將是0。但是,如果我們依靠所有4個決策樹的模式,則預測值為1。這就是隨機森林的力量。

-神經網路

6分鐘瞭解所有機器學習模型

神經網路的視覺表示

神經網路是一種受人腦啟發的多層模型。就像我們大腦中的神經元一樣,上面的圓圈代表一個節點。藍色的圓圈代表輸入層,黑色的圓圈代表隱藏層,綠色的圓圈代表輸出層。隱藏層中的每個節點代表特定輸入的一個函式,最終生成綠色圓圈中的輸出。

分類模型

在分類模型中,輸出是離散的。以下是一些最常見的分類模型型別。

-邏輯迴歸

邏輯迴歸類似於線性迴歸,但用於模擬有限數量結果的機率,通常是兩個。在對結果的機率建模時,使用邏輯迴歸而不是線性迴歸的原因有很多(詳情可檢視:https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression)。本質上,是以輸出值只能在0到1之間(見下圖)的方式建立邏輯方程。

6分鐘瞭解所有機器學習模型

-支援向量機

支援向量機是一種監督分類技術,實際使用上這種方法可能會非常複雜,但在最基本的級別上卻非常直觀。

假設有兩類資料。支援向量機將在兩類資料之間找到一個超平面或邊界,以使兩類資料之間的餘量最大化(參考下圖)。有許多平面可以將兩個類別分開,但是隻有一個平面可以使兩個類別之間的邊距或距離最大化。

6分鐘瞭解所有機器學習模型

-樸素貝葉斯

樸素貝葉斯(Naive Bayes)是資料科學中另一個通用的分類器。它背後的思想是由貝葉斯定理驅動的:

6分鐘瞭解所有機器學習模型

儘管對樸素貝葉斯(Naive Bayes)做出了許多看起來不太實際的假設(因此將其稱為”Naive“),但事實證明,它在大多數情況下都是可執行的,並且構建起來也相對較快。

如果您想了解更多有關它們的資訊,詳情可參見:https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

決策樹,隨機森林,神經網路……這些模型遵循與先前解釋相同的邏輯。唯一的區別是其輸出是離散的而不是連續的。

無監督學習模型

與監督學習不同的是,無監督學習被用來從輸入資料中推斷和發現模式,而不需要參考標記的結果。無監督學習的兩種主要方法是聚類和降維。

6分鐘瞭解所有機器學習模型

聚類模型

6分鐘瞭解所有機器學習模型

圖片來自GeeksforGeeks

聚類是一種無監督學習的技術,它涉及對資料點的分組或聚類。通常用於客戶細分、欺詐檢測和文件分類等場景。

常見的聚類技術包括k均值聚類、分層聚類、均值漂移聚類和基於密度的聚類。儘管每種技術在尋找聚類時都有不同的方法,但它們都旨在實現同一目標。

降維模型

降維是透過獲取一組主變數來減少所考慮的隨機變數數量的過程[2]。簡單地說,就是減少特性集的維數的過程(更簡單地說,就是減少資料集中的特徵數量)。大多數降維技術可以分為特徵消除技術和特徵提取技術。

主成分分析模型(PCA)

從最簡單的意義上講,PCA涉及將較高維度的資料(例如3維)投影到較小的空間(例如2維)。這樣會導致資料維度較低(2維而不是3維),同時將所有原始變數保留在模型中。

結論

當然,如果你想要深入學習和了解某種特定模型,都將面臨更多的複雜問題,但對每一種機器學習演算法的工作原理有一個基本的瞭解,對你的研究一定會有所幫助。

參考文獻:

[1] Stuart J. Russell, Peter Norvig, Artificial Intelligence: A Modern Approach (2010), Prentice Hall

[2] Roweis, S. T., Saul, L. K., Nonlinear Dimensionality Reduction by Locally Linear Embedding (2000), Science

原文連結:https://towardsdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a

相關文章