【人工智慧】各種機器學習的應用場景分別是什麼？

Statsbot資料科學家Daniil Korbut寫過一篇《Machine Learning Algorithms: Which One to Choose for Your Problem》，簡明扼要地介紹了一些比較流行的機器學習演算法的典型應用場景，下面摘錄其中部分內容（由原作者授權論智翻譯）：

線性迴歸和線性分類器

這些可能是機器學習中最簡單的演算法。你有物件（矩陣A）的特徵x1，… xn，以及相應的標籤（向量B）。你的目標是根據某些損失函式（例如，用於迴歸問題的MSE或MAE）找到這些特徵的最優權重w1，… wn和偏置值。在MSE的情況下，有一個來自最小二乘法的數學公式：

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

在實踐中，使用梯度下降來優化更容易，在算力上也更高效。儘管這個演算法很簡單，但是當你有數以千計的特徵時（例如文字分析中的詞袋或者n元語法），它的效果相當不錯。更復雜的演算法面臨過擬合眾多特徵和資料集大小受限的問題，而線性迴歸在這方面表現不錯。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

圖片來源：newsdog.today

為了防止過擬合，我們經常使用lasso和ridge之類的規整化技術。這個想法是，將權重模總和與權重平方總和分別與我們的損失函式相加。你可以閱讀一下文章結尾推薦的關於這兩個演算法的精彩教程。

邏輯迴歸

別因為邏輯迴歸的名稱中帶有“迴歸”一詞而將它與迴歸方法相混淆了，邏輯迴歸實際上是分類演算法。邏輯迴歸進行二元分類，所以標籤輸出是二進位制的。給定輸入特徵向量，定義為輸出為的條件概率。係數是模型想要學習的權重。

640?wx_fmt=jpeg

由於該演算法計算歸屬每個類別的概率，因此應該考慮概率與0或1的偏離程度，並像線上性迴歸中一樣對所有物件進行平均。這樣，損失函式是交叉熵的平均值：

640?wx_fmt=jpeg

不要恐慌，我來讓上面的公式容易理解一點。表示正確答案（0或1），表示預測答案。如果等於0，總和內的第一個加數等於0，根據對數的性質，我們預測的越接近0，第二個加數就越小。y等於1的情況同理。

邏輯迴歸哪裡強？它接受線性組合的特徵，並對其應用非線性函式（sigmoid），所以它是一個非常非常小的神經網路例項！

決策樹

另一個流行和易於理解的演算法是決策樹。決策樹的圖形幫助你看到你在思考什麼，決策樹的引擎要求一個系統的、記錄在案的思考過程。

這個演算法的想法很簡單。在每個節點上，我們選擇所有特徵和所有可能的分割點之中的最佳分割。每個分割都基於極大化某個泛函進行選擇。在分類樹中我們使用交叉熵和基尼指數。在迴歸樹中，我們最小化該區域中的點的目標值的預測變數與給定賦值的平方誤差的總和。

640?wx_fmt=jpeg

是否接受新工作的決策樹（來源：cway-quantlab）

我們在每個節點上遞迴地進行這一流程，直到滿足停止條件時結束。停止條件可以是葉節點的最小數量，也可以是樹高。單獨的決策樹極少使用，但是與其他演算法一起，可以構成非常高效的演算法，例如隨機森林或梯度樹提升（Gradient Tree Boosting）。

K 均值

有時你對標籤一無所知，你的目標是根據物件的特徵來分配標籤。這被稱為聚類任務。

假設你想把所有的資料物件分成k個聚類。你需要從資料中選擇隨機的k個點，並將它們命名為聚類的中心。其他物件的聚類由最近的聚類中心確定。然後，重複轉變聚類中心直到收斂。

640?wx_fmt=jpeg

這是最明晰的聚類技術，但它仍有一些缺點。首先，你應該知道我們尚不知道的聚類的數量。其次，結果取決於在開始時隨機選擇的點，演算法不保證我們達到泛函的全域性最小值。

推薦閱讀中包括了一系列各有優劣的聚類方法。

主成分分析（PCA）

你是否曾在最後一晚或者最後幾個小時準備艱難的考試？你沒有機會記住所有的資訊，但是你想要在可用的時間內最大限度地記住資訊，例如，首先學習多場考試中都會用到的定理，等等。

主成分分析基於同樣的想法。該演算法提供了降維。有時你有範圍很廣的特徵，而且很可能彼此高度相關，並且模型很容易會過擬合大量的資料。那麼，你可以應用PCA。

你應該計算某些向量的投影，以最大化資料的方差，並儘可能少地損失資訊。令人驚訝的是，這些向量正是資料集特徵的相關矩陣的特徵向量。

640?wx_fmt=jpeg

圖片來源：Analytics Vidhya

現在，演算法的思路已經很清楚了：

計算特徵列的相關矩陣，找出該矩陣的特徵向量。
接受這些多維向量，並計算它們上的所有特徵的投影。

新特徵是投影的座標，其數量取決於計算投影的特徵向量的計數。

神經網路

討論邏輯迴歸時，我已經提到了神經網路。有很多不同架構的神經網路，它們在特定的任務中價值很高。更常見的情況，神經網路是一系列的層和元件，其間是線性連線，接著會用到非線性。

卷積深度神經網路在處理影像方面展現出很好的效果。非線性表現為卷積層和池化層，能夠捕捉影像的特徵。

640?wx_fmt=jpeg

圖片來源：smash

處理文字和序列，較好的選擇是迴圈神經網路。 RNN包含LSTM或GRU模組，並且可以使用我們預先知道維度的資料。也許，RNN最著名的應用之一就是機器翻譯。

總結

線性迴歸和線性分類器。儘管看起來簡單，但是它們很善於處理大量特徵（更高階的演算法在這種情況下面臨過擬合問題）。

邏輯迴歸是最簡單的非線性分類器。它基於引數的線性組合和非線性函式（sigmoid），並適用於二元分類。

決策樹經常與人們的決策過程類似，因此易於解釋。但它們通常用於諸如隨機森林或梯度提升之類的組合中。

K 均值是一個更原始，但非常容易理解的演算法，可以完美地成為許多問題的基準。

PCA是一個優秀的選擇，在最小化資訊損失的前提下，降低特徵空間的維度。

神經網路是機器學習演算法的一個新時代，可以應用於許多工，但是神經網路的訓練需要巨大的計算複雜度。

【人工智慧】各種機器學習的應用場景分別是什麼？

線性迴歸和線性分類器

邏輯迴歸

決策樹

K 均值

主成分分析（PCA）

神經網路

總結

推薦閱讀

相關文章