小白機器學習基礎演算法學習必經之路（下）

步入量化學習艾莉絲發表於2018-12-07

我們在上文小白機器學習基礎演算法學習必經之路（上）簡述了線性迴歸 (Linear Regression) ，邏輯迴歸 (Logistic Regression) ，決策樹 (Decision Tree) ，支援向量機（SVM），樸素貝葉斯 (Naive Bayes) 現在我們接著繼續學習另五個演算法：

K鄰近演算法（KNN）

k-NN演算法是最簡單的分類演算法，主要的思想是計算待分類樣本與訓練樣本之間的差異性，並將差異按照由小到大排序，選出前面K個差異最小的類別，並統計在K箇中類別出現次數最多的類別為最相似的類，最終將待分類樣本分到最相似的訓練樣本的類中。與投票(Vote)的機制類似。

k-近鄰演算法是基於例項的學習，使用演算法時我們必須有接近實際資料的訓練樣本資料。

優點：精度高，對異常值不敏感，無資料輸入假定
缺點：時間和空間複雜度高，無法獲取樣本特徵
資料：數值型和標稱型

k-均值演算法（K-means）

KMeans演算法是典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的物件組成的，因此把得到緊湊且**的簇作為最終目標。

K個初始聚類中心點的選取對聚類結果具有較大的影響，因為在該演算法第一步中是隨機地選取任意k個物件作為初始聚類中心，初始地代表一個簇。該演算法在每次迭代中對資料集中剩餘的每個物件，根據其與各個簇中心的距離賦給最近的簇。當考查完所有資料物件後，一次迭代運算完成，新的聚類中心被計算出來。

基本步驟（1）從 n個資料物件任意選擇 k 個物件作為初始聚類中心；

（2）根據每個聚類物件的均值（中心物件），計算每個物件與這些中心物件的距離；並根據最小距離重新對相應物件進行劃分；

（3）重新計算每個（有變化）聚類的均值（中心物件）；

（4）計算標準測度函式，當滿足一定條件，如函式收斂時，則演算法終止；如果條件不滿足則回到步驟（2）。

隨機森林 (Random Forest)

隨機森林是指利用多棵決策樹對樣本進行訓練並預測的一種演算法。也就是說隨機森林演算法是一個包含多個決策樹的演算法，其輸出的類別是由個別決策樹輸出的類別的眾樹來決定的。在Sklearn模組庫中，與隨機森林演算法相關的函式都位於整合演算法模組ensemble中，相關的演算法函式包括隨機森林演算法（RandomForestClassifier）、袋裝演算法（BaggingClassifier）、完全隨機樹演算法（ExtraTreesClassifier)、迭代演算法（Adaboost）、GBT梯度Boosting樹演算法（GradientBoostingClassifier）、梯度迴歸演算法（GradientBoostingRegressor）、投票演算法（VotingClassifier）。

隨機森林的特點

它有如下幾個特點：在當前所有演算法中，具有極好的準確率能夠有效地執行在大資料集上能夠處理具有高維特徵的輸入樣本，而且不需要降維能夠評估各個特徵在分類問題上的重要性在生成過程中，能夠獲取到內部生成誤差的一種無偏估計對於預設值問題也能夠獲得很好得結果

實際上，隨機森林的特點不只有這六點，它就相當於機器學習領域的Leatherman（多面手），你幾乎可以把任何東西扔進去，它基本上都是可供使用的。在估計推斷對映方面特別好用，以致都不需要像SVM那樣做很多引數的除錯。

GradientBoost和Adaboost演算法

AdaBoost分類器就是一種元演算法分類器，adaBoost分類器利用同一種基分類器（弱分類器），基於分類器的錯誤率分配不同的權重引數，最後累加加權的預測結果作為輸出。

adaboost演算法的一些實際可以使用的場景：

1）用於二分類或多分類的應用場景

2）用於做分類任務的baseline無腦化，簡單，不會overfitting，不用調分類器

3）用於特徵選擇（feature selection)

4）Boosting框架用於對badcase的修正

只需要增加新的分類器，不需要變動原有分類器

由於adaboost演算法是一種實現簡單，應用也很簡單的演算法。Adaboost演算法通過組合弱分類器而得到強分類器，同時具有分類錯誤率上界隨著訓練增加而穩定下降，不會過擬合等的性質，應該說是一種很適合於在各種分類場景下應用的演算法。

GradientBoost演算法

和Adaboost不同，Gradient Boosting 在迭代的時候選擇梯度下降的方向來保證最後的結果最好。損失函式用來描述模型的“靠譜”程度，假設模型沒有過擬合，損失函式越大，模型的錯誤率越高如果我們的模型能夠讓損失函式持續的下降，則說明我們的模型在不停的改進，而最好的方式就是讓損失函式在其梯度方向上下降。

下面這個流程圖是Gradient Boosting的經典圖了，數學推導並不複雜，只要理解了Boosting的思想，不難看懂

這裡是直接對模型的函式進行更新，利用了引數可加性推廣到函式空間。訓練F0-Fm一共m個基學習器，沿著梯度下降的方向不斷更新ρm和am。

完.......

【機器學習基礎】神經網路/深度學習基礎
2021-11-05
機器學習神經網路深度學習
機器學習基礎——整合學習1
2021-03-16
機器學習
機器學習&深度學習之路
2018-06-07
機器學習深度學習
【機器學習基礎】卷積神經網路（CNN）基礎
2021-11-25
機器學習卷積神經網路CNN
ML-機器學習基礎
2019-02-27
機器學習
【機器學習基礎】——梯度下降
2021-10-12
機器學習梯度
機器學習基礎總結
2023-02-07
機器學習
零基礎Python學習路線，小白的進階之路！
2018-12-04
Python
【機器學習基礎】無監督學習（1）——PCA
2022-01-22
機器學習PCA
【機器學習基礎】半監督學習簡介
2021-12-23
機器學習
【機器學習基礎】關於深度學習的Tips
2021-11-12
機器學習深度學習
深度學習機器學習基礎-基本原理
2023-01-17
深度學習機器學習
【機器學習基礎】無監督學習（3）——AutoEncoder
2022-05-07
機器學習
初學機器學習必備10大演算法
2018-05-11
機器學習演算法
《機器學習實戰》第一章機器學習基礎
2018-11-25
機器學習
Hadoop學習之路（六）HDFS基礎
2019-01-23
Hadoop
Python學習之路—Python基礎（一）
2020-12-02
Python
《機器學習數學基礎》已開源，附完整下載！
2020-02-04
機器學習
機器學習數學複習 - 1.概率論基礎
2021-06-28
機器學習
10個經典C語言演算法—零基礎小白必學
2018-06-08
C語言演算法
機器學習基礎知識1
2020-10-24
機器學習
機器學習基礎04DAY
2023-03-25
機器學習
機器學習基礎09DAY
2023-03-31
機器學習
機器學習基礎05DAY
2023-03-26
機器學習
機器學習開發流程基礎
2021-04-22
機器學習
機器學習基礎知識梳理，新手必備！（附連結）
2019-04-24
機器學習
微控制器小白學習之路(十二)---直流電機的控制
2018-08-20
機器學習之小白入門
2020-02-27
機器學習
掌握資料科學和機器學習數學基礎必備的7本書
2018-04-27
資料科學機器學習
沒有Python基礎，如何學習用Python寫機器學習
2024-03-27
Python機器學習
K近鄰演算法：機器學習萌新必學演算法
2020-10-30
演算法機器學習
機器學習演算法學習筆記
2023-03-13
機器學習演算法筆記
機器學習經典演算法之EM
2019-07-06
機器學習演算法
機器學習經典演算法之KNN
2019-06-30
機器學習演算法KNN
經典機器學習演算法總結
2023-01-13
機器學習演算法
0基礎小白如何學習Python技術?
2020-09-22
Python
演算法基礎學習2
2021-11-27
演算法
機器學習基礎-資料降維
2019-05-02
機器學習