詳解五大分類方法及其優缺點,資料探勘師必會!
分類演算法是一種在專家指導下的,有監督的資料探勘方法,其種類很多,包括:
傳統方法:線性判別法、距離判別法、貝葉斯分類器;
現代方法:決策樹、神經網路ANN、支援向量機SVM;
1、決策樹
決策樹學習是以例項為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的例項中,推理出以決策樹表示的分類規則。
2、貝葉斯
貝葉斯(Bayes)分類演算法是一類利用概率統計知識進行分類的演算法,如樸素貝葉斯(Naive Bayes)演算法
這些演算法主要利用Bayes定理,來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。
由於貝葉斯定理的成立,本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中,經常是不成立的,因而其分類準確性就會下降。
為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree Augmented Naive Bayes)演算法,它是在貝葉斯網路結構的基礎上,增加屬性對之間的關聯來實現的。
3、人工神經網路ANN
人工神經網路,是一種應用類似於大腦神經突觸聯接的結構,進行資訊處理的數學模型。
在這種模型中,大量的節點(或稱”神經元”,或”單元”)之間相互聯接構成網路,即”神經網路”,以達到處理資訊的目的。
神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。
•訓練改變了網路節點的連線權的值使其具有分類的功能,經過訓練的網路就可用於物件的識別。
•神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織對映網路)等。
4、kNN(k-近鄰)
k-近鄰(kNN,k-Nearest Neighbors)演算法是一種基於例項的分類方法。
該方法就是找出與未知樣本x,距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為哪一類。
k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較複雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。
5、支援向量機SVM
支援向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論,提出的一種新的學習方法。
支援向量機(SVM,Support Vector Machine)的最大特點是:
•根據結構風險最小化準則,以最大化分類間隔,構造最優分類超平面,來提高學習機的泛化能力,較好地解決了非線性、高維數、區域性極小點等問題。
•對於分類問題,支援向量機演算法根據區域中的樣本,計算該區域的決策曲面,由此確定該區域中未知樣本的類別。
在沒有更多背景資訊給出時,如果追求預測的準確程度,一般用支援向量機(SVM),如果要求模型可以解釋,一般用決策樹。
傳統方法:線性判別法、距離判別法、貝葉斯分類器;
現代方法:決策樹、神經網路ANN、支援向量機SVM;
1、決策樹
決策樹學習是以例項為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的例項中,推理出以決策樹表示的分類規則。
2、貝葉斯
貝葉斯(Bayes)分類演算法是一類利用概率統計知識進行分類的演算法,如樸素貝葉斯(Naive Bayes)演算法
這些演算法主要利用Bayes定理,來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。
由於貝葉斯定理的成立,本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中,經常是不成立的,因而其分類準確性就會下降。
為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree Augmented Naive Bayes)演算法,它是在貝葉斯網路結構的基礎上,增加屬性對之間的關聯來實現的。
3、人工神經網路ANN
人工神經網路,是一種應用類似於大腦神經突觸聯接的結構,進行資訊處理的數學模型。
在這種模型中,大量的節點(或稱”神經元”,或”單元”)之間相互聯接構成網路,即”神經網路”,以達到處理資訊的目的。
神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。
•訓練改變了網路節點的連線權的值使其具有分類的功能,經過訓練的網路就可用於物件的識別。
•神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織對映網路)等。
4、kNN(k-近鄰)
k-近鄰(kNN,k-Nearest Neighbors)演算法是一種基於例項的分類方法。
該方法就是找出與未知樣本x,距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為哪一類。
k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較複雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。
5、支援向量機SVM
支援向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論,提出的一種新的學習方法。
支援向量機(SVM,Support Vector Machine)的最大特點是:
•根據結構風險最小化準則,以最大化分類間隔,構造最優分類超平面,來提高學習機的泛化能力,較好地解決了非線性、高維數、區域性極小點等問題。
•對於分類問題,支援向量機演算法根據區域中的樣本,計算該區域的決策曲面,由此確定該區域中未知樣本的類別。
在沒有更多背景資訊給出時,如果追求預測的準確程度,一般用支援向量機(SVM),如果要求模型可以解釋,一般用決策樹。
相關文章
- 繫結變數及其優缺點變數
- Oracle表分割槽詳解(優缺點)Oracle
- 和程式設計師約會的優點和缺點程式設計師
- 機器學習、資料探勘及其他機器學習
- Python語言的優缺點詳解!Python
- 5 大分散式 ID 生成器優缺點簡單對比分散式
- hash解決衝突的方法優缺點
- Python有哪些資料探勘工具?五大類Python
- 資料庫索引的作用和優點缺點資料庫索引
- Day33:String類及其常用方法詳解
- 資料探勘主要解決四類問題
- 大資料的優缺點有哪些?_光點科技大資料
- 好程式設計師大資料教程分享之Hadoop優缺點程式設計師大資料Hadoop
- 商業智慧BI的五個優缺點
- 【Redis】四種部署模式的介紹及其優缺點Redis模式
- 總結java建立資料夾的4種方法及其優缺點-JAVA IO基礎總結第三篇Java
- Tableau必知必會之巧用 Index 函式檢視資料類別詳情Index函式
- Python語言在資料探勘上非常有優勢,但它唯一的缺點你知道嗎?Python
- 小資料大用場:銀行大資料探勘的五個切入點大資料
- js/javascript 繼承方式主要有哪些?及其優缺點特點JSJavaScript繼承
- IOS資料儲存之CoreData使用優缺點iOS
- ArrayList、Vector、LinkedList的區別及其優缺點? (轉載)
- iPhone Xs/Xs Max、iPhone Xr優缺點詳解 看完秒懂!iPhone
- 資料探勘的資料分析方法
- 資料探勘-層次聚類聚類
- 5大資料經典模型詳解——資料分析師必須掌握大資料模型
- 好程式設計師大資料培訓分享Hadoop技術優缺點程式設計師大資料Hadoop
- RabbitMQ優缺點MQ
- python解決反爬蟲方法的優缺點對比Python爬蟲
- Python 的 3 個主要缺點及其解決方案Python
- 檔案系統與資料庫的優缺點資料庫
- 資料中心代理的優缺點
- 5種常用的機器學習模型及其優缺點,都在這裡了機器學習模型
- 一文掌握5種常用的機器學習模型及其優缺點機器學習模型
- 五大 JAVA Web 框架的優缺點對比JavaWeb框架
- 詳細解讀:不同RAID級別的優缺點對比AI
- Flutter佈局詳解,必知必會Flutter
- 資料探勘之 層次聚類聚類