Scikit-Learn機器學習實踐——垃圾簡訊識別

州的先生發表於2019-03-02

原文網址 : https://flycode.co/archives/290060

前不久，我們使用NLTK的貝葉斯分類模型垃圾對簡訊資料進行機器學習的垃圾簡訊識別。

其實除了使用NLTK，我們還可以使用Scikit-Learn這個整合了諸多機器學習演算法的模組進行上述的實驗。

Scikit-Learn的API設計非常合理和高效，對於初觸機器學習的同學來說非常友好，值得大家嘗試和使用。本人也經常在實驗環境和工作環境中使用scikit-learn進行機器學習的建模。

下面，我們就使用scikit-learn模組，通過其樸素貝葉斯演算法API對簡訊資料進行一次垃圾簡訊的識別。

匯入簡訊資料

首先，我們需要對原始的簡訊資料進行處理，匯入pandas模組和jieba模組。

pandas模組用於讀取和處理資料，jieba模組用於對簡訊進行分詞。

接著，我們匯入簡訊資料：

檢視一下部分簡訊資料：

其中第一列為原始序號，第二列為簡訊的分類，0表示正常簡訊，1表示垃圾簡訊，第三列就是簡訊的正文。
我們只需要關注第二和第三列。

檢視一下這個簡訊資料集的形狀：

一共有七十餘萬條簡訊。

對簡訊進行分詞

文字的分類，基本上是基於詞袋模型，也就是一個文字中包含多少詞以及各個詞的頻率。對於英文而已，其天生的句子空格可以很容易的分割單詞出來，但是中文就得先進行分詞處理，也就是將一個完整的中文分割為一個一個詞。
在Python中，有第三方模組——jieba，結巴分詞來提供對中文的分詞。
我們使用jieba對簡訊的內容進行分詞。

得到的結果如下：

提取特徵和目標資料

我們需要分別提取出特徵資料和目標資料，特徵資料表示輸入的資料，目標資料則是輸入資料的屬性，在這裡，簡訊內容就是特徵資料，簡訊的分類就是目標資料。

X中都是特徵資料，y中都是目標資料，便於下一步的分割訓練集和測試集。

分割訓練集和測試集

使用sklearn的分割模組對訓練集和測試集進行分割：

提取文字特徵

從文字中提取特徵，需要利用到scikit-learn中的CountVectorizer()方法和TfidfTransformer()方法。
CountVectorizer()用於將文字從標量轉換為向量，TfidfTransformer()則將向量文字轉換為tf-idf矩陣。

建立樸素貝葉斯分類器並進行訓練

樸素貝葉斯是一個很經典同時準確率也很高的機器學習演算法，用它來做分類器可以得到很好的效果。

在scikit-learn中，每一個模型都會有一個fit()方法用來模型訓練，有一個predict()方法用來模型預測，在此我們就傳入了訓練特徵和訓練目標進行了模型的訓練。

模型測試

模型訓練好之後，我們可以使用模型的predict()方法來測試與預測資料。
在這之前，我們還得進行另外一步。
因為之前對文字提取特徵只是針對於訓練集，測試集並沒有進行，所以我先對測試集進行文字特徵提取：

再使用predict()方法進行預測：

變數predicted_categories中包含的就是所有的預測結果。

模型評估

scikit-learn模組中內建了很多模型評估的方法，對於分類問題，我們可以使用accuracy_score()方法，其返回一個數值，得分最高為1。

列印出來的結果顯示：

這個分類器的準確率達到了0.98，比上一次使用NLTK的貝葉斯演算法高出了10%，很不錯。

可以列印部分測試的簡訊資料以及預測的結果來看：

基本上正常簡訊和垃圾簡訊都被正確識別出來了。

文章首發：zmister.com/archives/17…
Python爬蟲、資料分析、機器學習、滲透測試、Web開發、GUI開發
州的先生：zmister.com/

相關文章

《scikit-learn機器學習實戰》簡介
2022-06-22
機器學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記1 — 機器學習基礎知識簡介
2018-11-20
機器學習筆記
《Python機器學習實踐》簡介
2022-09-02
Python機器學習
機器學習落地遊戲實踐簡析
2021-02-18
機器學習遊戲
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記2 — 機器學習的主要挑戰
2018-11-26
機器學習筆記
機器學習實戰-SVM模型實現人臉識別
2022-06-17
機器學習模型
模式識別與機器學習(二)
2019-07-13
模式機器學習
ML-機器學習實踐
2019-03-05
機器學習
【機器學習】機器學習簡介
2018-11-29
機器學習
【機器學習】手寫數字識別
2022-07-04
機器學習
使用scikit-learn機器學習庫裡面的xgboost
2020-12-05
機器學習
機器學習(一)：5分鐘理解機器學習並上手實踐
2021-01-16
機器學習
HMS Core機器學習服務身份證識別功能，實現資訊高效錄入
2022-06-21
機器學習
機器視覺學習筆記：臉性別識別
2019-07-20
視覺筆記
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 5 —— 如何為機器學習演算法準備資料？
2019-01-02
機器學習筆記演算法
模式識別與機器學習——概率分佈
2018-11-17
模式機器學習概率分佈
Scikit-learn 機器學習庫介紹！【Python入門】
2021-04-07
機器學習Python
評書：《美團機器學習實踐》
2018-12-08
機器學習
基於 KubeVela 的機器學習實踐
2022-04-07
機器學習
初識機器學習
2023-02-22
機器學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 3 —— 資料獲取與清洗
2018-12-04
機器學習筆記
機器學習簡介
2024-08-25
機器學習
機器學習之支援向量機原理和sklearn實踐
2019-06-30
機器學習
谷歌機器學習43條規則：機器學習工程的最佳實踐經驗
2018-05-22
谷歌機器學習
Scikit-learn可擴充套件學習簡介
2024-04-04
套件
Python實現人臉識別功能，face_recognition的使用 | 機器學習
2022-01-13
Python機器學習
Scikit-learn學習
2020-04-06
垃圾收集器學習
2018-04-15
用機器學習識別隨機生成的C&C域名
2020-08-19
機器學習隨機
決策樹在機器學習的理論學習與實踐
2018-03-29
機器學習
《美團機器學習實踐》—— 讀後總結
2018-11-06
機器學習
吳恩達機器學習系列0——初識機器學習
2022-01-09
吳恩達機器學習
機器學習之神經網路識別手寫數字(純python實現)
2019-03-03
機器學習神經網路Python
機器學習學習筆記——基本知識
2024-04-15
機器學習筆記
機器學習實踐篇第二篇-KNN演算法學習
2024-04-02
機器學習KNN演算法
Opencv學習筆記（3）---紙牌數字識別練習實踐專案
2020-09-24
OpenCV筆記
模式識別與機器學習——迴歸的線性模型
2019-01-30
模式機器學習模型
Python高效深度學習機器識別驗證碼教程分享
2021-09-19
Python深度學習