基於Scikit-Learn的五個文字分類案例研究

古月水語發表於2016-03-30

Scikit 是一個開源的 Python 機器學習庫。主要涵蓋了分類、迴歸分析、聚類等演算法，具體包括支援向量機、隨機森林、梯度提升（gradient boosting）、K-means 和 DBSCAN 等演算法，同時也整合了 Python 的資料科學包 NumPy 和 SciPy。

下面是5個利用 SciKit 進行文字分類的案例

初創智慧公司的新聞分類：CB Insights，一個初創智慧公司的資料供應商，展示了一個範例，它能將資訊劃分為人力資源相關和員工相關兩類。該公司評估包括人力資源運作在內的私企的運營狀況。這項工作包括對招聘工作中的工作職位和關鍵員工的招聘與離職進行程式化的監控。他們使用 Sci-Kit 來幫助展開工作。人力資源問題的分類是一個二元問題，因為對公司來說只需要區分出資訊是否與人力資源問題相關即可。這個分類問題包含五個非正式的部分：1.資料預處理和特徵提取（文件重現）。2.特徵選擇。3.分類。4.評估比較不同的分類器。5.根據給定標準選擇最好的分類器（標準如分類準確性、F 值、精確率或召回率）。

投資類資訊分類：Quantstart 的一篇文章講解了如何利用自然語言文件分類進行情緒分析，從而最終實現自動過濾交易或產生訊號。它利用支援向量機將文件分為互不相關的類別。

網頁分類： Scraping Hub 通過改變模型、選擇簡化的特徵、做特徵選擇，以此將分類器簡化為不那麼佔用記憶體的模型，利用簡化的預處理步驟等方法優化了 Scikit 模型的記憶體佔用率。

垃圾郵件分類：Zac Stewart 展示了一個利用 Sci-Kit 文件分類器進行垃圾郵件分類的方法。資料集綜合了安然垃圾郵件集（原始資料）和篩選的公共語料庫。二者都可以從網上下載。專案以原始資料標記過的郵件進行處理，最終得到一個有效合理且精確的垃圾郵件過濾器。

音樂使用者資料匹配：IBM 分享了一個基於 SciKit 的研究案例，研究建立一個模擬使用者產品購買歷史記錄的模型。一個簡單的應用場景是，根據每個客戶購買的特定產品，以及相對應的文字化的產品描述，提供音樂檔案。

打賞支援我翻譯更多好文章，謝謝！
打賞譯者

打賞支援我翻譯更多好文章，謝謝！

任選一種支付方式

基於Scikit-Learn的五個文字分類案例研究

基於支援向量機的文字分類
2017-04-24
文字分類
教程 | 用Scikit-Learn實現多類別文字分類
2018-05-14
文字分類
如何透過Scikit-Learn實現多類別文字分類？
2018-03-05
文字分類
如何通過Scikit-Learn實現多類別文字分類？
2018-03-05
文字分類
基於影像視覺詞彙的文字分類方法(完整專案)
2018-03-05
視覺文字分類
【scikit-learn基礎】--『預處理』之分類編碼
2023-12-20
如何使用Python、Transformers和scikit-learn對文字進行分類？
2022-02-24
PythonORM
基於spark2.0文字分詞+多分類模型
2019-04-16
Spark分詞模型
RabbitMQ學習之（五）_一個基於PHP的RabbitMQ操作類
2018-01-09
MQPHP
Bert文字分類實踐（一）：實現一個簡單的分類模型
2021-10-10
文字分類模型
文字分類-TextCNN
2018-11-09
文字分類CNN
文字分類模型
2020-10-28
文字分類模型
基於sklearn的分類器實戰
2019-05-25
《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現
2015-08-22
機器學習演算法文字分類Python
機器學習演算法（五）：基於企鵝資料集的決策樹分類預測
2023-03-25
機器學習演算法
基於GenericAPIView以及五個檢視擴充套件類寫介面
2023-02-11
APIView套件
【NLP】TensorFlow實現CNN用於文字分類（譯）
2018-01-27
CNN文字分類
文字分類(下)-卷積神經網路(CNN)在文字分類上的應用
2018-07-25
文字分類卷積神經網路CNN
關於字串分類抽取的幾個方法
2011-10-21
字串
基於Tensorflow影像分類模型的微服務
2017-02-09
模型微服務
基於 Python 和 Scikit-Learn 的機器學習介紹
2015-07-21
Python機器學習
BiLSTM-Attention文字分類
2020-04-22
文字分類
文字分類論文系列---
2021-01-02
文字分類
分享《文字分類初探PPT》
2010-11-10
文字分類
基於Pytorch實現貓狗分類
2021-06-08
PyTorch
文字圖Tranformer在文字分類中的應用
2022-01-31
ORM文字分類
【NLP】TensorFlow實現CNN用於中文文字分類
2018-02-04
CNN文字分類
CNN也能用於NLP任務，一文簡述文字分類任務的7個模型
2018-07-04
CNN文字分類模型
基於 HTML5 WebGL 的垃圾分類系統
2020-04-06
HTMLWeb
基於關聯規則的分類演算法
2017-04-11
演算法
使用Facebook的FastText簡化文字分類
2019-03-23
AST文字分類
併發伺服器（五）：Redis 案例研究
2018-03-07
伺服器Redis
5.2.2 用TextCNN做文字分類
2019-12-31
CNN文字分類
如何用機器學習對文字分類
2019-02-20
機器學習文字分類
pyhanlp文字分類與情感分析
2019-02-20
HanLP文字分類
3 個很酷的基於文字的郵件客戶端
2022-11-26
客戶端
教你用Pytorch建立你的第一個文字分類模型
2020-03-17
PyTorch文字分類模型
用神經網路訓練一個文字分類器
2017-08-10
神經網路文字分類

基於Scikit-Learn的五個文字分類案例研究

打賞支援我翻譯更多好文章，謝謝！

相關文章