基於Scikit-Learn的五個文字分類案例研究

古月水語發表於2016-03-30

Scikit 是一個開源的 Python 機器學習庫。主要涵蓋了分類、迴歸分析、聚類等演算法,具體包括支援向量機、隨機森林、梯度提升(gradient boosting)、K-means 和 DBSCAN 等演算法,同時也整合了  Python  的資料科學包 NumPy 和 SciPy。

下面是5個利用 SciKit 進行文字分類的案例

初創智慧公司的新聞分類:CB Insights,一個初創智慧公司的資料供應商,展示了一個範例,它能將資訊劃分為人力資源相關和員工相關兩類。該公司評估包括人力資源運作在內的私企的運營狀況。這項工作包括對招聘工作中的工作職位和關鍵員工的招聘與離職進行程式化的監控。他們使用 Sci-Kit 來幫助展開工作。人力資源問題的分類是一個二元問題,因為對公司來說只需要區分出資訊是否與人力資源問題相關即可。這個分類問題包含五個非正式的部分:1.資料預處理和特徵提取(文件重現)。2.特徵選擇。3.分類。4.評估比較不同的分類器。5.根據給定標準選擇最好的分類器(標準如分類準確性、F 值、 精確率或召回率)。

投資類資訊分類:Quantstart 的一篇文章講解了如何利用自然語言文件分類進行情緒分析,從而最終實現自動過濾交易或產生訊號。它利用支援向量機將文件分為互不相關的類別。

網頁分類: Scraping Hub  通過改變模型、選擇簡化的特徵、做特徵選擇,以此將分類器簡化為不那麼佔用記憶體的模型,利用簡化的預處理步驟等方法優化了 Scikit 模型的記憶體佔用率。

垃圾郵件分類:Zac Stewart 展示了一個利用 Sci-Kit 文件分類器進行垃圾郵件分類的方法。資料集綜合了 安然垃圾郵件集 (原始資料 )和篩選的 公共語料庫 。二者都可以從網上下載。專案以原始資料標記過的郵件進行處理,最終得到一個有效合理且精確的垃圾郵件過濾器。

音樂使用者資料匹配:IBM 分享了一個基於 SciKit 的研究案例,研究建立一個模擬使用者產品購買歷史記錄的模型。一個簡單的應用場景是,根據每個客戶購買的特定產品,以及相對應的文字化的產品描述,提供音樂檔案。

打賞支援我翻譯更多好文章,謝謝!

打賞譯者

打賞支援我翻譯更多好文章,謝謝!

任選一種支付方式

基於Scikit-Learn的五個文字分類案例研究 基於Scikit-Learn的五個文字分類案例研究

相關文章