Pytext實戰-構建一個文字分類器有多快

致Great發表於2019-03-02

原文網址 : https://flycode.co/archives/265206

文字分類

1 資料集準備

資料集包括兩個檔案：train.tsv和test.tsv，內容是從網上搜集的情感文字資料，簡單地經過分詞後用空格拼接起來。訓練集和測試集各有10000條資料

2 構建文字分類器

Pytext框架包括了Task, Trainer, Model, DataHandler, Exporter 元件，分別對應了任務切換、模型訓練、模型結構、資料處理、模型匯出的作用，它們都繼承自名Component的類

(圖片來自: pytext-pytext.readthedocs-hosted.com/en/latest/o…

Component可以讀取JSON型別的配置檔案，配置檔案可以設定訓練過程中使用的輸入和學習率等引數。按照官方文字分類教程，我們幾乎可以不需要實現模型，輸入，輸出等程式碼，只需要準備好資料集即可。

docnn.json的內容如下：

{
  "task": {
    "DocClassificationTask": {
      "data_handler": {
        "train_path": "train.tsv",
        "eval_path": "test.tsv",
        "test_path": "test.tsv"
      }
    }
  }
}
複製程式碼

步驟1 訓練模型：

pytext train < docnn.json 
複製程式碼

經過3-4分鐘後，10 epoch訓練完畢，在沒有使用詞向量以及直接使用預設設定，在測試集的預測效果如下，

步驟2 匯出模型

CONFIG=docnn.json 
pytext export --output-path model.c2 < "$CONFIG"
複製程式碼

在桌面上我們可以看到匯出的模型 model.c2

步驟3 模型預測參考意圖識別的例子，我寫了下面的測試程式碼

# !/usr/bin/env python3
# -*- coding:utf-8 _*-
"""
@Author:yanqiang
@File: demo.py
@Time: 2018/12/21 19:06
@Software: PyCharm
@Description:
"""
import sys
import pytext
import jieba

config_file = sys.argv[1]
model_file = sys.argv[2]
text = sys.argv[3]
text = " ".join([word for word in jieba.cut(text)])
config = pytext.load_config(config_file)
predictor = pytext.create_predictor(config, model_file)
# Pass the inputs to PyText's prediction API
result = predictor({"raw_text": text})

# Results is a list of output blob names and their scores.
# The blob names are different for joint models vs doc models
# Since this tutorial is for both, let's check which one we should look at.
doc_label_scores_prefix = (
    'scores:' if any(r.startswith('scores:') for r in result)
    else 'doc_scores:'
)

# For now let's just output the top document label!
best_doc_label = max(
    (label for label in result if label.startswith(doc_label_scores_prefix)),
    key=lambda label: result[label][0],
    # Strip the doc label prefix here
)[len(doc_label_scores_prefix):]
print("輸入句子的情感為：%s" % best_doc_label)

複製程式碼

我們看看效果：

python main.py "$CONFIG" model.c2 "超級喜歡蒙牛這個味 道"
複製程式碼

python main.py "$CONFIG" model.c2 "這是什麼商品啊！太 差了吧？"
複製程式碼

3 總結

我們上面過程可以看到，pytext加速了模型從訓練到落地的速度，省去了很多繁瑣的工程。不過，我們上面的例子模型需要有待提高，需要研究下自定義模型和詞向量使用，提高分類效果。

Bert文字分類實踐（一）：實現一個簡單的分類模型
2021-10-10
文字分類模型
圖卷積實戰——文字分類
2019-05-22
卷積文字分類
Spark機器學習實戰 (十一) - 文字情感分類專案實戰
2019-04-19
Spark機器學習
樸素貝葉斯分類-實戰篇-如何進行文字分類
2020-11-25
文字分類
Flair初體驗，如何構建文字分類器？
2018-12-26
AI文字分類
《Python機器學習》作者科普長文：從頭構建類GPT文字分類器，程式碼開源
2024-09-28
Python機器學習GPT文字分類
使用 TensorFlow Hub 和估算器構建文字分類模型
2018-09-05
文字分類模型
用Python實現一個SVM分類器策略
2018-12-28
Python
基於sklearn的分類器實戰
2019-05-25
Qwen2ForSequenceClassification文字分類實戰和經驗分享
2025-01-12
文字分類
通過 TensorFlow 構建您的第一個深度學習分類器（以狗為例）！
2018-05-09
深度學習
設計一個基於 LSTM 神經網路的文字分類器
2024-11-26
神經網路文字分類
手把手教你快速構建自定義分類器
2018-08-07
如何實現一個基本的微信文章分類器
2018-04-04
構建一個語音轉文字的WebApi服務
2023-12-07
WebAPI
如何用50行程式碼構建情感分類器
2018-06-20
行程
文字分類-TextCNN
2018-11-09
文字分類CNN
文字分類模型
2020-10-28
文字分類模型
從無到有構建vue實戰專案（六）
2019-07-21
Vue
實現一個終端文字編輯器來學習golang語言：第一章專案構建
2024-08-03
Golang
人工智慧中的文字分類：技術突破與實戰指導
2023-12-15
人工智慧文字分類
面向機器智慧的TensorFlow實戰8：序列分類
2018-05-26
教你用Pytorch建立你的第一個文字分類模型
2020-03-17
PyTorch文字分類模型
如何用機器學習對文字分類
2019-02-20
機器學習文字分類
[譯] 使用 React 和 ImmutableJS 構建一個拖放佈局構建器
2019-05-05
ReactJS
實戰Parcel構建一個基於Vue.js的相簿應用
2018-05-09
Vue.js
Flutter入門與實戰（三）：構建一個常用的頁面框架
2021-05-18
Flutter框架
用 Go 構建一個 SQL 解析器
2019-07-09
GoSQL
異端審判器！一個泛用型文字聚類模型的實現（1）
2019-02-27
聚類模型
Shell變數有哪些分類？linux運維實戰學習
2021-04-15
變數Linux運維
CNN+pytorch實現文字二分類
2021-07-07
CNNPyTorch
教程 | 用Scikit-Learn實現多類別文字分類
2018-05-14
文字分類
Pytorch實現分類器
2023-04-17
PyTorch
（一）文字分類經典模型之CNN篇
2024-05-08
文字分類模型CNN
根據伺服器的基礎架構分類有哪些伺服器
2023-03-01
伺服器架構
Python直譯器分類有哪些？
2021-12-02
Python
構建一個 @synchronized
2018-07-31
synchronized
「影像分類」實戰影像分類網路的視覺化
2019-09-04
視覺化

Pytext實戰-構建一個文字分類器有多快

1 資料集準備

2 構建文字分類器

3 總結

相關文章