【火爐煉AI】機器學習039-NLP文字分類器
(本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)
前面我們學習了很多用NLP進行文字的分詞,文字分塊,建立詞袋模型等,這些步驟可以認為是NLP文字處理的基礎,此處我們來看NLP的一個非常重要的應用,對文字使用監督學習進行自動分類。
1. 20 Newsgroups資料集介紹
本文要使用NLP中非常經典的一個資料集:20 Newsgroups。這個資料集是國際標準資料集之一,專門用於文字分類,文字挖掘,和資訊檢索等領域,類似於傳統機器學習所用的Iris鳶尾花資料集一樣,可以通過官方網址來下載和了解具體內容。
20 Newsgroups包含有20個類別的已經標註好的樣本,總樣本數量大約2萬。這20個類別分別為:
這個資料集有三個版本,其主要內容和區別為:
- 20news-19997.tar.gz: 最原始的沒有修改過的一個版本。
- 20news-bydate.tar.gz: bydate版本,按照時間分類,分為訓練集(60%)和測試集(40%)兩部分,不包含重複文件和新聞組名。一共有18846個樣本(或稱為文件)
- 20news-18828.tar.gz: 不包含重複樣本,只有來源和主題,一共有18828個樣本。
sklearn中有兩種載入方式,第一種是sklearn.dataset.fetch_20newsgroups,返回一個可以被文字特徵提取器(CountVectorizer)自定義引數提取特徵的原始文字序列,第二種是sklearn.datasets.fetch_20newsgroups_vectorized,返回一個已提取特徵的文字序列,即不需要使用特徵提取器。
注:以上內容主要參考部落格
此處我們只下載第二個版本,下載後得到20news-bydate.tar.gz檔案,解壓後得到兩個資料夾,如下:
這兩個資料夾每一個都有20個子資料夾,對應於20個不同類別。每個類別下面有幾百個文件,即樣本,每個文件都不長,比如一個文件(樣本)的內容為:
這個資料集的載入方式已經被sklearn整合到程式碼中了,主要的介面是sklearn.dataset.fetch_20newsgroups,其預設載入第二個版本。這個函式的引數有:subset有三個選擇train、test、all,選擇資料的型別。category是選擇新聞的型別,remove是可以選擇去除(‘headers’, ‘footers’, ‘quotes’)這三個文章的選項。其他不重要。
# 認識20newsgroups資料集
from sklearn.datasets import fetch_20newsgroups
# dataset=fetch_20newsgroups(subset='all')
# 自動下載第二個版本20news-bydate.tar.gz
# print(len(dataset.data)) # dataset_X 的樣本數
# print(dataset.target_names) # dataset_y的名稱,標籤名稱
# train_set=fetch_20newsgroups(subset='train') # 僅僅提取中間的train set
# test_set=fetch_20newsgroups(subset='test')
# 如果僅僅需要其中的某幾個類別,可以用
sample_cate = ['alt.atheism', 'soc.religion.christian',
'comp.graphics', 'sci.med', 'rec.sport.baseball'] # 只取5個類別
train_set = fetch_20newsgroups(subset='train',categories=sample_cate,
shuffle=True, random_state=42,
remove = ('headers', 'footers', 'quotes'))
test_set = fetch_20newsgroups(subset='test', categories=sample_cate,
shuffle=True, random_state=42,
remove = ('headers', 'footers', 'quotes'))
print(len(train_set.data), len(test_set.data)) # 2854 1899
print(train_set.target_names) # 只有五個類別
複製程式碼
-------------------------------------輸---------出--------------------------------
2854 1899 ['alt.atheism', 'comp.graphics', 'rec.sport.baseball', 'sci.med', 'soc.religion.christian']
--------------------------------------------完-------------------------------------
2. 構建分類器
2.1 準備資料集
# 1, 準備資料集
category_map = {'misc.forsale': 'Sales', 'rec.motorcycles': 'Motorcycles',
'rec.sport.baseball': 'Baseball', 'sci.crypt': 'Cryptography',
'sci.space': 'Space'}
from sklearn.datasets import fetch_20newsgroups
train_set=fetch_20newsgroups(subset='train',categories=category_map.keys(),
shuffle=True,random_state=42,
remove = ('headers', 'footers', 'quotes'))
test_set=fetch_20newsgroups(subset='test',categories=category_map.keys(),
shuffle=True,random_state=42,
remove = ('headers', 'footers', 'quotes'))
# 獲取到的train_set包含有2968個樣本,
print('train sample num: ', len(train_set.data)) # 2968
print(train_set.target_names) # 確保是我們要提取的這五個類別
print('test sample num: ', len(test_set.data)) # 1975
複製程式碼
--------------輸---------出----------
train sample num: 2968 ['misc.forsale', 'rec.motorcycles', 'rec.sport.baseball', 'sci.crypt', 'sci.space'] test sample num: 1975
-------------------完-----------------
2.2 特徵提取
此處我們用TfidfVectorizer來進行特徵提取,關於TfidfVectorizer可以參考我的上一篇文章【火爐煉AI】機器學習038-NLP建立詞袋模型.
直接上程式碼:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english',lowercase=True)
train_vector = vectorizer.fit_transform(train_set.data)
print(train_vector.shape) # (2968, 31206)
# 此處相當於有2968個詞袋,對這些詞袋進行TfidfVectorizer進行特徵提取,
# 得到最具典型的一些單詞,這些單詞的個數有31206個,故而得到(2968, 30206)矩陣
# 矩陣中的元素表示這個單詞在該詞袋中出現的tf-idf權重,值越大,表示該單詞越重要。
複製程式碼
2.3 定義模型,訓練模型
# 定義模型,訓練特徵
from sklearn.naive_bayes import MultinomialNB
classifier=MultinomialNB(alpha=.01, fit_prior = False)
classifier.fit(train_vector,train_set.target)
複製程式碼
2.4 檢視模型在測試集上的表現
# 檢視這個資料集在test_set上的表現
from sklearn import metrics
test_vector=vectorizer.transform(test_set.data)
print(test_vector.shape)
pred=classifier.predict(test_vector)
F1_score=metrics.f1_score(test_set.target, pred, average='micro')
print('test set F1 score: ',F1_score)
複製程式碼
------------------輸---------出-------------
(1975, 31206) test set F1 score: 0.8774683544303797
-------------------------完----------------
3. 用GridSearch優化引數
# 用GridSearchCV優化引數
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
parameters = {'fit_prior':(True, False), 'alpha':(0.01,0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0)}
clf = GridSearchCV(classifier,parameters,cv=5,scoring='precision_macro',n_jobs=-1)
clf.fit(train_vector, train_set.target)
print("Best param_set found on train set: {}".format(clf.best_params_))
print("Detailed classification report on test set:")
y_true, y_pred = test_set.target, clf.predict(test_vector)
print(classification_report(y_true, y_pred))
複製程式碼
-------------------------------------輸---------出--------------------------------
Best param_set found on train set: {'alpha': 0.05, 'fit_prior': True} Detailed classification report on test set: precision recall f1-score support
0 0.92 0.89 0.91 390
1 0.80 0.91 0.85 398
2 0.93 0.88 0.91 397
3 0.90 0.88 0.89 396
4 0.91 0.88 0.89 394
複製程式碼
avg / total 0.89 0.89 0.89 1975
--------------------------------------------完-------------------------------------
從分類報告中可以看出,結果最好的是第0類和第2類,F1為0.91,最差的是第1類,F1值只有0.85。
########################小**********結###############################
1,用NLP進行文字分類,和傳統機器學習的主要區別在於前面特徵的提取,一旦提取特徵,後面模型的建立,訓練,測試,分類報告等都一樣。
2,對文字進行特徵的提取有兩種:CountVectorizer和TfidfVectorizer,但是TfidfVectorizer使用的最多,對文字量非常大的情況更加準確,故而此處我只用TfidfVectorizer來提取特徵。
3,有一個地方很容易忽視:測試集在用predict之前,一定要用vectorizer.transform進行轉換,這個過程就像是對資料進行歸一化等,需要對train_X和test_X都要進行處理。
#################################################################
注:本部分程式碼已經全部上傳到(我的github)上,歡迎下載。
參考資料:
1, Python機器學習經典例項,Prateek Joshi著,陶俊傑,陳小莉譯