文字挖掘預處理之TF-IDF

劉建平Pinard發表於2017-04-11

　　　　在文字挖掘預處理之向量化與Hash Trick中我們講到在文字挖掘的預處理中，向量化之後一般都伴隨著TF-IDF的處理，那麼什麼是TF-IDF，為什麼一般我們要加這一步預處理呢？這裡就對TF-IDF的原理做一個總結。

1. 文字向量化特徵的不足

　　　　在將文字分詞並向量化後，我們可以得到詞彙表中每個詞在各個文字中形成的詞向量，比如在文字挖掘預處理之向量化與Hash Trick這篇文章中，我們將下面4個短文字做了詞頻統計：

corpus=["I come to China to travel", 
    "This is a car polupar in China",          
    "I love tea and Apple ",   
    "The work is to write some papers in science"]

　　　　不考慮停用詞，處理後得到的詞向量如下：

[[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0]
 [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0]
 [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]]

　　　　如果我們直接將統計詞頻後的19維特徵做為文字分類的輸入，會發現有一些問題。比如第一個文字，我們發現"come","China"和“Travel”各出現1次，而“to“出現了兩次。似乎看起來這個文字與”to“這個特徵更關係緊密。但是實際上”to“是一個非常普遍的詞，幾乎所有的文字都會用到，因此雖然它的詞頻為2，但是重要性卻比詞頻為1的"China"和“Travel”要低的多。如果我們的向量化特徵僅僅用詞頻表示就無法反應這一點。因此我們需要進一步的預處理來反應文字的這個特徵，而這個預處理就是TF-IDF。

2. TF-IDF概述

　　　　TF-IDF是Term Frequency - Inverse Document Frequency的縮寫，即“詞頻-逆文字頻率”。它由兩部分組成，TF和IDF。

　　　　前面的TF也就是我們前面說到的詞頻，我們之前做的向量化也就是做了文字中各個詞的出現頻率統計，並作為文字特徵，這個很好理解。關鍵是後面的這個IDF，即“逆文字頻率”如何理解。在上一節中，我們講到幾乎所有文字都會出現的"to"其詞頻雖然高，但是重要性卻應該比詞頻低的"China"和“Travel”要低。我們的IDF就是來幫助我們來反應這個詞的重要性的，進而修正僅僅用詞頻表示的詞特徵值。

　　　　概括來講， IDF反應了一個詞在所有文字中出現的頻率，如果一個詞在很多的文字中出現，那麼它的IDF值應該低，比如上文中的“to”。而反過來如果一個詞在比較少的文字中出現，那麼它的IDF值應該高。比如一些專業的名詞如“Machine Learning”。這樣的詞IDF值應該高。一個極端的情況，如果一個詞在所有的文字中都出現，那麼它的IDF值應該為0。

　　　　上面是從定性上說明的IDF的作用，那麼如何對一個詞的IDF進行定量分析呢？這裡直接給出一個詞$x$的IDF的基本公式如下：$$IDF(x) = log\frac{N}{N(x)}$$

　　　　其中，$N$代表語料庫中文字的總數，而$N(x)$代表語料庫中包含詞$x$的文字總數。為什麼IDF的基本公式應該是是上面這樣的而不是像$N/N(x)$這樣的形式呢？這就涉及到資訊理論相關的一些知識了。感興趣的朋友建議閱讀吳軍博士的《數學之美》第11章。

　　　　上面的IDF公式已經可以使用了，但是在一些特殊的情況會有一些小問題，比如某一個生僻詞在語料庫中沒有，這樣我們的分母為0， IDF沒有意義了。所以常用的IDF我們需要做一些平滑，使語料庫中沒有出現的詞也可以得到一個合適的IDF值。平滑的方法有很多種，最常見的IDF平滑後的公式之一為：$$IDF(x) = log\frac{N+1}{N(x)+1} + 1$$

　　　　有了IDF的定義，我們就可以計算某一個詞的TF-IDF值了：$$TF-IDF(x) = TF(x) * IDF(x)$$

　　　　其中$TF(x)$指詞$x$在當前文字中的詞頻。

3. 用scikit-learn進行TF-IDF預處理

　　　　在scikit-learn中，有兩種方法進行TF-IDF的預處理。

　　　　完整程式碼參見我的github:https://github.com/ljpzzz/machinelearning/blob/master/natural-language-processing/tf-idf.ipynb

　　　　第一種方法是在用CountVectorizer類向量化之後再呼叫TfidfTransformer類進行預處理。第二種方法是直接用TfidfVectorizer完成向量化與TF-IDF預處理。

　　　　首先我們來看第一種方法，CountVectorizer+TfidfTransformer的組合，程式碼如下：

from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  

corpus=["I come to China to travel", 
    "This is a car polupar in China",          
    "I love tea and Apple ",   
    "The work is to write some papers in science"] 

vectorizer=CountVectorizer()

transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  
print tfidf

　　　　輸出的各個文字各個詞的TF-IDF值如下：

  (0, 4)	0.442462137895
  (0, 15)	0.697684463384
  (0, 3)	0.348842231692
  (0, 16)	0.442462137895
  (1, 3)	0.357455043342
  (1, 14)	0.453386397373
  (1, 6)	0.357455043342
  (1, 2)	0.453386397373
  (1, 9)	0.453386397373
  (1, 5)	0.357455043342
  (2, 7)	0.5
  (2, 12)	0.5
  (2, 0)	0.5
  (2, 1)	0.5
  (3, 15)	0.281131628441
  (3, 6)	0.281131628441
  (3, 5)	0.281131628441
  (3, 13)	0.356579823338
  (3, 17)	0.356579823338
  (3, 18)	0.356579823338
  (3, 11)	0.356579823338
  (3, 8)	0.356579823338
  (3, 10)	0.356579823338

　　　　現在我們用TfidfVectorizer一步到位，程式碼如下：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf2 = TfidfVectorizer()
re = tfidf2.fit_transform(corpus)
print re

　　　　輸出的各個文字各個詞的TF-IDF值和第一種的輸出完全相同。大家可以自己去驗證一下。

　　　　由於第二種方法比較的簡潔，因此在實際應用中推薦使用，一步到位完成向量化，TF-IDF與標準化。

4. TF-IDF小結

　　　　TF-IDF是非常常用的文字挖掘預處理基本步驟，但是如果預處理中使用了Hash Trick，則一般就無法使用TF-IDF了，因為Hash Trick後我們已經無法得到雜湊後的各特徵的IDF的值。使用了IF-IDF並標準化以後，我們就可以使用各個文字的詞特徵向量作為文字的特徵，進行分類或者聚類分析。

　　　　當然TF-IDF不光可以用於文字挖掘，在資訊檢索等很多領域都有使用。因此值得好好的理解這個方法的思想。

（歡迎轉載，轉載請註明出處。歡迎溝通交流： liujianping-ok@163.com）

文字挖掘預處理之向量化與Hash Trick
2017-04-10
中文文字挖掘預處理流程總結
2017-04-21
英文文字挖掘預處理流程總結
2017-04-24
文字檢測預處理地址
2018-10-10
文字預處理技術詳解
2019-01-16
Python資料分析與挖掘實戰（資料預處理）
2017-07-15
Python
【scikit-learn基礎】--『預處理』之缺失值處理
2023-12-22
命令列與Shell -> 文字處理命令之sed
2012-06-20
命令列
SPM12之fMRI批次預處理——NII檔案處理
2024-07-25
【文字挖掘】（三）文字表示
2024-05-20
資料預處理之 pandas 讀表
2020-03-01
Go 語言操作 MySQL 之預處理
2020-07-02
GoMySql
醫學影像預處理之裁減
2021-06-26
醫學影像預處理之標註
2021-07-03
Python文字預處理：步驟、使用工具及示例
2019-01-25
Python
文字資料預處理:可能需要關注這些點
2023-01-31
nlp中文字輸入的資料預處理方式
2024-08-09
【挖掘篇】：文字分析
2017-05-22
CSS 小結筆記之文字溢位處理
2018-09-13
CSS筆記
影像預處理
2018-10-08
預處理指令
2015-12-24
預處理命令
2015-07-27
10 文字分析處理命令
2020-08-09
Linux文字處理命令
2019-02-21
Linux
python 文字處理操作
2017-03-15
Python
簡單的文字處理
2016-07-26
文字處理的有關
2016-03-14
Python自然語言處理 3 處理原始文字
2017-11-19
Python自然語言處理
文字資料預處理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
2018-09-13
ORM
中文維基百科文字資料獲取與預處理
2016-05-09
特徵預處理之歸一化&標準化
2021-01-23
特徵
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
程式設計小技巧之 Linux 文字處理命令（二）
2021-01-28
程式設計Linux
資料預處理
2021-09-09
影像預處理方法
2018-10-08
文字挖掘之語料庫、分詞、詞頻統計
2024-05-20
分詞
Linux文字處理技巧分享
2020-04-19
Linux
PHP （超文字前處理器）
2020-06-28
PHP

文字挖掘預處理之TF-IDF

1. 文字向量化特徵的不足

2. TF-IDF概述

3. 用scikit-learn進行TF-IDF預處理

4. TF-IDF小結

相關文章