文字分析——分配單詞權重

超人汪小建發表於2019-03-04

原文網址 : https://flycode.co/archives/284898

前言

文字處理中很多時候會需要給每個單詞分配權重，有了權重以便後續進一步處理。常用的演算法主要是TF-IDF。

TF

TF，即Term Frequency。我們可以將文件看成由若干詞（term）組成，那麼文件中某個term出現的頻率就是TF。詞頻和詞權重存在關係，可以用來作為詞權重的衡量因素之一。

IDF

IDF，即Inverse Document Frequency。TF演算法存在一個問題：比如某文件中多個term出現的次數相同，則不好判別他們之間哪個更重要。因此又引入逆文件頻率(IDF)，某個term的IDF可定為：

IDF = log(\frac{T}{t})
複製程式碼

其中，T為統計樣本中總文件數，t為包含某term的文件數。由此說明包含某term的文件數越多，該term越不重要。

獲取IDF方式

其實有幾種方式來統計IDF。

自己收集樣本庫進行統計。
第三方統計好的IDF表。
藉助百度或谷歌搜尋引擎，這種方式不準確。隨便取個m值假設為總文件，再搜尋某個term得到n條結果，則認為n除以m即為IDF。

TF-IDF

有了前面的TF和IDF就可以通過他們一起決定某個Term的權重。定義TF-IDF為TF乘以IDF。

實現程式碼

https://github.com/sea-boat/nlp_lab/tree/master/tf_idf

-------------推薦閱讀------------

我的2017文章彙總——機器學習篇

我的2017文章彙總——Java及中介軟體

------------------廣告時間----------------

公眾號的選單已分為“分散式”、“機器學習”、“深度學習”、“NLP”、“Java深度”、“Java併發核心”、“JDK原始碼”、“Tomcat核心”等，可能有一款適合你的胃口。

鄙人的新書《Tomcat核心設計剖析》已經在京東銷售了，有需要的朋友可以購買。感謝各位朋友。

為什麼寫《Tomcat核心設計剖析》

歡迎關注：

文字單詞one-hot編碼
2021-01-04
文字資料分析——主題提取+詞向量化
2020-10-20
odoo 許可權分配
2024-05-17
Odoo
SOFA 原始碼分析 — 預熱權重
2019-02-25
原始碼
C++原始碼單詞掃描程式（詞法分析）
2020-10-16
C++原始碼詞法分析
如何利用百度權重來提高關鍵詞排名？
2021-11-19
PHP讀取文字並計算單詞所在行列
2021-09-09
PHP
文字情感分析(一)：基於詞袋模型(VSM、LSA、n-gram)的文字表示
2019-05-19
模型
文字情感分析(二)：基於word2vec和glove詞向量的文字表示
2019-05-19
JS單行、多行文字字元去重和行去重
2019-02-16
JS字元
python統計英文文字中的迴文單詞數
2020-05-13
Python
單詞
2024-10-12
Python文字處理NLP：分詞與詞雲圖
2019-07-08
Python分詞
CSS權重
2019-01-08
CSS
文字分析
2021-11-16
熱詞分析
2020-11-11
敏感詞 v0.19.0 新特性之敏感詞單個編輯，不必重複初始化
2024-09-19
nofollow權重說明 nofollow是否傳遞權重？
2021-04-26
文字挖掘之語料庫、分詞、詞頻統計
2024-05-20
分詞
Java 實現《編譯原理》簡單詞法分析功能
2019-06-13
Java編譯原理詞法分析
單詞拆分
2024-04-25
webpack單詞
2020-12-31
Web
權重定位 FMP
2019-04-12
python 計算txt文字詞頻率
2018-07-29
Python
處理文字資料（上）:詞袋
2022-06-03
Javafx-【直方圖】文字頻次統計工具中文/英文單詞統計
2021-11-09
Java直方圖
文字情感分析
2024-09-06
LeetCode 單詞拆分
2019-02-23
LeetCode
單詞劃分
2018-05-02
四級單詞
2018-05-17
單詞遊戲
2024-09-01
遊戲
0625+單詞
2024-06-25
0628+單詞
2024-06-28
單詞搜尋
2021-01-03
mimalloc記憶體分配程式碼分析
2019-07-21
記憶體
利用python內建函式，快速統計單詞在文字中出現的次數
2021-09-09
Python函式
ESP15單元單詞
2020-11-26
咋做長文字去重
2019-02-16

文字分析——分配單詞權重

前言

TF

IDF

獲取IDF方式

TF-IDF

實現程式碼

相關文章