中文文字相似度計算工具集
歡迎大家關注我們的網站和系列教程:http://www.tensorflownews.com/,學習更多的機器學習、深度學習的知識!
一、基本工具集
1.分詞工具
a.jieba
結巴中文分詞
https://github.com/fxsjy/jieba
b.HanLP
自然語言處理 中文分詞 詞性標註 命名實體識別 依存句法分析 關鍵詞提取 新詞發現 短語提取 自動摘要 文字分類 拼音簡繁 http://hanlp.hankcs.com/
https://github.com/hankcs/HanLP
c.盤古分詞-開源中文分片語件
盤古分詞是一箇中英文分片語件。作者eaglet 曾經開發過KTDictSeg 中文分片語件,擁有大量使用者。 作者基於之前分片語件的開發經驗,結合最新的開發技術重新編寫了盤古分片語件。
d.pullword
Pullword-永久免費的可自定義的中文線上分詞API
e.BosonNLP
玻森中文語義開放平臺提供使用簡單、功能強大、效能可靠的中文自然語言分析雲服務。
f.HIT-SCIR/ltp
Language Technology Platform http://ltp.ai
https://github.com/HIT-SCIR/ltp
2.關鍵詞提取
TF-IDF
技術原理:https://dl.acm.org/citation.cfm?id=866292
gensim
https://radimrehurek.com/gensim/models/tfidfmodel.html
TextRank
技術原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
TextRank4ZH-從中文文字中自動提取關鍵詞和摘要
https://github.com/letiantian/TextRank4ZH
3.詞向量
word2vec-gensim
Topic modelling for humans – Radim Řehůřek
https://radimrehurek.com/gensim/index.html
GloVe
Global Vectors for Word Representation
https://nlp.stanford.edu/projects/glove/
4.距離計算
word2vec-gensim
Topic modelling for humans – Radim Řehůřek
https://radimrehurek.com/gensim/index.html
二、常用演算法
1.中文分詞+TF-IDF+word2vec+cosine 距離計算
2.doc2vec
原理介紹:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
技術實現:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
3.simhash
原理介紹:http://www.cnblogs.com/maybe2030/p/5203186.html
技術實現:https://github.com/yanyiwu/simhash
三、文字相似度計算綜述
A Survey of Text Similarity Approaches
https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf
《中文資訊處理髮展報告(2016)》
http://cips-upload.bj.bcebos.com/cips2016.pdf
以上論文下載地址:
http://www.tensorflownews.com/
本篇文章出自http://www.tensorflownews.com,對深度學習感興趣,熱愛Tensorflow的小夥伴,歡迎關注我們的網站!
相關文章
- 大規模文字相似度計算
- 文字相似度計算之餘弦定理
- 中文自然語言處理工具集:分詞,相似度匹配自然語言處理分詞
- 海量資料相似度計算之simhash短文字查詢
- 利用sklearn計算文字相似性
- NLP segment-05-文字相似度計算 similarity java 開源實現MILAJava
- 通過decode計算相似度
- 演算法計算字串的相似度演算法字串
- 文章相似度檢測,相似度檢測工具,原創度檢測工具
- 同義詞相似度可以怎樣計算
- 中文標題相似度檢測
- CCF/CSP認證-第33次-相似度計算
- 文字相似性計算--MinHash和LSH演算法演算法
- java文字相似度計算(Levenshtein Distance演算法(中文翻譯:編輯距離演算法))----程式碼和詳解Java演算法
- 系統學習NLP(十七)--文字相似度
- 文字相似度 HanPL漢語言處理
- 基於HBase構建千億級文字資料相似度計算與快速去重系統
- 機器學習中那些相似度的計算方法及實現機器學習
- 推薦系統技術之文字相似性計算(二)
- 推薦系統技術之文字相似性計算(三)
- 推薦系統技術之文字相似性計算(一)
- 文章相似度檢測工具哪個好?怎麼讓文章相似度變低?
- java實現兩個文字相似度 simHash 實現Java
- 基於tfidf 以及 lsi 的文字相似度分析
- 海量資料相似度計算之simhash和海明距離
- “千言資料集:文字相似度”權威評測,網易易智榮登榜首
- 使用AVX2指令集加速推薦系統MMR層餘弦相似度計算
- 自然語言處理中句子相似度計算的幾種方法自然語言處理
- 中文短文字摘要資料集
- Unity TMPro 中文字型集Unity
- 【csp202403-2】相似度計算【第33次CCF計算機軟體能力認證】計算機
- 【火爐煉AI】機器學習032-使用者之間相似度的計算AI機器學習
- 計算機如何理解事物的相關性-文件的相似度判斷計算機
- 基於word2vec與Word Mover Distance的文件相似度計算
- 基於關鍵詞及問題主題的問題相似度計算
- java中利用hanlp比較兩個文字相似度的步驟JavaHanLP
- NLP 中文形近字相似度演算法開源實現演算法
- word2vec實現域名向量化並計算相似度-python程式碼Python