中文文字相似度計算工具集

磐石001發表於2018-04-19

歡迎大家關注我們的網站和系列教程:http://www.tensorflownews.com/,學習更多的機器學習、深度學習的知識!

一、基本工具集

1.分詞工具

a.jieba

結巴中文分詞

https://github.com/fxsjy/jieba

b.HanLP

自然語言處理 中文分詞 詞性標註 命名實體識別 依存句法分析 關鍵詞提取 新詞發現 短語提取 自動摘要 文字分類 拼音簡繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盤古分詞-開源中文分片語件

盤古分詞是一箇中英文分片語件。作者eaglet 曾經開發過KTDictSeg 中文分片語件,擁有大量使用者。 作者基於之前分片語件的開發經驗,結合最新的開發技術重新編寫了盤古分片語件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免費的可自定義的中文線上分詞API

http://pullword.com/

e.BosonNLP

玻森中文語義開放平臺提供使用簡單、功能強大、效能可靠的中文自然語言分析雲服務。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.關鍵詞提取

TF-IDF

技術原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

 

TextRank

技術原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-從中文文字中自動提取關鍵詞和摘要

https://github.com/letiantian/TextRank4ZH

3.詞向量

word2vec-gensim

Topic modelling for humans – Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

 

4.距離計算

word2vec-gensim

Topic modelling for humans – Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

二、常用演算法

 

1.中文分詞+TF-IDF+word2vec+cosine 距離計算

 

2.doc2vec

原理介紹:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技術實現:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

 

3.simhash

原理介紹:http://www.cnblogs.com/maybe2030/p/5203186.html

技術實現:https://github.com/yanyiwu/simhash

 

三、文字相似度計算綜述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文資訊處理髮展報告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上論文下載地址:

http://www.tensorflownews.com/

本篇文章出自http://www.tensorflownews.com,對深度學習感興趣,熱愛Tensorflow的小夥伴,歡迎關注我們的網站!


相關文章