中文文字相似度計算工具集

歡迎大家關注我們的網站和系列教程：http://www.tensorflownews.com/，學習更多的機器學習、深度學習的知識！

一、基本工具集

1.分詞工具

a.jieba

結巴中文分詞

https://github.com/fxsjy/jieba

b.HanLP

自然語言處理中文分詞詞性標註命名實體識別依存句法分析關鍵詞提取新詞發現短語提取自動摘要文字分類拼音簡繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盤古分詞-開源中文分片語件

盤古分詞是一箇中英文分片語件。作者eaglet 曾經開發過KTDictSeg 中文分片語件，擁有大量使用者。作者基於之前分片語件的開發經驗，結合最新的開發技術重新編寫了盤古分片語件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免費的可自定義的中文線上分詞API

http://pullword.com/

e.BosonNLP

玻森中文語義開放平臺提供使用簡單、功能強大、效能可靠的中文自然語言分析雲服務。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.關鍵詞提取

TF-IDF

技術原理：https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

TextRank

技術原理：https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-從中文文字中自動提取關鍵詞和摘要

https://github.com/letiantian/TextRank4ZH

3.詞向量

word2vec-gensim

Topic modelling for humans – Radim Řehůřek

https://radimrehurek.com/gensim/index.html

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

4.距離計算

word2vec-gensim

Topic modelling for humans – Radim Řehůřek

https://radimrehurek.com/gensim/index.html

二、常用演算法

1.中文分詞+TF-IDF+word2vec+cosine 距離計算

2.doc2vec

原理介紹：https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技術實現：https://cs.stanford.edu/~quocle/paragraph_vector.pdf

3.simhash

原理介紹：http://www.cnblogs.com/maybe2030/p/5203186.html

技術實現：https://github.com/yanyiwu/simhash

三、文字相似度計算綜述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文資訊處理髮展報告（2016）》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上論文下載地址：

http://www.tensorflownews.com/

本篇文章出自http://www.tensorflownews.com，對深度學習感興趣，熱愛Tensorflow的小夥伴，歡迎關注我們的網站！

大規模文字相似度計算
2018-07-09
文字相似度計算之餘弦定理
2019-05-13
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
NLP segment-05-文字相似度計算 similarity java 開源實現
2024-11-02
MILAJava
文章相似度檢測，相似度檢測工具，原創度檢測工具
2020-06-10
同義詞相似度可以怎樣計算
2018-06-28
中文標題相似度檢測
2023-02-16
文字相似性計算--MinHash和LSH演算法
2021-03-17
演算法
CCF/CSP認證-第33次-相似度計算
2024-05-24
基於HBase構建千億級文字資料相似度計算與快速去重系統
2021-09-09
系統學習NLP（十七）--文字相似度
2019-03-13
文字相似度 HanPL漢語言處理
2024-08-05
推薦系統技術之文字相似性計算（三）
2019-03-01
推薦系統技術之文字相似性計算（二）
2019-02-25
文章相似度檢測工具哪個好？怎麼讓文章相似度變低？
2020-06-01
java實現兩個文字相似度 simHash 實現
2020-09-24
Java
“千言資料集：文字相似度”權威評測，網易易智榮登榜首
2021-06-22
使用AVX2指令集加速推薦系統MMR層餘弦相似度計算
2024-10-11
【csp202403-2】相似度計算【第33次CCF計算機軟體能力認證】
2024-05-26
計算機
自然語言處理中句子相似度計算的幾種方法
2018-06-15
自然語言處理
Unity TMPro 中文字型集
2024-09-29
Unity
中文短文字摘要資料集
2021-09-09
word2vec實現域名向量化並計算相似度-python程式碼
2021-09-02
Python
計算機如何理解事物的相關性-文件的相似度判斷
2020-11-27
計算機
java中利用hanlp比較兩個文字相似度的步驟
2019-05-06
JavaHanLP
Soulver 3 for Mac(多功能計算工具)中文版
2022-10-30
Mac
NLP 中文形近字相似度演算法開源實現
2021-11-23
演算法
OCR文字識別工具：OCRKit Pro中文
2022-10-20
Javafx-【直方圖】文字頻次統計工具中文/英文單詞統計
2021-11-09
Java直方圖
iText for MacOCR識別圖中文字工具
2021-02-03
Mac
如何計算詞語的相似性(附github)
2019-03-07
Github
【火爐煉AI】機器學習032-使用者之間相似度的計算
2018-10-08
AI機器學習
Oracle Linux 7設定中文字符集
2018-10-25
OracleLinux
mac文字處理工具：FSNotes for mac 中文版
2023-12-24
Mac
app直播原始碼，flutter Text自動計算文字內容的寬度
2022-11-29
APP原始碼Flutter
1123：影像相似度（C C++）
2020-10-14
C++
OCR圖片文字提取工具：Initiater for Mac中文版
2024-01-11
Mac
文字寫作工具：妙筆WonderPen mac中文版
2022-06-27
Mac

中文文字相似度計算工具集

歡迎大家關注我們的網站和系列教程：http://www.tensorflownews.com/，學習更多的機器學習、深度學習的知識！

本篇文章出自http://www.tensorflownews.com，對深度學習感興趣，熱愛Tensorflow的小夥伴，歡迎關注我們的網站！

相關文章