NLP segment-05-文字相似度計算 similarity java 開源實現

老马啸西风發表於2024-11-02

原文網址 : https://www.cnblogs.com/houbbBlogs/p/18522534

MILAJava

擴充閱讀

分詞系列專題

jieba-fenci 01 結巴分詞原理講解 segment

jieba-fenci 02 結巴分詞原理講解之資料歸一化 segment

jieba-fenci 03 結巴分詞與繁簡體轉換 segment

jieba-fenci 04 結巴分詞之詞性標註實現思路 speechTagging segment

jieba-fenci 05 結巴分詞之簡單聊一聊

關鍵詞系列專題

NLP segment-01-聊一聊分詞

NLP segment-02-聊一聊關鍵詞提取 keyword

NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現

NLP segment-04-自動摘要 auto-summary java 開源實現

NLP segment-05-文字相似度計算 similarity java 開源實現

NLP segment-20-分詞開源專案介紹 HanLP 未來十年的自然語言處理

NLP segment-21-分詞開源專案介紹 ansj_seg

倒排索引原理與實現 reverse-index

TF-IDF 自動生成文章摘要

TF-IDF 自動提取關鍵詞

相似文章演算法之語義指紋-文字內容去重

TF-IDF 找出相似文章演算法

NLP segment-21-分詞開源專案介紹 ansj_seg

開源專案

為了便於大家學習，專案開源地址如下，歡迎 fork+star 鼓勵一下老馬~

nlp-keyword 關鍵詞

pinyin 漢字轉拼音

segment 高效能中文分詞

opencc4j 中文繁簡體轉換

nlp-hanzi-similar 漢字相似度

word-checker 拼寫檢測

sensitive-word 敏感詞

前言

前面一些內容，我們介紹了分詞。以及 TF-IDF 的實現原理。

基於分詞實現 auto-summary 自動摘要。

這一節我們來一起看一下文字相似度的計算。

nlp-keyword

nlp-keyword 高效能的 java 分詞關鍵詞提取實現，基於分詞 segment。

願景：成為 java 最好用的關鍵詞工具。

特性

基於 TF-IDF 演算法的關鍵字演算法
靈活的條件指定

變更日誌

文字相似度

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>nlp-keyword-similarity</artifactId>
    <version>1.2.0</version>
</dependency>

入門例子

final String source = "我喜歡看電影，讀書和旅遊。";
final String target = "我不喜歡看電影。我愛唱跳、RAP、Music~";

double rank = SimilarityHelper.similarity(source, target);

結果：

0.677537337470188

NLP 中文形近字相似度演算法開源實現
2021-11-23
演算法
java實現兩個文字相似度 simHash 實現
2020-09-24
Java
大規模文字相似度計算
2018-07-09
系統學習NLP（十七）--文字相似度
2019-03-13
文字相似度計算之餘弦定理
2019-05-13
中文文字相似度計算工具集
2018-04-19
相容oracle的edit_distance_similarity 比較兩個字串相似度
2023-02-21
OracleMILA字串
word2vec實現域名向量化並計算相似度-python程式碼
2021-09-02
Python
同義詞相似度可以怎樣計算
2018-06-28
大文字平行計算實現方式
2020-05-12
文字相似性計算--MinHash和LSH演算法
2021-03-17
演算法
NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現
2024-11-01
Java
CCF/CSP認證-第33次-相似度計算
2024-05-24
java中利用hanlp比較兩個文字相似度的步驟
2019-05-06
JavaHanLP
基於HBase構建千億級文字資料相似度計算與快速去重系統
2021-09-09
文字相似度 HanPL漢語言處理
2024-08-05
兩行程式碼輕鬆讓 Java 實現大文字平行計算
2020-06-22
行程Java
推薦系統技術之文字相似性計算（三）
2019-03-01
推薦系統技術之文字相似性計算（二）
2019-02-25
小白使用百度 NLP 實現語料庫 TTR 統計
2018-11-26
百度點石隱私計算平臺與FATE開源框架實現互聯互通
2023-03-09
框架
各種NLP操作難實現？谷歌開源序列建模框架Lingvo
2019-02-27
谷歌框架
根據兩點經緯度計算距離和角度——java實現
2018-04-24
Java
java實現有理數分數相關計算（淺度拷貝）案例
2020-12-04
Java
【csp202403-2】相似度計算【第33次CCF計算機軟體能力認證】
2024-05-26
計算機
自然語言處理中句子相似度計算的幾種方法
2018-06-15
自然語言處理
Java利用Scanner 加Swich實現計算器
2020-11-29
Java
計算機如何理解事物的相關性-文件的相似度判斷
2020-11-27
計算機
Tensorflow實現的深度NLP模型集錦（附資源）
2019-04-29
模型
【NLP】文字情感分析
2023-01-13
按揭貸款的計算原理與java實現
2020-11-09
Java
Java實現一個簡單的計算器
2024-05-29
Java
簡單幾行程式碼輕鬆實現大文字平行計算
2020-05-12
行程
Java開發者的Python快速實戰指南：探索向量資料庫之影像相似搜尋-文字版
2023-12-11
JavaPython資料庫
文章相似度檢測，相似度檢測工具，原創度檢測工具
2020-06-10
直播系統開發，實現在進度條中顯示文字顯示進度
2021-11-22
PAT1077互評成績計算(java實現)
2019-01-23
Java
用java實現一個簡單的計算器
2020-12-04
Java

NLP segment-05-文字相似度計算 similarity java 開源實現

擴充閱讀

分詞系列專題

關鍵詞系列專題

開源專案

前言

nlp-keyword

特性

文字相似度

maven 引入

入門例子

相關文章