NLP segment-05-文字相似度計算 similarity java 開源實現

老马啸西风發表於2024-11-02

擴充閱讀

分詞系列專題

jieba-fenci 01 結巴分詞原理講解 segment

jieba-fenci 02 結巴分詞原理講解之資料歸一化 segment

jieba-fenci 03 結巴分詞與繁簡體轉換 segment

jieba-fenci 04 結巴分詞之詞性標註實現思路 speechTagging segment

jieba-fenci 05 結巴分詞之簡單聊一聊

關鍵詞系列專題

NLP segment-01-聊一聊分詞

NLP segment-02-聊一聊關鍵詞提取 keyword

NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現

NLP segment-04-自動摘要 auto-summary java 開源實現

NLP segment-05-文字相似度計算 similarity java 開源實現

NLP segment-20-分詞開源專案介紹 HanLP 未來十年的自然語言處理

NLP segment-21-分詞開源專案介紹 ansj_seg

倒排索引原理與實現 reverse-index

TF-IDF 自動生成文章摘要

TF-IDF 自動提取關鍵詞

相似文章演算法之語義指紋-文字內容去重

TF-IDF 找出相似文章演算法

NLP segment-21-分詞開源專案介紹 ansj_seg

開源專案

為了便於大家學習,專案開源地址如下,歡迎 fork+star 鼓勵一下老馬~

nlp-keyword 關鍵詞

pinyin 漢字轉拼音

segment 高效能中文分詞

opencc4j 中文繁簡體轉換

nlp-hanzi-similar 漢字相似度

word-checker 拼寫檢測

sensitive-word 敏感詞

前言

前面一些內容,我們介紹了分詞。以及 TF-IDF 的實現原理。

基於分詞實現 auto-summary 自動摘要。

這一節我們來一起看一下文字相似度的計算。

nlp-keyword

nlp-keyword 高效能的 java 分詞關鍵詞提取實現,基於分詞 segment

願景:成為 java 最好用的關鍵詞工具。

特性

  • 基於 TF-IDF 演算法的關鍵字演算法

  • 靈活的條件指定

變更日誌

文字相似度

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>nlp-keyword-similarity</artifactId>
    <version>1.2.0</version>
</dependency>

入門例子

final String source = "我喜歡看電影,讀書和旅遊。";
final String target = "我不喜歡看電影。我愛唱跳、RAP、Music~";

double rank = SimilarityHelper.similarity(source, target);

結果:

0.677537337470188

相關文章