java實現兩個文字相似度 simHash 實現

熱心網友007發表於2020-09-24

原文網址 : https://blog.csdn.net/qq_38103666/article/details/108776670

java實現比較兩個文字相似度 simHash 實現

java實現兩個文字相似度 simHash 實現

java實現兩個文字相似度 simHash 實現

// An highlighted block
package com.timefinance.admin.common.util;

import com.hankcs.hanlp.HanLP;
import org.jsoup.Jsoup;

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.stream.Collectors;

public class SimilarityUtil {
    /**
     * 獲得兩個句子的相似度
     *
     * @param sentence1
     * @param sentence2
     * @return
     */
    public static double getSimilarity(String sentence1, String sentence2) {
        List<String> sent1Words = getSplitWords(sentence1);
        List<String> sent2Words = getSplitWords(sentence2);
    System.out.println(sent1Words);
    System.out.println(sent2Words);
    
        List<String> allWords = mergeList(sent1Words, sent2Words);

        int[] statistic1 = statistic(allWords, sent1Words);
        int[] statistic2 = statistic(allWords, sent2Words);

        double dividend = 0;
        double divisor1 = 0;
        double divisor2 = 0;
        for (int i = 0; i < statistic1.length; i++) {
            dividend += statistic1[i] * statistic2[i];
            divisor1 += Math.pow(statistic1[i], 2);
            divisor2 += Math.pow(statistic2[i], 2);
        }

        return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));
    }

    private static int[] statistic(List<String> allWords, List<String> sentWords) {
        int[] result = new int[allWords.size()];
        for (int i = 0; i < allWords.size(); i++) {
            result[i] = Collections.frequency(sentWords, allWords.get(i));
        }
        return result;
    }

    private static List<String> mergeList(List<String> list1, List<String> list2) {
        List<String> result = new ArrayList<>();
        result.addAll(list1);
        result.addAll(list2);
        return result.stream().distinct().collect(Collectors.toList());
        
    }

    private static List<String> getSplitWords(String sentence) {
        // 去除掉html標籤
        sentence = Jsoup.parse(sentence.replace("&nbsp;","")).body().text();
        // 標點符號會被單獨分為一個Term，去除之
        return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？ ".contains(s)).collect(Collectors.toList());
    }

     
}

NLP segment-05-文字相似度計算 similarity java 開源實現
2024-11-02
MILAJava
java中利用hanlp比較兩個文字相似度的步驟
2019-05-06
JavaHanLP
java 一個類實現兩個介面的案例
2020-10-07
Java
兩行程式碼輕鬆讓 Java 實現大文字平行計算
2020-06-22
行程Java
兩個棧實現佇列
2018-03-28
佇列
NLP 中文形近字相似度演算法開源實現
2021-11-23
演算法
JAVA 兩個類同時實現同一個介面的方法
2024-08-12
Java
劍指offer(java實現)第5題“用兩個棧實現佇列”-牛客網
2018-07-21
Java佇列
兩個棧實現佇列操作
2019-03-09
佇列
[ Shell ] 兩個 case 實現 GetOptions 效果
2022-03-19
固定寬度下，CSS 實現自適應文字
2022-11-23
CSS
JAVA 如何實現大文字去除重複行
2020-06-15
Java
根據兩點經緯度計算距離和角度——java實現
2018-04-24
Java
【演算法-java實現】合併兩個有序連結串列
2020-10-21
演算法Java
兩個視窗如何實現通訊
2024-05-12
JavaScript實現兩個數的交換
2020-10-15
JavaScript
C#比較兩個字串的相似度【轉】
2018-03-21
C#字串
JS實現簡單的判斷文字框長度
2018-05-28
JS
Spark/Scala實現推薦系統中的相似度演算法（歐幾里得距離、皮爾遜相關係數、餘弦相似度：附實現程式碼）
2020-12-11
Spark演算法
Java 實現OCR掃描/識別圖片文字
2024-04-01
Java
Java ffmpeg 實現影片加文字/圖片水印功能
2024-10-24
Java
Spring實現IOC容器的兩種實現方式
2020-10-29
Spring
基於GRU和am-softmax的句子相似度模型 | 附程式碼實現
2018-07-30
模型
word2vec實現域名向量化並計算相似度-python程式碼
2021-09-02
Python
大規模文字相似度計算
2018-07-09
【UWP】實現一個波浪進度條
2022-04-04
文字印表機效果實現
2018-03-07
呼叫函式實現兩個數交換
2018-04-14
函式
Python實現工廠模式的兩個例子
2018-03-28
Python模式
pandas 實現兩個dataframe相減的方式
2020-12-29
Java中實現並行請求兩種方式
2023-12-14
Java並行
自己實現一個java的arraylist
2021-06-27
Java
文字相似度計算之餘弦定理
2019-05-13
系統學習NLP（十七）--文字相似度
2019-03-13
文字相似度 HanPL漢語言處理
2024-08-05
中文文字相似度計算工具集
2018-04-19
JavaScript實現文字豎排效果
2018-08-07
JavaScript
Crystal 實現文字識別程式
2024-11-05

java實現兩個文字相似度 simHash 實現

java實現比較兩個文字相似度 simHash 實現

java實現兩個文字相似度 simHash 實現

相關文章