同義詞相似度可以怎樣計算

超人汪小建發表於2018-06-28

原文網址 : https://juejin.im/post/5b343193e51d4558c0444590

前言

詞語的相似性的計算方法有很多，比如字面相似度計算方法、基於語義詞典的計算方法、基於統計的相似度（向量空間模型）計算方法和基於神經網路的相似度計算方法。

本篇文章講講基於詞林的語義相似性。

詞林

《同義詞詞林》是上世紀80年代出版的對漢語詞彙進行語義分類的義類詞典，共收錄64223條詞目。隨後發展，哈爾濱工業大學資訊檢索實驗室對其進行修正完善，《哈工大社會計算與資訊檢索研究中心同義詞詞林擴充套件版》。

格式

舉個例子一般的格式如下，一共包含了五個級別和一個標記位，看下面第一行從左到右，A為一級、a為二級、01為三級、A為四級、02為五級、=為標記位。標記位主要是用於區分常規同義詞、相關詞和只有詞語本身，分別用= # @三個符號表示。其中 = 表示常規同義詞，# 表示相關詞，@ 則表示獨立性質，既沒有同義詞也沒有相關詞。

Aa01A02= 人類 生人 全人類
Aa01B03# 良民 順民
Aa01D01@ 角色
Aa02A08= 奴 妾 妾身 民女
複製程式碼

編碼位	1	2	34	5	67	8
類別級別	一級	二級	三級	四級	五級	標記位
類別含義	大類	中類	小類	詞群	原子詞群	詞語關係

詞語相似度

詞林的格式可以看成是一共有6個級，那麼可以給每個級分配一定的權重，比如分配為 1.2, 1.2, 1.0, 1.0, 0.8, 0.4，總和為5.6。那麼計算相似度時其實就是先獲取兩個單詞對應的編碼，然後再逐一對比編碼每個級是否相等，將所有相等的級的權重加起來，除以總和得到的值即為相似性值。實現如下：

public static double sumWeight(String code1, String code2) {
		double weight = 0.0;
		for (int i = 1; i <= 6; i++) {
			String c1 = getLevelCode(code1, i);
			String c2 = getLevelCode(code2, i);
			if (c1.equals(c2)) {
				weight += WEIGHT[i - 1];
			} else {
				break;
			}
		}
		return weight;
	}

public static String getLevelCode(String code, int level) {
		switch (level) {
		case 1:
			return code.substring(0, 1);
		case 2:
			return code.substring(1, 2);
		case 3:
			return code.substring(2, 4);
		case 4:
			return code.substring(4, 5);
		case 5:
			return code.substring(5, 7);
		case 6:
			return code.substring(7);
		}
		return "";
	}
複製程式碼

另外，由於每個詞可能有多個編碼，所以處理時取最高相似值的那個。

public double getSimilarity(String s1, String s2) {
		if (s1 == null && s2 == null) {
			return 1.0;
		} else if (s1 == null || s2 == null) {
			return 0.0;
		} else if (s1.equalsIgnoreCase(s2)) {
			return 1.0;
		}
		Set<String> codeSet1 = CilinDictionary.getInstance().getCilinCoding(s1);
		Set<String> codeSet2 = CilinDictionary.getInstance().getCilinCoding(s2);
		if (codeSet1 == null || codeSet2 == null) {
			return 0.0;
		}
		double similarity = 0.0;
		for (String code1 : codeSet1) {
			for (String code2 : codeSet2) {
				double s = sumWeight(code1, code2) / TOTAL_WEIGHT;
				logger.debug(code1 + "-" + code2 + "-" + sumWeight(code1, code2));
				if (similarity < s)
					similarity = s;
			}
		}
		return similarity;
	}
複製程式碼

測試

public void test() {
		String s1 = "中國人";
		String s2 = "炎黃子孫";
		CilinSimilarity cs = new CilinSimilarity();
		System.out.println(cs.getSimilarity(s1, s2));
		s1 = "汽車";
		s2 = "摩托";
		System.out.println(cs.getSimilarity(s1, s2));
		s1 = "人";
		s2 = "動物";
		System.out.println(cs.getSimilarity(s1, s2));
		s1 = "貓";
		s2 = "狗";
		System.out.println(cs.getSimilarity(s1, s2));
		s1 = "今天";
		s2 = "明天";
		System.out.println(cs.getSimilarity(s1, s2));
	}
複製程式碼

 1.0000000000000002
 0.4285714285714286
 0.0
 0.4285714285714286
 0.7857142857142858
複製程式碼

github

https://github.com/sea-boat/TextAnalyzer/blob/master/src/main/java/com/seaboat/text/analyzer/similarity/CilinSimilarity.java

-------------推薦閱讀------------

我的2017文章彙總——機器學習篇

我的2017文章彙總——Java及中介軟體

跟我交流，向我提問：

公眾號的選單已分為“讀書總結”、“分散式”、“機器學習”、“深度學習”、“NLP”、“Java深度”、“Java併發核心”、“JDK原始碼”、“Tomcat核心”等，可能有一款適合你的胃口。

為什麼寫《Tomcat核心設計剖析》

歡迎關注：

大規模文字相似度計算
2018-07-09
如何計算詞語的相似性(附github)
2019-03-07
Github
文字相似度計算之餘弦定理
2019-05-13
中文文字相似度計算工具集
2018-04-19
CCF/CSP認證-第33次-相似度計算
2024-05-24
迴圈神經網路設計同樣可以使用預訓練詞“嵌入”
2024-12-02
神經網路
中考常見同義詞和同義短語總結
2024-05-03
[20191122]schama建立同義詞.txt
2019-11-22
匯出oracle公有同義詞
2021-01-15
Oracle
【csp202403-2】相似度計算【第33次CCF計算機軟體能力認證】
2024-05-26
計算機
文章相似度檢測工具哪個好？怎麼讓文章相似度變低？
2020-06-01
自然語言處理中句子相似度計算的幾種方法
2018-06-15
自然語言處理
NLP segment-05-文字相似度計算 similarity java 開源實現
2024-11-02
MILAJava
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
elasticsearch演算法之詞項相似度演算法(二)
2022-01-24
Elasticsearch演算法
elasticsearch演算法之詞項相似度演算法(一)
2022-01-20
Elasticsearch演算法
6.5. 常用物件——6.5.4. 同義詞
2020-02-24
物件
視覺語言跨模態特徵語義相似度計算改進--表徵空間維度語義依賴感知聚合演算法 ACM MM
2024-06-25
視覺特徵演算法ACM
自動為新建的表建立同義詞
2019-05-04
【學習】SQL基礎-017-同義詞
2018-04-10
SQL
怎樣衡量兩個字串的相似度（編輯距離動態規劃求解）
2018-06-12
字串動態規劃
word2vec實現域名向量化並計算相似度-python程式碼
2021-09-02
Python
計算機如何理解事物的相關性-文件的相似度判斷
2020-11-27
計算機
oralce 跨使用者訪問表同義詞
2020-11-18
Elasticsearch：使用同義詞 synonyms 來提高搜尋效率
2021-11-03
Elasticsearch
計算機是怎樣跑起來的
2024-11-24
計算機
怎樣用python計算矩陣乘法？
2021-09-11
Python矩陣
文章相似度檢測，相似度檢測工具，原創度檢測工具
2020-06-10
時間複雜度怎麼算？如何計算時間複雜度？
2019-07-24
時間複雜度
樣本協方差矩陣的定義與計算
2020-08-13
矩陣
【火爐煉AI】機器學習032-使用者之間相似度的計算
2018-10-08
AI機器學習
基於HBase構建千億級文字資料相似度計算與快速去重系統
2021-09-09
從IP改編談到遊戲劇情意義——同世界觀下的相似故事
2020-01-02
遊戲
計算的豐富度可以用最小二乘法
2024-04-04
雲端計算就業前景怎麼樣？linux雲端計算怎麼開始學習
2021-01-21
就業Linux
文字相似性計算--MinHash和LSH演算法
2021-03-17
演算法
怎樣生成一個好的詞向量
2018-06-16
使用AVX2指令集加速推薦系統MMR層餘弦相似度計算
2024-10-11

同義詞相似度可以怎樣計算

前言

詞林

格式

詞語相似度

測試

github

相關文章