elasticsearch演算法之詞項相似度演算法(二)

無風聽海發表於2022-01-24

原文網址 : https://www.cnblogs.com/wufengtinghai/p/15838109.html

Elasticsearch演算法

六、萊文斯坦編輯距離

前邊的幾種距離計算方法都是針對相同長度的詞項，萊文斯坦編輯距離可以計算兩個長度不同的單詞之間的距離；萊文斯坦編輯距離是通過新增、刪除、或者將一個字元替換為另外一個字元所需的最小編輯次數；

我們假設兩個單詞u、v的長度分別為i、j，則其可以分以下幾種情況進行計算

當有一個單詞的長度為0的時候，則編輯距離為不為零的單詞的長度；

\[ld_{u,v}(i,j)=max(i,j)\; \; \; \; \; \; \; \; min(i,j) = 0 \]

從編輯距離的定義上來看，在單詞的變化過程中，每個字元的變化都可以看做是在其字首子字串的編輯距離基礎上，進行當前字元的刪除、新增、替換操作；

name當u和v的長度都不為0的時候，存在三種轉化的可能

u的不包含最後一個字元的字首轉化為v的前提下，這是刪除字元的情形；

此時的數學公式為

\[ld_{u,v}(i,j) = ld_{u,v}(i-1,j)+1 \]

u已經整個轉化為v不包含最後一個字元的字首的前提下，這是新增字元的情形；

此時的數學公式為

\[ld_{u,v}(i,j) = ld_{u,v}(i,j-1)+1 \]

u字首已經轉化為v的字首的前提下，這個時候需要根據兩個詞的最後一個字元是否相等，如果不等的話就需要替換；

此時的數學公式為

\[ld_{u,v}(i,j) = ld_{u,v}(i,j)+C_{u_{i}\ne{v_{i}}},\;\; C_{u_{i}\ne{v_{i}}} = \left\{\begin{matrix} 1, u_{i}\ne v_{i} \\ 0, u_{i}=v_{i} \\ \end{matrix}\right. \]

然後取三種情況裡最小的值作為編輯距離即可；

以上都是從遞迴的角度進行的抽象描述，可能直接理解起來有點困難；我們還是通過vlna轉變為vlan為例，使用矩陣了直觀的瞭解一下這個演算法；

矩陣的第一行可以理解為vlna的字首子串轉化為v的編輯距離;

v => v,編輯距離為0；

vl => v,編輯距離為1；

同樣的道理，矩陣的第一列是vlna的子串v分別轉化為vlan的所有字首子串的編輯距離；

接下來我們就可以看看第二行第二列的編輯距離是怎麼計算的；

第二行第一列表示v=>vl的編輯距離為1,即

\[ld_{vlna,vlan}(0,1) = ld_{v,vl} = 1 \]

此時只需要在這個基礎上刪除l即可；這就是對應刪除字元的情況，此時編輯距離為2；

\[ld_{vlna,vlan}(1,1)= ld_{vl,vl} = ld_{v,vl} + 1 = 2 \]

第一行第二列表示vl=>v的編輯距離為1,即

\[ld_{vlna,vlan}(1,0) = ld_{vl,v} = 1 \]

此時只需要在這個基礎上增加字元l即可；這就是對應新增字元的情況，此時編輯距離為2；

\[ld_{vlna,vlan}(1,1)= ld_{vl,vl} = ld_{vl,v} + 1 = 2 \]

第一行第一列表示v=>v的編輯距離為0，即

\[ld_{vlna,vlan}(0,0) = ld_{v,v} = 0 \]

由於此時由於兩個單詞裡的字元都是l，所以字元不需要替換，這就是對應字元替換的情況，此時編輯距離為0；

\[ld_{vlna,vlan}(1,1)= ld_{vl,vl} = ld_{v,v} + 0 = 0 \]

通過以上分析我們可以知道編輯距離為0；同時我們也可以發現矩陣中每個位置的編輯距離是跟其左邊、左上、上邊的編輯距離有關的，只需要計算三者中的最小者作為編輯距離即可；

通過以上的編輯距離矩陣，我們最終只關注最後一個單元格的值，而其計算只需要關注其上一行和當前行的編輯距離；

為了計算方便，我們可以在u和v前邊分別加一個空白佔位符，這樣對每個字元都存在三個方向位置的編輯距離了；

我們使用如下的方法計算編輯距離和編輯距離矩陣；

import copy
import pandas as pd

def levenshtein_edit_distance(u, v):
    u = u.lower()
    v = v.lower()
    distance = 0

    if len(u) == 0:
        distance = len(v)
    elif len(v) == 0:
        distance = len(u)
    else:
        edit_matrix = []
        pre_row = [0] * (len(v) + 1)
        current_row = [0] * (len(v) + 1)

        # 初始化補白行的編輯距離
        for i in range(len(u) +1):
            pre_row[i] = i

        for i in range(len(u)):
            current_row[0] = i + 1
            for j in range(len(v)):
                cost = 0 if u[i] == v[j] else 1
                current_row[j+1] = min(current_row[j] + 1, pre_row[j+1] + 1, pre_row[j] + cost)

            for j in range(len(pre_row)):
                pre_row[j] = current_row[j]

            edit_matrix.append(copy.copy(current_row))

        distance = current_row[len(v)]
        edit_matrix = np.array(edit_matrix)
        edit_matrix = edit_matrix.T
        edit_matrix = edit_matrix[1:,]
        edit_matrix = pd.DataFrame(data = edit_matrix, index=list(v), columns=list(u))

    return distance,edit_matrix

我們使用相同的關鍵字，使用如下程式碼進行測試

vlan = 'vlan'
vlna = 'vlna'
http='http'
words = [vlan, vlna, http]


input_word = 'vlna'
for word in words:
    distance, martrix = levenshtein_edit_distance(input_word, word)
    print(f"{input_word} and {word} levenshtein edit distance is  {distance}")
    print('the complate edit distance matrix')
    print(martrix)
    

vlna and vlan levenshtein edit distance is  2
the complate edit distance matrix
   v  l  n  a
v  0  1  2  3
l  1  0  1  2
a  2  1  1  1
n  3  2  1  2
vlna and vlna levenshtein edit distance is  0
the complate edit distance matrix
   v  l  n  a
v  0  1  2  3
l  1  0  1  2
n  2  1  0  1
a  3  2  1  0
vlna and http levenshtein edit distance is  4
the complate edit distance matrix
   v  l  n  a
h  1  2  3  4
t  2  2  3  4
t  3  3  3  4
p  4  4  4  4

七、餘弦距離

餘弦距離是一個跟餘弦相似度關聯的的概念；我們可以使用向量來表示不同的單詞，而兩個不同單詞向量之間的餘弦值便是餘弦相似度；兩者之間的夾角越小則餘弦值越小，則兩者約相似；

根據向量的內積公式可以得到如下的餘弦相似度公式；

\[cs(u,v) = \cos\theta = \frac{u\cdot v }{\|u\| \|v\|} = \frac{\sum_{i=1}^{n} u_{i}v_{i} }{\sqrt{\sum_{i=1}^{n} u_{i}^{2} } \sqrt{\sum_{i=1}^{n} v_{i}^{2} }} \]

餘弦相似度越大，則兩個單詞越相似，而距離則正好相反，則可得餘弦距離為

\[cs(u,v)= 1- cs(u,v) =1- \cos\theta =1- \frac{u\cdot v }{\|u\| \|v\|} =1- \frac{\sum_{i=1}^{n} u_{i}v_{i} }{\sqrt{\sum_{i=1}^{n} u_{i}^{2} } \sqrt{\sum_{i=1}^{n} v_{i}^{2} }} \]

要計算餘弦距離就需要首先將單詞轉化為向量，我們可以通過scipy.stats.itemfreq來將單詞進行字元袋向量化；我們通過以下方法計算每個詞中的每個字元出現的次數；

from scipy.stats import itemfreq

def boc_term_vectors(words):
    words = [word.lower() for word in words]
    unique_chars = np.unique(np.hstack([list(word) for word in words]))
    word_term_counts = [{char:count for char,count in itemfreq(list(word))} for word in words]


    boc_vectors = [np.array([
        int(word_term_count.get(char, 0)) for char in unique_chars])
        for   word_term_count in  word_term_counts
    ]

    return list(unique_chars), boc_vectors

使用以下程式碼測試一下

vlan = 'vlan'
vlna = 'vlna'
http='http'
words = [vlan, vlna, http]

chars, (boc_vlan,boc_vlna,boc_http) = boc_term_vectors(words)
print(f'all chars {chars}')
print(f"vlan {boc_vlan}")
print(f"vlna {boc_vlna}")
print(f"http {boc_http}")


all chars ['a', 'h', 'l', 'n', 'p', 't', 'v']
vlan [1 0 1 1 0 0 1]
vlna [1 0 1 1 0 0 1]
http [0 1 0 0 1 2 0]

我們可以根據公式使用以下方法計算餘弦距離；

def cosin_distance(u, v):
    distance = 1.0 - np.dot(u,v)/(np.sqrt(sum(np.square(u))) * np.sqrt(sum(np.square(v))))
    return distance

使用相同的關鍵字，使用以下程式碼測試餘弦距離；

vlan = 'vlan'
vlna = 'vlna'
http='http'
words = [vlan, vlna, http]

chars, boc_words = boc_term_vectors(words)
input_word =vlna
boc_input = boc_words[1]
for word, boc_word in zip(words, boc_words):
    print(f'{input_word} and {word} cosine distance id {cosin_distance(boc_input, boc_word)}')
    

vlna and vlan cosine distance id 0.0
vlna and vlna cosine distance id 0.0
vlna and http cosine distance id 1.0

elasticsearch演算法之詞項相似度演算法(一)
2022-01-20
Elasticsearch演算法
elasticsearch演算法之推薦系統的相似度演算法(一)
2022-01-27
Elasticsearch演算法
elasticsearch高亮之詞項向量
2022-03-15
Elasticsearch
影象相似度中的Hash演算法
2019-07-28
演算法
移動端影像相似度演算法選型
2018-10-24
演算法
02聚類演算法-相似度距離公式、維度災難
2018-12-08
聚類演算法公式
相似人群畫像演算法
2018-07-24
演算法
elasticsearch演算法之搜尋模型(一)
2022-03-02
Elasticsearch演算法模型
NLP 中文形近字相似度演算法開源實現
2021-11-23
演算法
同義詞相似度可以怎樣計算
2018-06-28
Hanlp分詞例項：Java實現TFIDF演算法
2018-11-14
HanLP分詞Java演算法
ElasticSearch之ICU分詞器
2020-04-07
Elasticsearch分詞
SSIM結構相似性演算法
2020-12-18
演算法
解析：百度演算法之颶風演算法3.0
2020-12-21
演算法
DFA演算法之內容敏感詞過濾
2022-04-21
演算法
字串相似度演算法完全指南：編輯、令牌與序列三類演算法的全面解析與深入分析
2024-07-04
字串演算法
JavaScript 演算法之複雜度分析
2019-03-04
JavaScript演算法複雜度
演算法之複雜度判斷
2019-05-31
演算法複雜度
搜尋引擎核心技術與演算法 —— 詞項詞典與倒排索引優化
2020-01-09
演算法索引優化
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
排序演算法之——二分插入排序演算法
2021-09-09
排序演算法
Elasticsearch BM25相關度演算法超詳細解釋
2021-08-23
Elasticsearch演算法
搜尋引擎核心技術與演算法 —— 詞項詞典與倒排索引最佳化
2020-01-09
演算法索引
文字相似度計算之餘弦定理
2019-05-13
前端技術分享：演算法入門之“二分演算法”
2021-05-25
前端演算法
小前端學演算法之複雜度分析
2019-03-19
前端演算法複雜度
概率演算法_二項分佈和泊松分佈
2018-08-24
演算法
通俗地說決策樹演算法（二）例項解析
2019-07-29
演算法
文字相似性計算--MinHash和LSH演算法
2021-03-17
演算法
Python之粒子群演算法（含程式碼例項）
2022-10-12
Python演算法
每日一道演算法：最後一個單詞的長度
2020-02-14
演算法
每日演算法----最後一個單詞的長度----2020/10/15
2020-10-15
演算法
elasticsearch之ik分詞器和自定義詞庫實現
2024-06-13
Elasticsearch分詞
25.二叉樹的應用例項演算法設計：判斷兩棵二叉樹A與B是否相似，即要麼它們都為空或都只有一個根結點，要麼它們的左右子樹均相似。演算法思路： 1、保留之前所寫二叉樹標頭檔案內容。 2、再設計判斷相似演算法L
2020-10-28
二叉樹演算法
文章相似度檢測，相似度檢測工具，原創度檢測工具
2020-06-10
求教 | PHP，最小二乘法多項式求解，演算法！
2022-01-16
PHP演算法
LeetCode初級演算法之字串：242 有效的字母異位詞
2020-12-09
LeetCode演算法字串
BiLSTM演算法（二）
2024-04-10
演算法

elasticsearch演算法之詞項相似度演算法(二)

相關文章