elasticsearch高亮之詞項向量

無風聽海發表於2022-03-15

原文網址 : https://www.cnblogs.com/wufengtinghai/p/16006874.html

一、什麼是詞項向量

詞項向量(term vector)是有elasticsearch在index document的時候產生，其包含對document解析過程中產生的分詞的一些資訊，例如分詞在欄位值中的位置、開始和結束的字元位置、分詞的後設資料payloads等；

term vector是單獨進行儲存的，會額外多佔用一杯的空間，所以elasticsearch預設情況下禁用詞項向量，如果要啟用，我們需要在欄位的mapping中使用term_vector進行設定；

二、term_vector的配置選項

term vector支援以下配置選項

配置選項	描述
no	不啟用term vector，預設值
yes	啟用term vector，但是僅僅記錄分詞
with_positions	啟用term vector, 記錄分詞及分詞在字串中的位置
with_offsets	啟用term vector, 記錄分詞在字串中的起始字元位置
with_positions_offsets	啟用term vector, 記錄分詞在字串中的位置及起始的字元位置
with_positions_payloads	啟用term vector, 記錄分詞在字串中的位置及payloads
with_positions_offsets_payloads	啟用term vector, 記錄分詞在字串中的位置、起始字元位置及payloads

我們使用以下mapping配置，為text、fullname欄位啟用term vector；

PUT /term_vector_test/
{
    "mappings":{
        "_doc":{
            "properties":{
                "text":{
                    "type":"text",
                    "term_vector":"with_positions_offsets_payloads",
                    "store":true,
                    "analyzer":"standard"
                },
                "fullname":{
                    "type":"text",
                    "term_vector":"with_positions_offsets_payloads",
                    "analyzer":"standard"
                }
            }
        }
    },
    "settings":{
        "index":{
            "number_of_shards":1,
            "number_of_replicas":0
        }
    }
}

將以下兩個document傳送到elasticsearch進行index；

PUT /term_vector_test/_doc/1
{
  "fullname" : "John Doe",
  "text" : "twitter test test test "
}

PUT /term_vector_test/_doc/2
{
  "fullname" : "Jane Doe",
  "text" : "Another twitter test ..."
}

三、檢視term vector的資料結構

elasticsearch提供了_termvectors API，我們可以使用它來檢視我們剛才index的doucment產生的term vector；

這個API每次只能檢視特定的某個文件的term vector資訊，我們可以通過url指定具體的document的_id;

term vector主要由term information、term statistics、field statistics構成，其中term information又分成了positions、offsets、payloads三個選項，我們可以通過請求的body的引數分別控制返回的資訊；

下邊我們檢視id=1的文件的text欄位的term vector資訊；

GET /twitter/_doc/1/_termvectors
{
  "fields" : ["text"],
  "offsets" : true,
  "payloads" : true,
  "positions" : true,
  "term_statistics" : true,
  "field_statistics" : true
}

通過返回的資訊可以看到erm vecter由三部分組成

分詞基本資訊

term position，分詞在欄位值中的位置，可以看到分詞test在欄位中佔據下標為1、2、3三個位置，而分詞twitter佔據下標為0的位置；

start and end offsets, 分詞在欄位值中字元開始和結束位置，可以看到分詞twitter的start_offset和end_offset分別為0和7；

term payloads，分詞的後設資料，可以看到每個分詞的payload都是d29yZA==，從這裡可以到elasticsearch預設值為 word；

term frequency,分詞在欄位值中出現的頻率，可以看到分詞twitter的term_freq是 1；

分詞統計資訊

total term frequency，當前分詞在所有文件的當前欄位中出現的頻率，可以看到twitter的ttf是2，test的ttf是4；

document frequency，當前欄位包含當前分詞的文件的數量，可以看到兩個document的text欄位都包含test及twitter,所以兩者的doc_freq為2；

欄位統計資訊

document count, 包含當前欄位的document數量，這裡兩個文件都包含text欄位，所以doc_count為2；

sum of document frequencies，當前欄位中所有分詞對應的document frequency的加和，這裡以下計算可以得到sum_doc_freq為6；

\[df_{sum}(text) = df(test) + df(twitter) + df(anther) + df(...) = 2 + 2 + 1 + 1 = 6 \]

sum of total term frequencies,當前欄位中所有分詞對應的total term frequency的加和，這裡以下計算可以得到sum_ttf為8；

\[tf_{sum}(text) = tf(test) + tf(twitter) + tf(anther) + tf(...) = 4 + 2 + 1 + 1 = 8 \]

{
  "_index" : "twitter",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "found" : true,
  "took" : 0,
  "term_vectors" : {
    "text" : {
      "field_statistics" : {
        "sum_doc_freq" : 6,
        "doc_count" : 2,
        "sum_ttf" : 8
      },
      "terms" : {
        "test" : {
          "doc_freq" : 2,
          "ttf" : 4,
          "term_freq" : 3,
          "tokens" : [
            {
              "position" : 1,
              "start_offset" : 8,
              "end_offset" : 12,
              "payload" : "d29yZA=="
            },
            {
              "position" : 2,
              "start_offset" : 13,
              "end_offset" : 17,
              "payload" : "d29yZA=="
            },
            {
              "position" : 3,
              "start_offset" : 18,
              "end_offset" : 22,
              "payload" : "d29yZA=="
            }
          ]
        },
        "twitter" : {
          "doc_freq" : 2,
          "ttf" : 2,
          "term_freq" : 1,
          "tokens" : [
            {
              "position" : 0,
              "start_offset" : 0,
              "end_offset" : 7,
              "payload" : "d29yZA=="
            }
          ]
        }
      }
    }
  }
}

基於以下兩點term statistics和field statistics並不是準確的；

刪除的文件不會計算在內；

只計算請求文件所在的分片的資料；

elasticsearch高亮之highlight原理
2022-03-17
Elasticsearch
elasticsearch演算法之詞項相似度演算法(二)
2022-01-24
Elasticsearch演算法
elasticsearch演算法之詞項相似度演算法(一)
2022-01-20
Elasticsearch演算法
Elasticsearch 高亮查詢
2019-01-24
Elasticsearch
ElasticSearch之ICU分詞器
2020-04-07
Elasticsearch分詞
Elasticsearch 向量搜尋
2022-04-16
Elasticsearch
詞向量入門
2020-05-27
elasticsearch之ik分詞器和自定義詞庫實現
2024-06-13
Elasticsearch分詞
Elasticsearch 近義詞詞庫配置
2024-07-24
Elasticsearch
vue-music:歌詞高亮滾動
2018-10-15
Vue
Elasticsearch 分詞器
2021-02-08
Elasticsearch分詞
springboot ElasticSearch 簡單的全文檢索高亮
2019-01-19
Spring BootElasticsearch
詞向量word to vector通俗理解
2020-11-01
Elasticsearch IK分詞器
2021-08-18
Elasticsearch分詞
ElasticSearch7.3 學習之定製分詞器（Analyzer）
2022-03-22
Elasticsearch分詞
詞向量表示：word2vec與詞嵌入
2020-04-25
elasticsearch之使用正規表示式自定義分詞邏輯
2023-02-21
Elasticsearch分詞
從查詢重寫角度理解elasticsearch的高亮原理
2022-03-30
Elasticsearch
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
Elasticsearch整合HanLP分詞器
2018-10-08
ElasticsearchHanLP分詞
【詞向量表示】Item2Vec、DeepWalk、Node2vec、EGES詞向量生成演算法
2024-12-05
演算法
高亮：單關鍵詞、多關鍵詞、多組多關鍵詞，從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
2018-12-27
亂燉“簡書交友”資料之程式碼（2）：關鍵詞抽取、Word2Vec詞向量
2018-06-16
docker 執行elasticsearch單例項（elasticsearch:7.12.0）
2021-07-30
DockerElasticsearch單例
怎樣生成一個好的詞向量
2018-06-16
親手做的詞向量分佈圖
2024-08-05
利用詞向量進行推理（Reasoning with word vectors）
2022-01-22
劃詞高亮功能的實現附帶開原始碼
2020-07-12
原始碼
微信小程式實現搜尋關鍵詞高亮
2021-03-29
微信小程式
Elasticsearch和向量資料庫的快速入門
2024-09-15
Elasticsearch資料庫
當前文字框高亮效果程式碼例項
2018-05-25
LLM中詞向量的表示和詞嵌入的一些疑問
2024-10-13
day88-ElasticSearch-分詞- 自定義擴充套件詞庫
2020-12-21
Elasticsearch分詞套件
支援向量機之線性可分向量機
2022-04-28
文字資料分析——主題提取+詞向量化
2020-10-20
ElasticSearch中使用ik分詞器進行實現分詞操作
2024-03-21
Elasticsearch分詞
Elasticsearch 6.x 倒排索引與分詞
2018-08-19
Elasticsearch索引分詞
《ElasticSearch6.x實戰教程》之分詞
2019-07-20
Elasticsearch分詞

elasticsearch高亮之詞項向量

相關文章