ES 筆記十八：搜尋的相關性算分

CrazyZard發表於2019-11-07

原文網址 : https://learnku.com/articles/36132

筆記

相關性- Relevance
- 搜尋的相關性算分，描述了一個文件和查詢語句匹配的程度。ES會對每個匹配查詢條件的結構進行算分_score
- 打飯的本質是排序,需要把最符合使用者需求的文件排在前面。ES 5之前，預設的相關性打分採用TF-IDF，現在採用BM25

ES筆記十八：搜尋的相關性算分

Term Frequency ：檢查詞在一篇文件裡出現的頻率
- 檢查詞出現的次數除以文件的總字數
度量一條查詢和結果文件縣管轄的建檔方法：簡單講搜尋每一個詞的TF進行相加
- TF（區塊鏈） + TF（的）+ TF（應用）
Stop Word
- “的”在文件中出現了很多次，但是對貢獻相關度幾乎沒有用處，不應該考慮他們的TF

DF：檢索詞在所有文件中出現的頻率
- “區塊鏈”在相對比較少的文件中出現
- “應用”在相對比較多的文件中出現
- “Stop Word”在大量的文件中出現
Inverse Document Frequency ：簡單說 = log（全部文件書 / 檢索詞出現過的文件總數）
TF-IDF 本質上就是將TF求和變成了加權求和
- TF（區塊鏈） IDF（區塊鏈） + TF（的） IDF（的）+ TF（應用）* IDF（應用）

ES筆記十八：搜尋的相關性算分

TF-IDF 被公認為是資訊檢索領域最重要的發明
除了在資訊檢索，再文獻分類和其他相關領域有著非常廣泛的應用
IDF的概念，最早是劍橋大學的“斯巴達.瓊斯”提出
- 1972年 ——“關鍵詞特殊性的統計解釋和它在文獻檢索中的應用”
- 但是沒有從理論上件事IDF應該是用log（全部文件書 / 檢索詞出現過的文件總數），而不是其他函式。也沒有做進一步的研究
1970,1980年代薩爾頓和羅賓遜，進行了進一步的證明和研究，並用夏農資訊做了證明
現代搜尋引擎，對TF-IDF進行了大量細微的優化

ES筆記十八：搜尋的相關性算分

demo

PUT testscore/_bulk
{"index":{"_id":1}}
{"content":"we use Elasticsearch to power the search"}
{"index":{"_id":2}}
{"content":"we like elasticsearch"}
{"index":{"_id":3}}
{"content":"The scoring of documents is caculated by the scoring formula"}
{"index":{"_id":4}}
{"content":"you know, for search"}
//查詢
POST /testscore/_search
{
  "explain": true,
  "query": {
    "match": {
     // "content":"you"
      "content": "elasticsearch"
      //"content":"the"
      //"content": "the elasticsearch"
    }
  }
}

Boosting 是控制相關度的一種手段
- 索引，欄位或查詢子條件
引數boost的含義
- 當 boost > 1時，打分的相關度相對性提高
- 當 0 < boost < 1 時，打分的權重相對性降低
- 當 boost < 0 時，貢獻度負分

POST testscore/_search
{
    "query": {
        "boosting" : {
            "positive" : {
                "term" : {
                    "content" : "elasticsearch"
                }
            },
            "negative" : {
                 "term" : {
                     "content" : "like"
                }
            },
            "negative_boost" : 0.2
        }
    }
}

ES 筆記二十八：配置跨叢集搜尋
2019-11-28
筆記
ES 筆記十七：結構化搜尋
2019-11-06
筆記
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
ES[7.6.x]學習筆記（九）搜尋
2020-05-21
筆記
ES7學習筆記（十三）GEO位置搜尋
2020-05-29
筆記
語義搜尋相關配置
2024-04-20
ES 筆記十六：基於詞項和基於全文的搜尋
2019-11-04
筆記
ES 筆記三十四：剖析分散式查詢及相關性演算法
2019-12-22
筆記分散式演算法
Elasticsearch（ES）的高階搜尋（DSL搜尋）（上篇）
2021-09-20
Elasticsearch
Elasticsearch（ES）的高階搜尋（DSL搜尋）（下篇）
2021-09-21
Elasticsearch
ES[7.6.x]學習筆記（十二）高亮和搜尋建議
2020-05-28
筆記
大眾點評搜尋相關性技術探索與實踐
2022-07-07
CSS 實現搜尋相關互動
2021-11-03
CSS
MySQL單詞搜尋相關度排名
2021-01-15
MySql
折半搜尋學習筆記
2024-03-31
筆記
Idea全域性搜尋關鍵字
2024-03-15
Idea
計算兩列的相關性
2024-03-26
完成搜尋模組功能，引入搜尋頁面。接收並封裝使用者的搜尋關鍵字、三級分類id、屬性值列表，對es執行查詢操作，並設定高亮！
2020-12-19
封裝
php相關筆記
2018-10-12
PHP筆記
路由相關筆記
2021-03-26
路由筆記
ES 筆記三十八：Bucket & Metric 聚合分析及巢狀聚合
2019-12-28
筆記巢狀
搜尋線上服務的儲存計算分離
2018-11-30
強化學習(十八) 基於模擬的搜尋與蒙特卡羅樹搜尋(MCTS)
2019-03-04
強化學習
dash + fac 相關筆記
2024-12-06
筆記
docker相關概念筆記
2021-03-02
Docker筆記
laravel8實現ES搜尋
2022-03-13
Laravel
ES 筆記二十五：綜合排序 Function Score Query 優化算分
2019-11-26
筆記排序Function優化
Anaconda3相關筆記
2020-10-30
筆記
Kafka筆記系列-概念相關
2024-11-04
Kafka筆記
Windows API 程式相關筆記
2021-08-13
WindowsAPI筆記
idea全域性搜尋的快捷鍵 idea搜尋內容快捷鍵
2022-05-25
Idea
演算法筆記（廣度優先搜尋）
2019-09-30
演算法筆記
可搜尋加密技術 - 學習筆記（一）
2021-07-17
加密筆記
ES 筆記四十三：文件的父子關係
2020-01-12
筆記
elasticsearch 高階搜尋示例 es7.0
2020-08-04
Elasticsearch
laravel Es搜尋檢索高亮顯示
2022-03-13
Laravel
55_初識搜尋引擎_相關度評分TF&IDF演算法獨家解密
2024-10-02
演算法解密
在wsl中部署puppeteer的相關筆記
2024-07-05
筆記

ES 筆記十八：搜尋的相關性算分

demo

相關文章