【搜尋引擎】Solr Suggester 實現全文檢索功能-分詞和和自動提示

monkjavaer發表於2019-06-26

原文網址 : https://www.cnblogs.com/monkjavaer/p/11093070.html

Solr分詞

功能需求

全文檢索搜尋引擎都會有這樣一個功能：輸入一個字元便自動提示出可選的短語：
【搜尋引擎】Solr Suggester 實現全文檢索功能-分詞和和自動提示

要實現這種功能，可以利用solr的SuggestComponent，SuggestComponent這種方法利用Lucene的Suggester實現，並支援Lucene中可用的所有查詢實現。

實現

1. 配置 managed-schema檔案

配置自己core資料夾conf下的managed-schema檔案

這個是自己的欄位：

   <field name="name" type="string"  indexed="true" stored="true"/>
   <field name="username" type="string"  indexed="true" stored="true"/>
   <field name="password" type="string"  indexed="true" stored="true"/>
   <field name="phone" type="string"  indexed="true" stored="true"/>

新建一個suggest_username欄位，並將username的值拷貝到suggest_username欄位：

<field name="suggest_username" type="text_suggest"  indexed="true" stored="true"/>
<copyField source="username" dest="suggest_username"/>

copyField的source表示源，dest表示目標。

新建一個fieldType專門用於搜尋建議：

   <fieldType name="text_suggest" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPossessiveFilterFactory"/>
      </analyzer>
    </fieldType>

tokenizer就是分詞器，官方解釋：

The job of a tokenizer is to break up a stream of text into tokens, where each token is (usually) a sub-sequence of the characters in the text。

就是指將文字流分解為標記tokens，這寫tokens也是文字的子序列。

分詞器tokenizer有很多種，詳細資訊見官網：
https://lucene.apache.org/solr/guide/8_1/tokenizers.html
filter就是過濾器，官方解釋：

The job of a filter is usually easier than that of a tokenizer since in most cases a filter looks at each token in the stream sequentially and decides whether to pass it along, replace it or discard it.

不同的過濾器將輸入流替換或者丟棄或者直接通過。

過濾器也有很多種，官網詳細資訊：
https://lucene.apache.org/solr/guide/8_1/filter-descriptions.html

2. 配置solrconfig.xml檔案

solrconfig.xml檔案也在新建核心core的conf資料夾下

加入searchComponent

<searchComponent name="suggest" class="solr.SuggestComponent">
    <lst name="suggester">
      <str name="name">AnalyzingSuggester</str>
      <str name="lookupImpl">AnalyzingLookupFactory</str>      
      <str name="dictionaryImpl">DocumentDictionaryFactory</str>
      <str name="field">suggest_username</str>
      <str name="weightField">suggest_username</str>
      <str name="payloadField">id</str>
      <str name="suggestAnalyzerFieldType">text_suggest</str>
      <str name="buildOnStartup">false</str>
    </lst>
  </searchComponent>

在searchComponent中的suggester需要配置一些引數。

name ；suggest名字
lookupImpl；查詢不同演算法實現，根據需要選擇。
dictionaryImpl；dictionaryImpl。
field；建議的欄位，如果是對多個欄位做建議，就把多個欄位拷貝到一個欄位裡面。即在定義filed的時候，定義為允許多值。
weightField；表示權重。
payloadField ；用於返回某一個值。
suggestAnalyzerFieldType；field欄位的型別。
buildOnStartup；啟動的時候構建建議索引。

加入一個requestHandler用於建議：solr.SearchHandler

  <requestHandler name="/suggest" class="solr.SearchHandler" 
                  startup="lazy" >
    <lst name="defaults">
      <str name="suggest">true</str>
      <str name="suggest.count">10</str>
    </lst>
    <arr name="components">
      <!-- 上面配置的searchComponent名字suggest -->
      <str>suggest</str>
    </arr>
  </requestHandler>

這裡 suggest就是上面配置的searchComponent名字suggest。

測試

通過瀏覽器位址列輸入連線測試:
http://127.0.0.1:8983/solr/user/suggest?suggest=true&suggest.build=true&suggest.dictionary=AnalyzingSuggester&suggest.q=a

部分引數說明

suggest.build=true ；表示構建suggest的索引，全部構建會耗時。可優化。
suggest.dictionary=AnalyzingSuggester ；指明使用上面加入的suggester字典元件名字
suggest.q=a ；suggest查詢內容。

請求具體引數地址：

https://lucene.apache.org/solr/guide/8_1/suggester.html#suggest-request-handler-parameters

返回結果


  "responseHeader": {
    "status": 0,
    "QTime": 10
  },
  "command": "build",
  "suggest": {
    "AnalyzingSuggester": {
      "aoa": {
        "numFound": 3,
        "suggestions": [
          {
            "term": "aoa lee",
            "weight": 0,
            "payload": "7859b42e-3428-40c0-9036-6d50767a5ff2"
          },
          {
            "term": "aoa lee key",
            "weight": 0,
            "payload": "0bead5d5-2570-44ba-830b-030f8a888ea3"
          },
          {
            "term": "aoa lee key lol bob",
            "weight": 0,
            "payload": "9cc3c4d7-7d34-422b-8164-a4c4c92caa08"
          }
        ]
      }
    }
  }
}

返回的結果中主要有三個引數：

term ；表示命中的結果記錄
weight ；表示權重
payload ；表示負載，也可用於返回某一個值，這裡我們在searchComponent配置的 id表示負載返回我們的id，可以通過id做其他業務需求。

【搜尋引擎】 PostgreSQL 10 實時全文檢索和分詞、相似搜尋、模糊匹配實現類似Google搜尋自動提示
2019-07-11
SQL分詞Go
【搜尋引擎】Solr全文檢索近實時查詢優化
2019-06-27
Solr優化
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
solr搜尋分詞優化
2018-03-10
Solr分詞優化
solr全文檢索學習
2020-11-14
Solr
Mysql 如何實現全文檢索，關鍵詞跑分
2020-08-25
MySql
Trie|如何用字典樹實現搜尋引擎的關鍵詞提示功能
2019-06-25
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
sphinx 全文搜尋引擎
2019-02-16
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
php + MongoDB + Sphinx 實現全文檢索
2019-02-16
PHPMongoDB
DjangoRestFramework 實現分頁功能與搜尋功能
2019-08-15
DjangoRESTFramework
中文搜尋引擎技術揭密：中文分詞
2020-04-05
中文分詞
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
使用 Laravel Scout + ElasticSearch 實現全文搜尋
2021-10-15
LaravelElasticsearch
Laravel 使用 xunsearch（迅搜）全文檢索引擎
2021-10-30
Laravel索引
SQL Server 全文搜尋功能、全文索引方式介紹
2019-01-30
SQLServer索引
配置全文檢索
2019-07-20
相見恨晚！開源的傻瓜搜尋引擎，幫你快速實現搜尋功能
2021-08-13
Laravel5.5 使用 Elasticsearch 做引擎，scout 全文搜尋
2018-11-27
LaravelElasticsearch
Elasticsearch——全文搜尋
2019-02-18
Elasticsearch
C#實現前向最大匹、字典樹（分詞、檢索）
2020-05-15
C#分詞
Vue + element.ui table 分頁功能+搜尋功能的實現
2020-11-30
VueUI
如何在Web前端實現CAD圖文字全文搜尋功能之技術分享
2022-04-24
Web前端
【搜尋引擎】SOLR VS Elasticsearch(2019技術選型參考)
2019-06-23
SolrElasticsearch
全文檢索庫 bluge
2021-12-20
Kibana 全文檢索操作
2021-07-08
ES(Elasticsearch)支援PB級全文搜尋引擎入門教程
2019-01-23
Elasticsearch
Laravel 下 TNTSearch+jieba-PHP 實現中文全文搜尋
2019-04-17
LaravelJiebaPHP
Spring Boot整合Postgres實現輕量級全文搜尋
2024-02-19
Spring Boot
使用Elasticsearch快速實現社群/部落格文章全文搜尋
2018-04-17
Elasticsearch
laravel Es搜尋檢索高亮顯示
2022-03-13
Laravel
基於Lucene的全文檢索實踐
2021-11-07
Laravel xunsearch 全文搜尋
2019-02-16
Laravel
lnmp+coreseek實現站內全文檢索(安裝篇)
2018-10-18
LNMP