solr搜尋分詞優化

石曼迪發表於2018-03-10

原文網址 : https://www.cnblogs.com/madyina/p/8537365.html

Solr分詞優化

solr伺服器配置好在搜尋時經常會搜出無關內容，把不該分的詞給分了，導致客戶找不到自己需要的內容，那麼我們就從配置詞典入手解決這個問題。

首先需要知道自帶的詞典含義：

停止詞：停止詞是無功能意義的詞，比如is 、a 、are 、”的”，“得”，“我” 等，這些詞會在句子中多次出現卻無意義，所以在分詞的時候需要把這些詞過濾掉。

擴充套件詞庫：就是不想讓哪些詞被分開，讓他們分成一個詞。

同義詞：假設有一個電子商務系統，銷售書籍，提供了一個搜尋引擎，一天，市場部的人要求客戶在搜尋書籍時，同義詞就是比如輸入“電子”，除了展示電子相關的書籍，還需要展現“機器”相關的書籍。

1. 配置停止詞和擴充套件詞庫。

將IKAnalyzer解壓資料夾下的stopword.dic和IKAnalyzer.cfg.xml複製到tomcat/webapps/solr/WEB-INF/classes下，再新建一個ext.dic,裡面的格式和stopword.dic一致。

並修改IKAnalyzer.cfg.xml如下面的格式可以配置多個停止詞或者擴充套件詞庫檔案。

<!-- lang: xml -->
<properties> 
<comment>IK Analyzer 擴充套件配置</comment>
<!--使用者可以在這裡配置自己的擴充套件字典-->
<entry key="ext_dict">ext.dic;</entry>
<!--使用者可以在這裡配置自己的擴充套件停止詞字典-->
<entry key="ext_stopwords">english_stopword.dic;stopword.dic</entry>

2.同義詞配置

在solr資料檔案conf目錄下schema.xml 中加入以下兩個欄位：

<!-- lang: xml -->
<field name="id" type="string" indexed="true" stored="true" required="true" />
<field name="description" type="text_syn" indexed="true" stored="true" />

在 schema.xml 中增加 text_syn 型別的定義：

<!-- lang: xml -->
<fieldType name="text_syn" class="solr.TextField">
    <analyzer type="query">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
   <analyzer type="index">
   <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
<filter class="solr.LowerCaseFilterFactory"/>
    </analyzer> </fieldType>

在相同的conf目錄下的 synonyms.txt 中增加

西安，長安，13朝古都，陝西省會

那麼在下次搜尋西安時也會帶出後面的。

3. 使用設計

針對每個商品設定搜尋關鍵詞，同步到擴充套件詞庫中；

全域性設定不想被分詞的詞，放到停止詞庫中；

全域性設定想關聯的同義詞，放到同義詞中；

搜尋引擎es-分詞與搜尋
2024-08-27
分詞
【搜尋引擎】Solr Suggester 實現全文檢索功能-分詞和和自動提示
2019-06-26
Solr分詞
【搜尋引擎】Solr全文檢索近實時查詢優化
2019-06-27
Solr優化
使用solr搭建搜尋伺服器
2018-08-29
Solr伺服器
搜尋關鍵詞優化助力全網霸屏營銷
2022-03-04
優化
搜尋引擎優化（SEO）
2020-05-17
優化
單詞搜尋
2021-01-03
solr搜尋之搜尋精度問題我已經盡力了！！！
2018-07-19
Solr
solr搜尋報錯，tomcat maxHttpHeaderSize 設定
2018-03-14
SolrTomcatHTTPHeader
中文搜尋引擎技術揭密：中文分詞
2020-04-05
中文分詞
搜尋引擎核心技術與演算法 —— 詞項詞典與倒排索引優化
2020-01-09
演算法索引優化
79. 單詞搜尋
2024-11-15
單詞搜尋問題
2022-05-28
百度搜尋下拉詞優化有哪些方法的效果比較好？
2022-06-10
優化
搜尋引擎優化內容及方法
2020-12-04
優化
網站最佳化搜尋引擎與關鍵詞
2022-12-20
網站
LeetCode-079-單詞搜尋
2021-11-12
LeetCode
【搜尋引擎】 PostgreSQL 10 實時全文檢索和分詞、相似搜尋、模糊匹配實現類似Google搜尋自動提示
2019-07-11
SQL分詞Go
【搜尋引擎】SOLR VS Elasticsearch(2019技術選型參考)
2019-06-23
SolrElasticsearch
機票垂直搜尋引擎之效能優化
2019-02-14
優化
深度優先搜尋
2020-09-25
遊戲出海全面分析系列（四）：遊戲廠商的搜尋關鍵詞優化指南
2020-02-25
遊戲優化
BM42：語義搜尋與關鍵詞搜尋結合
2024-07-04
怎樣做好搜尋下拉最佳化？百度搜尋推薦詞的推廣方式
2023-03-09
【Leetcode 346/700】79. 單詞搜尋【中等】【回溯深度搜尋JavaScript版】
2022-05-14
LeetCodeJavaScript
圖的遍歷：深度優先搜尋與廣度優先搜尋
2018-04-26
DFS(深度優先搜尋)
2019-03-23
ybtoj：深度優先搜尋
2024-11-22
[LeetCode題解]79. 單詞搜尋
2020-09-09
LeetCode
語音技術——關鍵詞搜尋
2020-09-12
API介面獲取搜尋詞統計？
2023-04-10
API
MySQL單詞搜尋相關度排名
2021-01-15
MySql
從二分搜尋到二叉搜尋樹
2023-04-03
python 二叉樹深度優先搜尋和廣度優先搜尋
2019-02-16
Python二叉樹
圖的廣度優先搜尋和深度優先搜尋Python實現
2020-11-29
Python
啟發式搜尋的方式（深度優先，廣度優先）和搜尋方法（Dijkstra‘s演算法，代價一致搜尋，貪心搜尋，A星搜尋）
2021-01-02
演算法
VuePress 部落格優化之開啟 Algolia 全文搜尋
2022-03-02
Vue優化Go
詳細說明搜尋引擎優化的過程
2020-11-29
優化

solr搜尋分詞優化

1. 配置停止詞和擴充套件詞庫。

2.同義詞配置

3. 使用設計

相關文章