Solr學習筆記(三):分詞
Analyzer(分析器)
https://cwiki.apache.org/confluence/display/solr/Understanding+Analyzers,+Tokenizers,+and+Filters
分詞器就是將句子分成單個的詞,過濾器就是對分詞的結果進行篩選,例如中文中將“的”“呀”這些對句子主體意思影響不大的詞刪除,英語中類似的就是"is","a"等等。
分析器包括兩個部分:tokenizer(分詞器)和filter(分詞過濾器,它們將按照所列的順序發生作用)。for example:
<fieldType name="text_ik_analysis" class="solr.TextField" sortMissingLast="true" omitNorms="true" autoGeneratePhraseQueries="false">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
<filter class="solr.LengthFilterFactory" min="2" max="20" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
<filter class="solr.LengthFilterFactory" min="2" max="20" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
</fieldType>
Tokenizer(分詞器)
常見的分詞器有:
- KeywordTokenizerFactory:不管什麼內容,整句當成一個關鍵字
- LetterTokenizerFactory:根據字母來分詞,拋棄非字母的部分,例如:"I can't" ==> "I", "can", "t"
- WhitespaceTokenizerFactory:根據空格來分詞,例如:"I do" ==> "I", "do"
- IKTokenizerFactory:IK分詞器
Filter(過濾器)
常見的過濾器:
- LowerCaseFilterFactory:將大寫字母轉換成小寫,不處理非字母部分
- SynonymFilterFactory:同義詞
- LengthFilterFactory: 限定字元長度
- RemoveDuplicatesTokenFilterFactory:移除重複文字
相關文章
- jieba分詞學習筆記(三)Jieba分詞筆記
- solr搜尋分詞優化Solr分詞優化
- ES[7.6.x]學習筆記(七)IK中文分詞器筆記中文分詞
- 差分學習筆記筆記
- 分塊學習筆記筆記
- 學習筆記CB002:詞幹提取、詞性標註、中文切詞、文件分類筆記詞性標註
- solr以及ik分詞器簡介Solr分詞
- WORD SMART單詞學習筆記4筆記
- React 學習筆記【三】React筆記
- goLang學習筆記(三)Golang筆記
- cmake 學習筆記(三)筆記
- 科三學習筆記筆記
- Java學習筆記三Java筆記
- Javascript 學習 筆記三JavaScript筆記
- unity學習筆記(三)Unity筆記
- 點分樹學習筆記筆記
- .Net 下 Solr 入門學習系列(三)Solr管理控制檯使用Solr
- 學習筆記 過程、同義詞、序列筆記
- Redis學習筆記(三) 字典Redis筆記
- TS學習筆記(三):類筆記
- ONNXRuntime學習筆記(三)筆記
- Python學習筆記(三)Python筆記
- android學習筆記三Android筆記
- Spss 學習筆記(三)SPSS筆記
- c++學習筆記(三)C++筆記
- CANopen學習筆記(三)NMT筆記
- 樹鏈剖分學習筆記筆記
- wqs二分學習筆記筆記
- 「學習筆記」樹鏈剖分筆記
- 分數規劃學習筆記筆記
- 差分約束學習筆記筆記
- 學習筆記:數論分塊筆記
- solr 7.0 tomcat 安裝配置 + 中文分詞SolrTomcat中文分詞
- ES6 學習筆記三筆記
- 架構學習筆記系列三架構筆記
- react native學習筆記(三)React Native筆記
- NET Core-學習筆記(三)筆記
- Html 語法學習筆記三HTML筆記