編寫Ansj的Solr外掛

rainystars發表於2014-02-25

http://rainyzz.com/2014/02/02/solr-ansj-plugin.html

在一個基於Solr搜尋的專案中之前使用的IKAnalyzer分詞效果不是很好，師兄推薦我用Ansj，但是當時Ansj沒有Solr的外掛，在作者Github專案主頁的issue中作者也說不準備支援Solr，當時就放棄了。前幾天一個同學說Solr有第三方的Solr外掛ansj4solr，下載使用發現該外掛不支援1.1版本以上的Ansj，因為Ansj在1.1的時候修改了分詞的呼叫介面，而且ansj4solr還有一些我使用不到的功能，所以決定自己寫一個最簡單的具備最基本功能的外掛。

實現分詞的Solr外掛主要是實現TokenizerFactory類和Tokenizer類，前者負責接受Solr中schema.xml配置檔案的呼叫，讀取xml檔案中的配置並返回對應的Tokenizer類，後者負責接受Solr傳送過來的資料流，呼叫分詞，產生最後分好詞的Term流。

在Ansj專案中作者提供了Ansj在Lucene下的外掛，這個外掛包含了Analyzer類的實現和Tokenizer類的實現，由於Solr是基於Lucene，Solr中的TokenizerFactory就相當於Lucene中的Analyzer，Tokenizer類是可以共用的，因此我就基於作者主頁中的Lucene4外掛中的Tokenizer類實現對應的TokenizerFactory類。

java
package me.rainystars.ansj.solr.plugin;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.Reader;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

import org.ansj.lucene.util.AnsjTokenizer;
import org.ansj.splitWord.analysis.IndexAnalysis;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeSource.AttributeFactory;

public class AnsjTokenizerFactory extends TokenizerFactory{
    boolean pstemming;
    boolean isQuery;
    private String stopwordsDir;
    public Set<String> filter;  

    public AnsjTokenizerFactory(Map<String, String> args) {
        super(args);
        assureMatchVersion();
        isQuery = getBoolean(args, "isQuery", true);
        pstemming = getBoolean(args, "pstemming", false);
        stopwordsDir = get(args,"words");
        addStopwords(stopwordsDir);
    }
    //add stopwords list to filter
    private void addStopwords(String dir) {
        if (dir == null){
            System.out.println("no stopwords dir");
            return;
        }
        //read stoplist
        System.out.println("stopwords: " + dir);
        filter = new HashSet<String>();
        File file = new File(dir); 
        InputStreamReader reader;
        try {
            reader = new InputStreamReader(new FileInputStream(file),"UTF-8");
            BufferedReader br = new BufferedReader(reader); 
            String word = br.readLine();  
            while (word != null) {
                filter.add(word);
                word = br.readLine(); 
            }  
        } catch (FileNotFoundException e) {
            System.out.println("No stopword file found");
        } catch (IOException e) {
            System.out.println("stopword file io exception");
        }      
    }
    @Override
    public Tokenizer create(AttributeFactory factory, Reader input) {
        if(isQuery == true){
            //query
            return new AnsjTokenizer(new ToAnalysis(new BufferedReader(input)), input, filter, pstemming);
        } else {
            //index
            return new AnsjTokenizer(new IndexAnalysis(new BufferedReader(input)), input, filter, pstemming);
        }
    }       
}

編寫TokenizerFactory只需要覆蓋create方法，在該方法內呼叫對應的Tokenizer。其他要做的就是需要在TokenizerFactory的建構函式中讀取schema.xml配置fieldType時提供的引數，將對應的引數傳給Tokenizer或做對應的處理，我這裡因為Tokenizer呼叫的是原作者的部分，所以總共支援三個引數isQuery，pstemming和words。

其中的isQuery是用來判斷使用分詞的策略是檢索時需要的比較精確的分詞方式還是建立索引時所需要的比較不精確但是產生詞語較多的分詞方式，根據選擇呼叫不同的分詞器。

其中的pstemming是原作者提供的引數，用來判斷是否需要處理英文名詞的單複數，第三人稱等。

其中的words是停止詞的路徑，在我的使用中Solr伺服器所在的目錄為D:work_solrexample,如果把停止詞放置在D:work_solrexamplesolrcollection1conf資料夾下，就應該新增引數如下：

<tokenizer class="me.rainystars.ansj.solr.plugin.AnsjTokenizerFactory"  isQuery="false" words="solr/collection1/conf/stopwords_ch.txt"/>

然後就可以讀取檔案中的停止詞列表，傳遞給原作者的Tokenizer進行停止詞過濾，停止詞檔案請使用UTF-8格式。

該外掛使用時請將外掛的jar包與Ansj專案中的ansj_seg.jar，tree_split.jar和ansj_lucene4_plugin.jar放置在Solr的Web資料夾的lib目錄中，上述檔案下載地址請訪問作者主頁。

在schema.xml中對應的配置檔案如下：

<fieldType name="text_ch" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
         <tokenizer class="me.rainystars.ansj.solr.plugin.AnsjTokenizerFactory"  isQuery="false"/>
    </analyzer>
    <analyzer type="query">
        <tokenizer class="me.rainystars.ansj.solr.plugin.AnsjTokenizerFactory"/>
    </analyzer>
</fieldType>

該外掛的更多資訊請見我Github的專案主頁。

外掛下載地址：點選我

egg外掛編寫
2019-02-16
編寫node 外掛
2019-05-10
eggjs外掛編寫
2019-03-04
JS
編寫jq外掛
2018-12-29
編寫自己的Babel外掛（一）
2018-12-04
Babel
Solr schema編寫指導
2019-06-03
Solr
vue外掛編寫小記
2018-03-24
Vue
如何編寫 ProtoBuf 外掛 (一) ？
2022-01-09
如何編寫 ProtoBuf 外掛 (二) ？
2022-01-09
如何編寫 ProtoBuf 外掛 (三) ？
2022-01-09
Go - 如何編寫 ProtoBuf 外掛（二）？
2021-12-18
Go
Go - 如何編寫 ProtoBuf 外掛 (一) ？
2021-12-18
Go
Go - 如何編寫 ProtoBuf 外掛 (三) ？
2022-01-16
Go
編寫一個簡單的babel外掛
2018-03-25
Babel
看完你也想編寫自己的 react 外掛
2018-03-10
React
Flutter 外掛編寫必知必會
2018-12-26
Flutter
flutter外掛編寫及釋出流程
2021-03-29
Flutter
自己動手編寫一個Mybatis外掛：Mybatis脫敏外掛
2020-08-11
MyBatis
如何從零編寫一個vite外掛建立 vite 外掛通用模板
2024-08-19
Vite
如何編寫一個 Pulsar Broker Interceptor 外掛
2023-12-12
APISIX外掛如何編寫單元測試
2021-11-19
API
CocosCreator3D外掛教程(9)：如何優雅的編寫外掛皮膚程式碼
2020-11-14
3D
從零開始編寫一個babel外掛
2019-03-04
Babel
從AST編譯解析談到寫babel外掛
2018-07-24
AST編譯Babel
Gradle 與 AGP 構建 API: 如何編寫外掛
2021-12-29
GradleAPI
蜻蜓安全編寫外掛模組 webcrack 實踐
2022-05-10
Web
vscode外掛編寫體驗-右鍵選單
2022-04-08
VSCode
vscode markdown格式化的外掛編寫(1)[釋出流程]
2018-12-01
VSCode
如何編寫Log4j2脫敏外掛
2018-07-07
WebRTC Gateway Janus入門：從配置到編寫外掛
2018-04-26
WebGateway
VS Code markdown格式化的外掛編寫(2)[開發流程]
2018-12-01
Flutter外掛開發指南01: 通道Channel的編寫與實現
2024-02-20
Flutter
VS Code markdown格式化的外掛編寫(3)[解難反思]
2018-12-25
Webpack外掛是如何編寫的——prerender-spa-plugin原始碼解析
2021-10-08
WebPlugin原始碼
[外掛擴充套件]自己寫的外掛。怎麼後臺？
2020-04-04
套件
第三節安裝 phpstorm go 外掛編寫 holle world
2018-07-11
PHPORMGo
編寫一個谷歌外掛翻譯Udemy+NetFlix字幕
2018-08-28
谷歌
Viper 微服務框架編寫一個hello world 外掛-02
2020-11-03
微服務框架
jquery寫的ajax分頁外掛
2019-05-11
jQuery

編寫Ansj的Solr外掛

相關文章