【IT老齊072】全文檢索執行原理
全文檢索引擎就是對非結構化文字進行解析、搜尋的技術
非結構化文字的處理關鍵在於分詞與倒排索引
分詞
分詞是指將一段文字中有用的詞彙提取出來
常見的中文分詞演算法
- Ngram窮舉 n=2
- 語法分析+字典: 按中文動名詞分析推測外加分詞字典維護
- 爬蟲+大資料+AI分析: 根據語義分析 (NLP)、詞頻、上下文推測篩選
倒排索引
產生分詞後便會形成正向索引,倒排索引是反向將分詞與文字的對應
多分詞複雜情況要透過算分Score決定結果與排序前後,全文檢索引擎要根據相似度演算法 (TF-IDF和BM25) 進行算分按分數從高到低進行排序