【IT老齊072】全文檢索執行原理

Faetbwac發表於2024-03-26

【IT老齊072】全文檢索執行原理

全文檢索引擎就是對非結構化文字進行解析、搜尋的技術
非結構化文字的處理關鍵在於分詞與倒排索引

分詞

分詞是指將一段文字中有用的詞彙提取出來

常見的中文分詞演算法

  • Ngram窮舉 n=2
  • 語法分析+字典: 按中文動名詞分析推測外加分詞字典維護
  • 爬蟲+大資料+AI分析: 根據語義分析 (NLP)、詞頻、上下文推測篩選

倒排索引

產生分詞後便會形成正向索引,倒排索引是反向將分詞與文字的對應

多分詞複雜情況要透過算分Score決定結果與排序前後,全文檢索引擎要根據相似度演算法 (TF-IDF和BM25) 進行算分按分數從高到低進行排序

相關文章