文字分析

741439599發表於2021-11-16

簡介

文字分析是es能夠執行全文檢索,其中搜尋返回相關結果,而不僅僅是精確匹配的結果。
如果搜尋Quick fox jumps,您可能希望文件包含A Quick brown fox jumps over the lazy dog,還可能希望文件包含相關的單詞,如fast foxfox leap

Tokenization 標記化

文字分析使得通過標記進行全文搜尋成為可能:將文字分解成更小的塊,稱為標記。在大多數情況下,這些標記是單獨的單詞。

如果您索引短語quick brown fox jumps作為單個字串,而使用者搜尋quick fox,則不認為它是匹配的。但是,如果對短語進行標記並分別對每個單詞進行索引,則可以分別查詢查詢字串中的術語。這意味著它們可以通過搜尋quick fox、fox brown或其他變體進行匹配。

Normalization 標準化

標記化化支援對單個術語進行匹配,但每個標記仍然按字面進行匹配。這意味著:

  • 搜尋Quick不會匹配quick,即使您可能希望其中一個術語與另一個相匹配
  • 雖然foxfoxes有相同的詞根,但是對foxes的搜尋並不匹配fox,反之亦然。
  • jumps的搜尋不能匹配leaps。雖然它們沒有相同的詞根,但它們是同義詞,有相似的意思.

為了解決這些問題,文字分析可以將這些標記規範化為標準格式。這允許您匹配與搜尋條件不完全相同但足夠相似的令牌,以保持相關性。例如:

  • Quick can be lowercased: quick.
  • foxes can be stemmed, or reduced to its root word: fox.
本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章