Apache Lucene 4釋出

jieforest發表於2012-10-14
Apache Lucene是一個高效能,全功能的文字搜尋引擎庫,完全用Java編寫的。這是一個技術適用於幾乎
任何需要全文搜尋,特別是跨平臺的應用程式。

Apache Lucene 4.0版的亮點:

1. 索引格式支援條目、郵件列表、資料庫儲存的欄位、條目向量等格式,通過編碼器API實現了可插拔。可以選擇或自定義索引格式。

2. 向量空間模型的相似度解耦(TF-IDF)。有附加模型(如BM25)、隨機偏離、語言模型、基於資訊的模型等。

3. IndexWriter支援並行寫磁碟,適用於應用程式使用多執行緒建立索引的場景。

4. 每個文件的歸一化因此不再侷限於單個位元組。

5. 增加了新的索引統計,包括條目或欄位的令牌數等。

6. 新的預設字典索引(BlockTree)。

7. 索引的條目不再受UTF-16字元的限制。預設情況下,文字條目使用UTF-8編碼。

8. 在搜尋期間使用過濾器能獲得更好的效能。

9. 替換了大量的編碼器和元件。

10. 條目偏移量是可選的,被編碼到郵件列表並可按位置檢索。

11. 新的自動查詢,返回所有文件包含的條目,條目由有限狀態機自動提供。

12. 模糊查詢的效能比上一版提高了100~200倍。

13. 新的拼寫檢查器。

14. 提供了各種記憶體資料結構,比如字典條目和欄位快取等。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/301743/viewspace-746369/,如需轉載,請註明出處,否則將追究法律責任。

相關文章