Lucene 2.0 對 html檔案建立索引的bug

lyojbuilder發表於2007-01-21
大家都談論lucene的優點,但是對於一些關鍵性的問題,還是要提出來,如果解決不料,lucene就無法進入真正的企業級應用。
lucene2。0的demo中有個建立 text檔案索引和 html檔案索引的測試檔案,但是 html檔案在建立索引的時候,對於中文的網頁,有 javascript的網頁會報錯,根本無法建立索引,而在現實的企業級應用中,我們大都是對 html建立索引,而不是簡簡單單的對 txt檔案建立索引(因為都是定期生成網站的靜態html頁面,誰生成txt檔案頁面啊)。 但是lucene自帶的 html解析器不完善,幾乎無法使用,很少html頁面沒有js程式碼的,起碼要有 include吧。 大家在用 lucene得時候詳細也都遇到了,畢竟這是lucene自帶的2個例子之一? 我換了一個 html解析器,是 htmlparser2.0,這個可以支援所有的html頁面分析,但是無法像 lucene那樣得到 html的摘要資訊,就是 summary,導致也是無法使用,誰有什麼好的解決方法? :(

相關文章