Lucene 2.0 對 html檔案建立索引的bug
大家都談論lucene的優點,但是對於一些關鍵性的問題,還是要提出來,如果解決不料,lucene就無法進入真正的企業級應用。
lucene2。0的demo中有個建立 text檔案索引和 html檔案索引的測試檔案,但是 html檔案在建立索引的時候,對於中文的網頁,有 javascript的網頁會報錯,根本無法建立索引,而在現實的企業級應用中,我們大都是對 html建立索引,而不是簡簡單單的對 txt檔案建立索引(因為都是定期生成網站的靜態html頁面,誰生成txt檔案頁面啊)。 但是lucene自帶的 html解析器不完善,幾乎無法使用,很少html頁面沒有js程式碼的,起碼要有 include吧。 大家在用 lucene得時候詳細也都遇到了,畢竟這是lucene自帶的2個例子之一? 我換了一個 html解析器,是 htmlparser2.0,這個可以支援所有的html頁面分析,但是無法像 lucene那樣得到 html的摘要資訊,就是 summary,導致也是無法使用,誰有什麼好的解決方法? :(
lucene2。0的demo中有個建立 text檔案索引和 html檔案索引的測試檔案,但是 html檔案在建立索引的時候,對於中文的網頁,有 javascript的網頁會報錯,根本無法建立索引,而在現實的企業級應用中,我們大都是對 html建立索引,而不是簡簡單單的對 txt檔案建立索引(因為都是定期生成網站的靜態html頁面,誰生成txt檔案頁面啊)。 但是lucene自帶的 html解析器不完善,幾乎無法使用,很少html頁面沒有js程式碼的,起碼要有 include吧。 大家在用 lucene得時候詳細也都遇到了,畢竟這是lucene自帶的2個例子之一? 我換了一個 html解析器,是 htmlparser2.0,這個可以支援所有的html頁面分析,但是無法像 lucene那樣得到 html的摘要資訊,就是 summary,導致也是無法使用,誰有什麼好的解決方法? :(
相關文章
- Lucene建立索引流程索引
- lucene索引檔案大小優化小結索引優化
- lucene第一步,lucene基礎,索引建立索引
- Lucene索引檔案大小優化方案總結索引優化
- lucene(二) 索引的建立、增刪改查索引
- Lucene中建立索引的效率和刪除索引的實現索引
- 【Lucene&&Solr】Lucene索引和搜尋流程Solr索引
- Lucene原始碼解析--Lock檔案原始碼
- Oracle建立二進位制檔案索引的方法(轉)Oracle索引
- HTML中相對路徑的方式引用檔案HTML
- [BI專案記]-BUG建立
- Lucene原始碼解析--刪除文件檔案(.del)原始碼
- hadoop異構儲存+lucene索引Hadoop索引
- lucene join解決父子關係索引索引
- [BUG反饋]Application\Admin\View\Article\sidemenu.html檔案內容取值bugAPPViewIDEHTML
- Lucene 4.X 倒排索引原理與實現: (3) Term Dictionary和Index檔案 (FST詳細解析)索引Index
- Oracle 對某列的部分資料建立索引Oracle索引
- Lucene原始碼解析--Compound File 組合檔案原始碼
- solr索引庫新增新的索引,使用json檔案或者xml檔案的資料Solr索引JSONXML
- 基於Java的全文索引引擎Lucene簡介 (轉)Java索引
- html檔案中包含其他檔案的方法大全HTML
- debugfs檔案系統
- 建立.symlnk檔案
- php建立檔案PHP
- HTML檔案中IncludeHTML
- Lucene底層原理和最佳化經驗分享(1)-Lucene簡介和索引原理索引
- 多個控制檔案的建立
- 用php生成HTML檔案的類PHPHTML
- 索引器的妙用,讀取配置檔案索引
- Firebug 2.0新特性
- 比對檔案sam檔案的解讀
- 【MySQL】全索引掃描的bugMySql索引
- html檔案怎麼開啟(手機html檔案怎麼開啟)HTML
- 使用HTML5,通過建立cachemanifest檔案,可以輕鬆地建立web應用的離線版本。HTMLWeb
- 在JAVA中將Elasticsearch索引載入到Lucene APIJavaElasticsearch索引API
- mysql 建立索引的方法--建立檢視MySql索引
- 建立多路控制檔案
- 手工建立控制檔案