誰能推薦一個好的html parser,除了lucene自帶那個!

lyojbuilder發表於2006-10-14

誰能推薦一個能夠解析 html的直譯器? 解析完html靜態頁面後,能夠提供 getTitle,getSummary,等方法? htmlparser2.0 不行,提供的方法太少,lucene2.0的有 bug,部分html中的特殊字元無法處理。
總是報錯:

DEBUG org.apache.lucene.demo.html.HTMLParserToorg.apache.lucene.demo.html.ParseException: Encountered ">" at line 80, column 19.
Was expecting one of:
    <Quote2Text> ...
    <CloseQuote2> ...
    
	at org.apache.lucene.demo.html.HTMLParser.generateParseException(HTMLParser.java:691)
	at org.apache.lucene.demo.html.HTMLParser.jj_consume_token(HTMLParser.java:569)
	at org.apache.lucene.demo.html.HTMLParser.ArgValue(HTMLParser.java:329)
	at org.apache.lucene.demo.html.HTMLParser.Tag(HTMLParser.java:261)
	at org.apache.lucene.demo.html.HTMLParser.HTMLDocument(HTMLParser.java:189)
	at org.apache.lucene.demo.html.ParserThread.run(ParserThread.java:38)


多謝! 一定要有這個 getSummary() 方法!

相關文章