kettle modified javascript 步驟的一個例子

PDI發表於2010-05-19

例子裡用到的 org.htmlparser.Parser 是一個html 的解析器,可以在 sourceforge 上下載。

這個例子使用 org.htmlparser.Parser 包來解析一個 html 格式的字串,要解析的 html 字串儲存在conntentOld 欄位裡。

解析過程去除了 html 格式裡所有標籤,並將結果儲存在 content 欄位裡。

注意事項:

1. 需要事先將htmlparser.jar包 放在kettle 的 libext 目錄,kettle 在啟動時會自動載入libext 目錄下的所有 jar 包。

2. modified java script 步驟要選中 compatibility mode,並將 content 設定為輸出的欄位。

程式碼如下:

[@more@]var parser = new Packages.org.htmlparser.Parser( contentOld );
var visitor = new Packages.org.htmlparser.visitors.TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
var content = visitor.getExtractedText();

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/14366449/viewspace-1033713/,如需轉載,請註明出處,否則將追究法律責任。

相關文章