jsoup:一款使用Java語言開發的HTML解析器

微wx笑發表於2017-12-14

jsoup 是一個用於處理真實世界的HTML的Java庫。

它提供了一個非常方便的API來提取和運算元據,使用最好的DOM,CSS和類似jquery的方法。jsoup 實現了 WHATWG HTML5 規範,並將 HTML 解析為與現代瀏覽器相同的 DOM。

  • 從URL,檔案或字串中刮取和解析HTML
  • 使用DOM遍歷或CSS選擇器查詢和提取資料
  • 操縱HTML元素,屬性和文字
  • 清除使用者提交的內容與安全的白名單,以防止XSS攻擊
  • 輸出整齊的HTML

jsoup被設計用來處理在站外發現的各種HTML;從原始和驗證,到無效標籤湯;jsoup將建立一個合理的解析樹。
jsoup 有一個不足之處就是不支援JS。


相關文章