爬蟲學習日記(十二)解析PDF

KIM曉峰發表於2019-03-18

做爬蟲ICLD的migration的時候,發現ICLD的官網,顯示各種route資訊是不是顯示在html上,而是一張PDF。
所以問題就轉變為,解析PDF為HTML再進行以往的分析操作。
首先通過繞過ssl認證去獲取網頁上的資訊,轉成inputStream寫進臨時檔案裡面。
在通過PDDocument來獲取裡面的PDF,用PDFTextStripper進行操作,獲取裡面的各種text。
然後人為的加入一些HTML標籤,讓他跟之前爬回來的HTML欄位沒有什麼區別,就可以跟之前一樣進行操作了。

相關文章