做爬蟲ICLD的migration的時候,發現ICLD的官網,顯示各種route資訊是不是顯示在html上,而是一張PDF。
所以問題就轉變為,解析PDF為HTML再進行以往的分析操作。
首先通過繞過ssl認證去獲取網頁上的資訊,轉成inputStream寫進臨時檔案裡面。
在通過PDDocument來獲取裡面的PDF,用PDFTextStripper進行操作,獲取裡面的各種text。
然後人為的加入一些HTML標籤,讓他跟之前爬回來的HTML欄位沒有什麼區別,就可以跟之前一樣進行操作了。
爬蟲學習日記(十二)解析PDF
相關文章
- 爬蟲學習日記(六)爬蟲
- 爬蟲學習日記(八)爬蟲
- 爬蟲學習日記(七)爬蟲
- 爬蟲學習日記(二)爬蟲
- 爬蟲學習日記(一)爬蟲
- 爬蟲學習日記(五)爬蟲
- 爬蟲學習日記(三)爬蟲
- 爬蟲學習日記(六)完成第一個爬蟲任務爬蟲
- 爬蟲學習日記(四)分析Freenium爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 爬蟲學習日記(十一)selenium 頁面元素更新爬蟲
- 爬蟲學習日記(十)selenium frame的切換爬蟲
- 分散式爬蟲學習筆記分散式爬蟲筆記
- Python爬蟲學習筆記(三)Python爬蟲筆記
- 爬蟲入門學習筆記3爬蟲筆記
- python爬蟲學習筆記(二)Python爬蟲筆記
- python爬蟲—學習筆記-4Python爬蟲筆記
- python爬蟲—學習筆記-2Python爬蟲筆記
- 爬蟲學習筆記:練習爬取多頁天涯帖子爬蟲筆記
- python爬蟲日記01Python爬蟲
- Python scrapy爬蟲學習筆記01Python爬蟲筆記
- 一入爬蟲深似海,總結python爬蟲學習筆記!爬蟲Python筆記
- 爬蟲學習-初次上路爬蟲
- 爬蟲學習日記(九)Selenium點選事件超時 改用執行JS爬蟲事件JS
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- Android 淘寶 爬蟲 學習Android爬蟲
- python爬蟲學習1Python爬蟲
- 逆向爬蟲知識學習爬蟲
- selenium爬蟲學習1爬蟲
- Python 開發簡單爬蟲 (學習筆記)Python爬蟲筆記
- Python爬蟲學習筆記-2.Requests庫Python爬蟲筆記
- 什麼是爬蟲?學習Python爬蟲難不難?爬蟲Python
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- Python爬蟲學習筆記(1)爬取知乎使用者資訊Python爬蟲筆記
- Python爬蟲學習筆記(三、儲存資料)Python爬蟲筆記
- 爬蟲學習筆記3(Scrapy安裝及基本使用)爬蟲筆記
- Python爬蟲學習系列教程Python爬蟲
- 爬蟲之CSS語法學習爬蟲CSS