Java爬取圖片
現在開始學習爬蟲,對於爬蟲的入門來說,圖片相對來說是比較容易獲取的,因為大部分圖片都不是敏感資料,所以不會遇到什麼反爬措施,對於入門爬蟲來說是比較合適的。
使用技術:Java基礎知識、HttpClient 4.x 、Jsoup
學習目標:下載靜態資源圖片。
爬取思路
對於這種圖片的獲取,其實本質上就是就是檔案的下載(HttpClient)。但是因為不只是獲取一張圖片,所以還會有一個頁面解析的處理過程(Jsoup)。
Jsoup:解析html頁面,獲取圖片的連結。
HttpClient:請求圖片的連結,儲存圖片到本地。
具體步驟
首先進入首頁分析,主要有以下幾個分類(這裡不是全部分類,但是這幾個也足夠了,這只是學習技術而已。),我們的目標就是獲取每個分類下的圖片。
這裡來分析一下網站的結構,我這裡就簡單一點吧。
下面這張圖片是大致的結構,這裡選取一個分類標籤進行說明。
一個分類標籤頁含有多個標題頁,然後每個標題頁含有多個圖片頁。(對應標題頁的幾十張圖片)
對網站的結構有了大致瞭解之後,就可以著 手開始爬取圖片了。
這裡還有一個需要注意,大概是前輩們做得太過了,導致這個網站已經開始有反爬蟲機制了。不過,幸好它還不是很強大,我們還是可以繞過去的。這個網站的反爬蟲機制主要就是:UA、Referer。
本作品採用《CC 協議》,轉載必須註明作者和本文連結