教你用Python爬取圖蟲網

iMorta發表於2019-02-26

TuChong_Spider

(新手爬蟲專案大牛勿噴)

偶然的機會在抖音看到這個APP,發現有很多高質量的手機桌布和圖片,對於一個爬蟲初學者,這就非常美滋滋了,好多歐美小姐姐啊,哎嘿嘿….

圖蟲網共享相簿爬蟲, 通過抓取Ajax獲取圖片ID進行圖片儲存

爬取網站: https://stock.tuchong.com

爬取結果

教你用Python爬取圖蟲網

執行環境:

  • Python 3.5+
  • Windows 10
  • VSCode

如何使用

下載專案原始碼

https://github.com/cexll/tuchong_Spider.git

安裝依賴

$ pip install -r requirements.txt

執行專案

$ python spider.py
輸入想要搜尋的內容: 少女
獲取圖片ID.....
解析imageID
存在ID,解析
解析HTML圖片URL...
準備下載... //p3a.pstatp.com/weili/l/199813*************89.jpg
下載成功----------------------
拼接url訪問網頁
解析HTML圖片URL...
準備下載... //p3a.pstatp.com/weili/l/189***********417.jpg
下載成功----------------------
拼接url訪問網頁
解析HTML圖片URL...
準備下載... //p3a.pstatp.com/weili/l/1**************25.png
拼接url訪問網頁
解析HTML圖片URL...
準備下載... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url訪問網頁
解析HTML圖片URL...
準備下載... //p3a.pstatp.com/weili/l/************2.jpg
拼接url訪問網頁
...
複製程式碼

圖片連結我就大碼了,免得被打….

思路(前方高能,請流量黨注意)

首先爬取一個網頁,第一步,先開啟這個網頁(/滑稽,,,,

教你用Python爬取圖蟲網

開啟之後,先看看怎麼搜尋圖片,下載圖片的..

教你用Python爬取圖蟲網
教你用Python爬取圖蟲網

嗯~~,好看山山水水…(我是來幹嘛的….

回到正題~

開啟開發者工具(F12 或者右鍵 ,然後重新整理

教你用Python爬取圖蟲網

然後看一看有沒有什麼有用的東西….好像仔細找了找是沒有發現什麼有用的…怎麼辦呢?

好像真找不到了,怎麼辦?

網頁往下翻一翻,,,,,

教你用Python爬取圖蟲網

圖片中間出現了個奸細….這就是我們需要的東西,,但是開啟發現不對啊,怎麼沒有圖片下載的連結??

教你用Python爬取圖蟲網

哎,別慌,先去網頁開啟一個圖片看看是什麼結構的…

教你用Python爬取圖蟲網

到這裡我們發現了,網頁url連結有個imageID=這東西,好像和之前找到個奸細內容是一樣的,,,開啟後發現的確是一樣的

那麼整體的結構就清楚了,先把剛才的奸細連結開啟看看是什麼

教你用Python爬取圖蟲網
教你用Python爬取圖蟲網

密集恐懼症都犯了,….仔細看了看,發現最開始都有imageID,那麼思路就有了

通過訪問奸細的連結得到每一頁的imageID,在用 https://stock.tuchong.com/free/image/? + imageID就可以訪問到圖片了,好一氣呵成

程式碼

完整程式碼見專案地址: github.com/cexll/tucho…

教你用Python爬取圖蟲網
教你用Python爬取圖蟲網

總結

抓取所有的網頁都是類似的思路,首先先通過人的邏輯去找到資料,在通過程式碼去得到,不要一來就上手程式碼,

細心的朋友肯定發現了,我們抓的是免費相簿裡的圖片,是的,至於為什麼不抓優選相簿,高階相簿,1是我也是才發現他們不一樣,2是別人賺錢的生意我就這樣發出來了萬一被抓了怎麼辦….

有能力的可以自己去琢磨一下,我上次看了一下imageID這次是儲存在HTML裡面的,有點類似今日頭條的

專案地址: github.com/cexll/tucho…

相關文章