此文首發於公眾號「Python知識圈」,歡迎直接去公眾號看。
上次用兩篇文章講了 Scrapy 爬蟲框架和儲存資料工具 MongoDB,今天我們用這兩個工具完成一個專案。
今天要完成的專案的是用 Scrapy 框架爬取煎蛋網妹子圖片,這個專案之前用常規方法已經做過一次,為什麼這次還要做這個專案呢?
1.用不同的方法做同一個專案,學習不同方法的特點。
2.上次用常規方法的寫的專案有點小瑕疵,文章中有一處程式碼的配圖用錯了。關鍵字獲取的原始碼中有一個方法因粗心多寫了一個引數導致下載圖片失敗(已修正)。之前上傳到 Github 上的程式碼是正確的。
所以這次還是用這個專案來學習下,咳咳,我們真的是用來學習的。
先放兩張爬取的圖片來給大家一點學習的動力。


專案環境
語言:Python3
編輯器:Pycharm
首先確保電腦已配置好 Scrapy 框架環境和 MongoDB 環境,不清楚的可參考上兩篇文章:
初識爬蟲框架 Scrapy
你的爬蟲資料儲存在哪?MongoDB入門篇
建立 Scrapy 專案
cmd 中通過命令建立 Scrapy 專案。
C:\Windows\System32>F:
F:\>cd scrapy
F:\scrapy>scrapy startproject meizi
New Scrapy project 'meizi', using template directory 'e:\\py3\\lib\\site-packages\\scrapy\\templates\\project', created in:
F:\scrapy\meizi
You can start your first spider with:
cd meizi
scrapy genspider example example.com
複製程式碼
然後基於basic模板建立一個名為的「jiandan」爬蟲檔案。
全部內容請 點選這裡檢視
複製程式碼
下面是儲存在本地的圖片。
