Scrapy爬蟲 - 獲取知乎使用者資料

發表於2016-05-20

安裝Scrapy爬蟲框架

關於如何安裝Python以及Scrapy框架,這裡不做介紹,請自行網上搜尋。

初始化

安裝好Scrapy後,執行 scrapy startproject myspider
接下來你會看到 myspider 資料夾,目錄結構如下:

  • scrapy.cfg
  • myspider
    • items.py
    • pipelines.py
    • settings.py
    • __init__.py
    • spiders
      • __init__.py

編寫爬蟲檔案

在spiders目錄下新建 users.py

新增爬蟲配置檔案

在myspider目錄下新建myconfig.py,並新增以下內容,將你的配置資訊填入相應位置

修改items.py

將使用者資料存入mysql資料庫

修改pipelines.py

修改settings.py

找到 ITEM_PIPELINES,改為:

在末尾新增,設定爬蟲的深度

爬取知乎使用者資料

確保MySQL已經開啟,在專案根目錄下開啟終端,
執行 scrapy crawl users -a url=https://www.zhihu.com/people/
其中user為爬蟲的第一個使用者,之後會根據該使用者關注的人和被關注的人進行爬取資料
接下來會下載驗證碼圖片,若未自動開啟,請到根目錄下開啟 captcha.gif,在終端輸入驗證碼
資料爬取Loading…

原始碼

原始碼可以在這裡找到 github

相關文章