5 分鐘掌握智聯招聘網站爬取並儲存到 MongoDB 資料庫

發表於2017-07-14

前言

本次主題分兩篇文章來介紹:

  • 一、資料採集
  • 二、資料分析

第一篇先來介紹資料採集,即用python爬取網站資料。

1 執行環境和python庫

先說下執行環境:

  • python3.5
  • windows 7, 64位系統

python庫

本次智聯招聘的網站爬取,主要涉及以下一些python庫:

  • requests
  • BeautifulSoup
  • multiprocessing
  • pymongo
  • itertools

2 爬取的主要步驟

  • 根據關鍵字、城市、以及頁面編號生成需要爬取的網頁連結
  • 用requests獲取相應的網頁內容
  • 用BeautifulSoup解析,獲取需要的關鍵資訊
  • 將爬取的資訊存入MongoDB資料庫中,插入新記錄或更新已有記錄
  • 用multiprocessing啟動多程式進行爬取,提高執行效率

3 檔案組成

  • 資訊配置檔案“zhilian_kw_config.py”
  • 爬蟲主執行檔案“zhilian_kw_spider.py”

在配置檔案中設定需要爬取的資訊,然後執行主程式進行內容抓取。

配置檔案“zhilian_kw_config.py”的內容如下:

爬蟲主執行檔案“zhilian_kw_spider.py”的內容如下:

相關文章