5 分鐘掌握智聯招聘網站爬取並儲存到 MongoDB 資料庫

發表於2017-07-14

網站MongoDB資料庫

前言

本次主題分兩篇文章來介紹：

一、資料採集
二、資料分析

第一篇先來介紹資料採集，即用python爬取網站資料。

1 執行環境和python庫

先說下執行環境：

python3.5
windows 7， 64位系統

python庫

本次智聯招聘的網站爬取，主要涉及以下一些python庫：

requests
BeautifulSoup
multiprocessing
pymongo
itertools

2 爬取的主要步驟

根據關鍵字、城市、以及頁面編號生成需要爬取的網頁連結
用requests獲取相應的網頁內容
用BeautifulSoup解析，獲取需要的關鍵資訊
將爬取的資訊存入MongoDB資料庫中，插入新記錄或更新已有記錄
用multiprocessing啟動多程式進行爬取，提高執行效率

3 檔案組成

資訊配置檔案“zhilian_kw_config.py”
爬蟲主執行檔案“zhilian_kw_spider.py”

在配置檔案中設定需要爬取的資訊，然後執行主程式進行內容抓取。

配置檔案“zhilian_kw_config.py”的內容如下：

# Code based on Python 3.x
# _*_ coding: utf-8 _*_
# __Author: "LEMON"

TOTAL_PAGE_NUMBER = 90  # PAGE_NUMBER: total number of pages，可進行修改

KEYWORDS = ['大資料', 'python', '投資經理'] # 需爬取的關鍵字可以自己新增或修改

# 爬取主要城市的記錄
ADDRESS = ['全國', '北京', '上海', '廣州', '深圳',
           '天津', '武漢', '西安', '成都', '大連',
           '長春', '瀋陽', '南京', '濟南', '青島',
           '杭州', '蘇州', '無錫', '寧波', '重慶',
           '鄭州', '長沙', '福州', '廈門', '哈爾濱',
           '石家莊', '合肥', '惠州', '太原', '昆明',
           '煙臺', '佛山', '南昌', '貴陽', '南寧']

MONGO_URI = 'localhost'
MONGO_DB = 'zhilian'

# Code based on Python 3.x

# _*_ coding: utf-8 _*_

# __Author: "LEMON"

TOTAL_PAGE_NUMBER = 90 # PAGE_NUMBER: total number of pages，可進行修改

KEYWORDS = ['大資料', 'python', '投資經理'] # 需爬取的關鍵字可以自己新增或修改

# 爬取主要城市的記錄

ADDRESS = ['全國', '北京', '上海', '廣州', '深圳',

'天津', '武漢', '西安', '成都', '大連',

'長春', '瀋陽', '南京', '濟南', '青島',

'杭州', '蘇州', '無錫', '寧波', '重慶',

'鄭州', '長沙', '福州', '廈門', '哈爾濱',

'石家莊', '合肥', '惠州', '太原', '昆明',

'煙臺', '佛山', '南昌', '貴陽', '南寧']

MONGO_URI = 'localhost'

MONGO_DB = 'zhilian'

爬蟲主執行檔案“zhilian_kw_spider.py”的內容如下：

# Code based on Python 3.x
# _*_ coding: utf-8 _*_
# __Author: "LEMON"

from datetime import datetime
from urllib.parse import urlencode
from multiprocessing import Pool
import requests
from bs4 import BeautifulSoup
import pymongo
from zhilian.zhilian_kw_config import *
import time
from itertools import product

client = pymongo.MongoClient(MONGO_URI)
db = client[MONGO_DB]

def download(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}
    response = requests.get(url, headers=headers)
    return response.text

def get_content(html):
    # 記錄儲存日期
    date = datetime.now().date()
    date = datetime.strftime(date, '%Y-%m-%d')  # 轉變成str

    soup = BeautifulSoup(html, 'lxml')
    body = soup.body
    data_main = body.find('div', {'class': 'newlist_list_content'})

    if data_main:
        tables = data_main.find_all('table')

        for i, table_info in enumerate(tables):
            if i == 0:
                continue
            tds = table_info.find('tr').find_all('td')
            zwmc = tds[0].find('a').get_text()  # 職位名稱
            zw_link = tds[0].find('a').get('href')  # 職位連結
            fkl = tds[1].find('span').get_text()  # 反饋率
            gsmc = tds[2].find('a').get_text()  # 公司名稱
            zwyx = tds[3].get_text()  # 職位月薪
            gzdd = tds[4].get_text()  # 工作地點
            gbsj = tds[5].find('span').get_text()  # 釋出日期

            tr_brief = table_info.find('tr', {'class': 'newlist_tr_detail'})
            # 招聘簡介
            brief = tr_brief.find('li', {'class': 'newlist_deatil_last'}).get_text()

            # 用生成器獲取資訊
            yield {'zwmc': zwmc,  # 職位名稱
                   'fkl': fkl,  # 反饋率
                   'gsmc': gsmc,  # 公司名稱
                   'zwyx': zwyx,  # 職位月薪
                   'gzdd': gzdd,  # 工作地點
                   'gbsj': gbsj,  # 公佈時間
                   'brief': brief,  # 招聘簡介
                   'zw_link': zw_link,  # 網頁連結
                   'save_date': date  # 記錄資訊儲存的日期
                   }

def main(args):
    basic_url = '招聘（求職）盡在智聯招聘?'

    for keyword in KEYWORDS:
        mongo_table = db[keyword]
        paras = {'jl': args[0],
                 'kw': keyword,
                 'p': args[1]  # 第X頁
                 }
        url = basic_url + urlencode(paras)
        # print(url)
        html = download(url)
        # print(html)
        if html:
            data = get_content(html)
            for item in data:
                if mongo_table.update({'zw_link': item['zw_link']}, {'$set': item}, True):
                    print('已儲存記錄：', item)

if __name__ == '__main__':
    start = time.time()
    number_list = list(range(TOTAL_PAGE_NUMBER))
    args = product(ADDRESS, number_list)
    pool = Pool()
    pool.map(main, args) # 多程式執行
    end = time.time()
    print('Finished, task runs %s seconds.' % (end - start))

# Code based on Python 3.x

# _*_ coding: utf-8 _*_

# __Author: "LEMON"

from datetime import datetime

from urllib.parse import urlencode

from multiprocessing import Pool

import requests

from bs4 import BeautifulSoup

import pymongo

from zhilian.zhilian_kw_config import *

import time

from itertools import product

client = pymongo.MongoClient(MONGO_URI)

db = client[MONGO_DB]

def download(url):

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}

response = requests.get(url, headers=headers)

return response.text

def get_content(html):

# 記錄儲存日期

date = datetime.now().date()

date = datetime.strftime(date, '%Y-%m-%d') # 轉變成str

soup = BeautifulSoup(html, 'lxml')

body = soup.body

data_main = body.find('div', {'class': 'newlist_list_content'})

if data_main:

tables = data_main.find_all('table')

for i, table_info in enumerate(tables):

if i == 0:

continue

tds = table_info.find('tr').find_all('td')

zwmc = tds[0].find('a').get_text() # 職位名稱

zw_link = tds[0].find('a').get('href') # 職位連結

fkl = tds[1].find('span').get_text() # 反饋率

gsmc = tds[2].find('a').get_text() # 公司名稱

zwyx = tds[3].get_text() # 職位月薪

gzdd = tds[4].get_text() # 工作地點

gbsj = tds[5].find('span').get_text() # 釋出日期

tr_brief = table_info.find('tr', {'class': 'newlist_tr_detail'})

# 招聘簡介

brief = tr_brief.find('li', {'class': 'newlist_deatil_last'}).get_text()

# 用生成器獲取資訊

yield {'zwmc': zwmc, # 職位名稱

'fkl': fkl, # 反饋率

'gsmc': gsmc, # 公司名稱

'zwyx': zwyx, # 職位月薪

'gzdd': gzdd, # 工作地點

'gbsj': gbsj, # 公佈時間

'brief': brief, # 招聘簡介

'zw_link': zw_link, # 網頁連結

'save_date': date # 記錄資訊儲存的日期

}

def main(args):

basic_url = '招聘（求職）盡在智聯招聘?'

for keyword in KEYWORDS:

mongo_table = db[keyword]

paras = {'jl': args[0],

'kw': keyword,

'p': args[1] # 第X頁

}

url = basic_url + urlencode(paras)

# print(url)

html = download(url)

# print(html)

if html:

data = get_content(html)

for item in data:

if mongo_table.update({'zw_link': item['zw_link']}, {'$set': item}, True):

print('已儲存記錄：', item)

if __name__ == '__main__':

start = time.time()

number_list = list(range(TOTAL_PAGE_NUMBER))

args = product(ADDRESS, number_list)

pool = Pool()

pool.map(main, args) # 多程式執行

end = time.time()

print('Finished, task runs %s seconds.' % (end - start))

python 爬蟲 5i5j房屋資訊獲取並儲存到資料庫
2018-08-20
Python爬蟲資料庫
python爬取股票資料並存到資料庫
2021-03-29
Python資料庫
python+requests爬取B站影片儲存到本地
2024-04-30
Python
爬蟲雙色球所有的歷史資料並儲存到SQLite
2020-10-28
爬蟲SQLite
golang讀取檔案的json資料流,並解析到struct,儲存到資料庫
2020-10-15
GolangJSONStruct資料庫
gin框架,讀取檔案的json資料流,並解析到struct,儲存到資料庫
2020-10-15
框架JSONStruct資料庫
快速掌握 MongoDB 資料庫
2018-09-14
MongoDB資料庫
如何用 Scrapy 爬取網站資料並在 Easysearch 中進行儲存檢索分析
2024-09-12
網站
[python爬蟲] Selenium爬取內容並儲存至MySQL資料庫
2017-03-13
Python爬蟲MySql資料庫
python入門012～使用requests爬取網路圖片並儲存到本地
2021-09-09
Python
Session儲存到指定資料庫中
2016-07-08
Session資料庫
快速爬取登入網站資料
2020-11-20
網站
使用 Python 爬取網站資料
2024-07-27
Python網站
直播網站原始碼，上傳圖片到專案目錄並將相對路徑儲存到資料庫
2023-05-18
網站原始碼資料庫
scrapy爬取鏈家二手房存到mongo資料庫
2021-01-03
Go資料庫
Log4Net 新增自定義欄位並儲存到資料庫
2017-12-01
資料庫
招聘網站爬蟲模板
2020-09-20
網站爬蟲
5分鐘掌握JavaScript小技巧
2018-05-22
JavaScript
5 分鐘教你快速掌握 GitHub Actions 自動釋出 Npm 包和網站
2022-04-25
GithubNPM網站
10分鐘掌握Python快取
2024-06-26
Python快取
用python抓取智聯招聘資訊並存入excel
2018-05-08
PythonExcel
[python爬蟲] 招聘資訊定時系統 (一).BeautifulSoup爬取資訊並儲存MySQL
2017-04-22
Python爬蟲MySql
5分鐘搞懂 Golang 資料庫連線管理
2024-11-13
Golang資料庫
Python網路爬蟲——模擬登陸爬取網站資料並載入到excl表格裡
2016-04-11
Python爬蟲網站
爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片
2019-02-16
MySql
利用Python爬蟲獲取招聘網站職位資訊
2021-08-09
Python爬蟲網站
【Python3網路爬蟲開發實戰】5-資料儲存-3-非關係型資料庫儲存-1 MongoDB儲存
2019-01-16
Python爬蟲資料庫MongoDB
從零開始學爬蟲（3）：通過MongoDB資料庫獲取爬蟲資料
2017-02-23
爬蟲MongoDB資料庫
使用Scrapy爬取圖片入庫,並儲存在本地
2019-06-27
5 分鐘掌握 JavaScript 實用竅門
2019-04-17
JavaScript
5分鐘掌握布隆過濾器
2021-11-06
過濾器
Python3爬蟲資料入資料庫---把爬取到的資料存到資料庫，帶資料庫去重功能
2018-10-22
Python爬蟲資料庫
Kettle 從資料庫讀取資料存到變數中
2024-05-29
資料庫變數
ASP.NET將Session儲存到資料庫中
2015-02-25
ASP.NETSession資料庫
PHP+jQuery-ui拖動浮動層排序並儲存到資料庫例項
2020-03-18
PHPjQueryUI排序資料庫
某網站加密返回資料加密_爬取過程
2024-06-08
網站加密
5分鐘上手Python爬蟲：從乾飯開始，輕鬆掌握技巧
2024-03-15
Python爬蟲
爬取彼岸網站的桌布（分類可選）
2024-07-03
網站

5 分鐘掌握智聯招聘網站爬取並儲存到 MongoDB 資料庫

前言

1 執行環境和python庫

2 爬取的主要步驟

3 檔案組成

相關文章