爬蟲學習筆記（2）使用MongoDB儲存拉鉤資料

江先生發表於2018-01-12

生苦短，我用Python

1、什麼是MongoDB

MongoDB是一個高效能，開源，無模式的文件型資料庫

MongoDB將資料儲存為一個文件，資料結構由鍵值(Key=>value)對組成

2、MongoDB相關安裝

Windows的安裝方法：可以借鑑小歪老師的知乎專欄：MongoDB及視覺化工具的安裝中給出了詳細的MongoDB資料庫、視覺化工具RoboMongo和MongoDB的PyCharm外掛--Mongo Plugin的安裝步驟和方法，可按照步驟安裝並測試連線，本人也是按照該教程一步一步操作的。實驗都是成功的。

3、Python用於操作MongoDB的第三方庫pymongo安裝：

我這裡是已經安裝過了，所以是這樣的提示，如果未安裝，則是大致提示你安裝成功的英文。

這裡說下pip，我剛開始使用pip安裝包的時候，一直提示未能識別pip,最後我找到python的安裝目錄下：C:\Users\XXXX\XXX\XXX\XXX\Python\Python35\Scripts下，shift+滑鼠右擊，在此處開啟命令視窗，再使用pip install pymongo就成功了。

需要這樣使用pip是因為我沒有設定環境變數的原因。如果每次都是這樣使用pip安裝包很麻煩，所以如果你想每次隨便在哪裡開啟cmd.exe都能pip安裝包，則需要配置下環境變數：

配置流程：我的電腦（或計算機）-->右鍵屬性-->高階系統設定-->環境變數-->系統變數-->path-->點選編輯-->將在剛才shift+右鍵地方的地址複製到裡面，在隨便在一個地方開啟cmd.exe，輸入pip都可以安裝包了。

4、爬取拉鉤網爬蟲工程師資料並儲存到MongoDB中

1、分析網頁：想要爬取一個網站，首先必須去分析改網頁的請求結構和返回結果結構。

由上圖分析可知：請求url和請求方式post。

由上圖可知：請求所需要的Cookie、Referer、和User-Agent。這些都是請求需要的引數。

點選response,可以看到該請求返回值，這樣看不方便，我們可以全選複製，用json轉換工具看一下：

由上圖分析可知請求的引數：first:是否是第一頁，pn:當前頁數，kd:搜尋關鍵字

由截圖分析可知，返回結果中content-->positionResult-->result中資料是我所需要的。

程式碼實現：

import requests
from pymongo import MongoClient
import time
from fake_useragent import UserAgent
client=MongoClient()
db=client.lagou
lagou=db.Reptile #建立Reptile集合，用於儲存爬取到的資料集合

headers={
    'Cookie':'',#此處寫入你分析所得的Cookie
    'Referer':''#此處寫入你分析所得的Referer
}

def get_job_info(page,kd):#加入一個職位引數kd
    for i in range(page):
        url=''#此處寫入你分析後所得的請求url
        payload={
            'first':'true',#是否是第一頁引數
            'pn':i,#當前頁數。起翻頁作用
            'kd':kd #關鍵字
        }

        ua=UserAgent()#定義生成隨機User-Agent的例項物件
        headers['User-Agent']=ua.random #使用fake-Agent隨機生成User-Agent，新增到headers
        response=requests.post(url,data=payload,headers=headers)#獲取請求結果

        if(response.status_code==200):
            job_json=response.json()['content']['positionResult']['result']#取出需要的資料
            lagou.insert(job_json)#儲存到MongoDB資料
        else:
            print('請求錯誤！')

        print('正在爬取'+str(i+1)+'頁的資料...')

if __name__=='__main__':
    get_job_info(7,'爬蟲')複製程式碼

MongoDB儲存資料成功後的結構如下圖所示：

Python爬蟲學習筆記（三、儲存資料）
2020-10-03
Python爬蟲筆記
Python爬蟲之使用MongoDB儲存資料
2019-02-16
Python爬蟲MongoDB
爬蟲系列：使用 MySQL 儲存資料
2021-12-09
爬蟲MySql
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
併發爬蟲_使用motor儲存資料
2024-10-12
爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
爬蟲學習整理（3）資料儲存——Python對MySql操作
2020-09-26
爬蟲PythonMySql
分散式爬蟲學習筆記
2017-08-13
分散式爬蟲筆記
Python爬蟲學習筆記-2.Requests庫
2017-05-20
Python爬蟲筆記
爬蟲資料儲存--基於MonogoDB
2018-04-09
爬蟲MonoGo
spark學習筆記--資料讀取與儲存
2018-07-09
Spark筆記
學習筆記|AS入門（七）資料儲存篇
2017-12-21
筆記
拉鉤教育大前端學習筆記 --- Vite 實現原理
2020-11-09
前端筆記Vite
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
爬蟲學習筆記3（Scrapy安裝及基本使用）
2018-01-16
爬蟲筆記
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
Python scrapy爬蟲學習筆記01
2017-11-01
Python爬蟲筆記
Python爬蟲學習筆記（1）爬取知乎使用者資訊
2018-01-12
Python爬蟲筆記
學習筆記14：模型儲存
2024-06-04
筆記模型
從零開始學爬蟲（3）：通過MongoDB資料庫獲取爬蟲資料
2017-02-23
爬蟲MongoDB資料庫
資料倉儲學習筆記(ZT)
2007-12-13
筆記
【Python3網路爬蟲開發實戰】5-資料儲存-3-非關係型資料庫儲存-1 MongoDB儲存
2019-01-16
Python爬蟲資料庫MongoDB
【爬蟲】（七）Python資料儲存之MySQL（下）
2017-06-06
爬蟲PythonMySql
【0基礎學爬蟲】爬蟲基礎之檔案儲存
2023-04-07
爬蟲
GlusterFS分散式儲存學習筆記
2018-04-03
分散式筆記
OS學習筆記五：儲存模型
2017-10-07
筆記模型
CUDA 學習筆記之儲存器
2010-04-30
筆記
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
MongoDB 學習筆記
2022-05-22
MongoDB筆記
MongoDB學習筆記
2018-07-02
MongoDB筆記
Python零基礎學習筆記（二）——資料的儲存
2019-01-15
Python筆記
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲學習日記（六）
2019-01-14
爬蟲
爬蟲學習日記（八）
2019-01-18
爬蟲

爬蟲學習筆記（2）使用MongoDB儲存拉鉤資料

相關文章