Python爬蟲入門學習實戰專案（一）

Residual NS發表於2020-02-18

原文網址 : https://blog.csdn.net/qq_42823043/article/details/88992781

靜態資料的採集
第一個專案我們來抓取拉勾網的招聘資訊，話不多說直接開始吧！

1.首先我們匯入相關庫：

import requests
from lxml import etree
import pandas as pd
from time import sleep
import random

2.檢視我們的cookie：
在這裡插入圖片描述
3.設定headers：

cookie = 'user_trace_token=20190329130619-9fcf5ee7-dcc5-4a9b-b82e-53a0eba6862c...LGRID=20190403124044-a4a8c961-55ca-11e9-bd16-5254005c3644'
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3650.400 QQBrowser/10.4.3341.400',
    'Cookie':'cookie'
}

4.檢視網頁結構迴圈頁數進行採集:

for i in range(2, 8):
    sleep(random.randint(3,10))
    url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i)
    print('正在抓取第{}頁...'.format(i), url)
# 請求網頁解析
    con = etree.HTML(requests.get(url=url, headers=headers).text)

5.使用xpath表示式抽取各目標欄位:
在這裡插入圖片描述

# 使用xpath表示式抽取各目標欄位
    job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")]
    job_address = [i for i in con.xpath("//span[@class='add']/em/text()")]
    job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")]
    job_salary = [i for i in con.xpath("//span[@class='money']/text()")]
    job_links = [i for i in con.xpath("//a[@class='position_link']/@href")]
   
 # 獲取詳情頁連線後採集詳情頁崗位描述資訊
    job_des = []
    for link in job_links:
        sleep(random.randint(3,10))
        con2 = etree.HTML(requests.get(url=link, headers=headers).text)
        des = [[i.xpath('string(.)') for i in con2.xpath("//div[@class='job-detail']/p")]]
        job_des += des

    break

6.對資料進行字典封裝:

dataset = {'崗位名稱':job_name,'工作地址':job_address,'公司名稱':job_company,'工資':job_salary,'任職要求':job_des}

#轉化為資料框並儲存為csv
data = pd.DataFrame(dataset)
data.to_csv('machine_learning_LG_job.csv')

7.抓取的結果：
在這裡插入圖片描述

不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
Python網路爬蟲實戰(一)快速入門
2019-09-16
Python爬蟲
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
python專案開發例項-Python專案案例開發從入門到實戰——爬蟲、遊戲
2020-10-28
Python爬蟲遊戲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
Java爬蟲入門(一)——專案介紹
2018-08-06
Java爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
學習Python爬蟲難嗎?入門好學嗎?
2020-04-26
Python爬蟲
Python爬蟲開發與專案實戰pdf
2020-01-11
Python爬蟲
Python爬蟲開發與專案實戰（2）
2020-10-21
Python爬蟲
Python爬蟲開發與專案實戰（1）
2020-10-18
Python爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
爬蟲實戰開發學習（一）
2021-07-06
爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
如何高效的學習Python爬蟲技術？Python入門
2021-05-18
Python爬蟲
爬蟲新手入門實戰專案（爬取筆趣閣小說並下載）
2019-05-09
爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
Python3網路爬蟲快速入門實戰解析
2020-04-23
Python爬蟲
送給Python小白學習爬蟲的小專案
2020-04-12
Python爬蟲
32個Python爬蟲實戰專案，滿足你的專案慌
2019-03-04
Python爬蟲
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
Python爬蟲開發與專案實戰--分散式程式
2018-07-31
Python爬蟲分散式
Python 爬蟲實戰
2023-10-16
Python爬蟲
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
python-爬蟲入門
2024-09-22
Python爬蟲

Python爬蟲入門學習實戰專案（一）

相關文章