Python爬蟲入門學習實戰專案(一)
- 靜態資料的採集
第一個專案我們來抓取拉勾網的招聘資訊,話不多說直接開始吧!
1.首先我們匯入相關庫:
import requests
from lxml import etree
import pandas as pd
from time import sleep
import random
2.檢視我們的cookie:
3.設定headers:
cookie = 'user_trace_token=20190329130619-9fcf5ee7-dcc5-4a9b-b82e-53a0eba6862c...LGRID=20190403124044-a4a8c961-55ca-11e9-bd16-5254005c3644'
headers = {
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3650.400 QQBrowser/10.4.3341.400',
'Cookie':'cookie'
}
4.檢視網頁結構迴圈頁數進行採集:
for i in range(2, 8):
sleep(random.randint(3,10))
url = 'https://www.lagou.com/zhaopin/jiqixuexi/{}/?filterOption=3'.format(i)
print('正在抓取第{}頁...'.format(i), url)
# 請求網頁解析
con = etree.HTML(requests.get(url=url, headers=headers).text)
5.使用xpath表示式抽取各目標欄位:
# 使用xpath表示式抽取各目標欄位
job_name = [i for i in con.xpath("//a[@class='position_link']/h3/text()")]
job_address = [i for i in con.xpath("//span[@class='add']/em/text()")]
job_company = [i for i in con.xpath("//div[@class='company_name']/a/text()")]
job_salary = [i for i in con.xpath("//span[@class='money']/text()")]
job_links = [i for i in con.xpath("//a[@class='position_link']/@href")]
# 獲取詳情頁連線後採集詳情頁崗位描述資訊
job_des = []
for link in job_links:
sleep(random.randint(3,10))
con2 = etree.HTML(requests.get(url=link, headers=headers).text)
des = [[i.xpath('string(.)') for i in con2.xpath("//div[@class='job-detail']/p")]]
job_des += des
break
6.對資料進行字典封裝:
dataset = {'崗位名稱':job_name,'工作地址':job_address,'公司名稱':job_company,'工資':job_salary,'任職要求':job_des}
#轉化為資料框並儲存為csv
data = pd.DataFrame(dataset)
data.to_csv('machine_learning_LG_job.csv')
7.抓取的結果:
相關文章
- Python爬蟲入門專案Python爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- 爬蟲專案實戰(一)爬蟲
- Python網路爬蟲實戰(一)快速入門Python爬蟲
- python爬蟲學習筆記 4.2 (Scrapy入門案例(建立專案))Python爬蟲筆記
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- 為什麼學習python及爬蟲,Python爬蟲[入門篇]?Python爬蟲
- 爬蟲實戰開發學習(一)爬蟲
- Scrapy入門-第一個爬蟲專案爬蟲
- Java爬蟲入門(一)——專案介紹Java爬蟲
- python專案開發例項-Python專案案例開發從入門到實戰——爬蟲、遊戲Python爬蟲遊戲
- 爬蟲實戰專案集合爬蟲
- 爬蟲實戰專案合集爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- Python爬蟲開發與專案實戰——基礎爬蟲分析Python爬蟲
- Python爬蟲開發與專案實戰 3: 初識爬蟲Python爬蟲
- Python3網路爬蟲快速入門實戰解析(一小時入門 Python 3 網路爬蟲)Python爬蟲
- 爬蟲新手入門實戰專案(爬取筆趣閣小說並下載)爬蟲
- 學習Python爬蟲難嗎?入門好學嗎?Python爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- Python爬蟲開發與專案實戰pdfPython爬蟲
- Python靜態網頁爬蟲專案實戰Python網頁爬蟲
- Python爬蟲開發與專案實戰(2)Python爬蟲
- Python爬蟲開發與專案實戰(1)Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- scrapy入門教程()部署爬蟲專案爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 爬蟲入門學習筆記3爬蟲筆記
- Python爬蟲入門Python爬蟲
- Python3網路爬蟲快速入門實戰解析Python爬蟲
- 如何高效的學習Python爬蟲技術?Python入門Python爬蟲
- Python3爬蟲入門(一)Python爬蟲
- 一入爬蟲深似海,總結python爬蟲學習筆記!爬蟲Python筆記
- Python學習手冊(入門&爬蟲&資料分析&機器學習&深度學習)Python爬蟲機器學習深度學習