python爬取前程無憂和拉勾資料分析崗位並分析
一、明確需求
分析資料分析崗位的招聘情況,包括地區分佈、薪資水平、職位要求等,瞭解最新資料分析崗位的情況。
環境:python 3.6
設計的工具:Tableau工具(主要是生成圖方便,用matplotlib也可以達到同樣的效果)
二、資料採集
首先編寫爬蟲,這裡主要是爬取前程無憂和拉勾網,直接上前程無憂的程式碼:
關於前程無憂爬蟲程式碼,網上有很多教程,不過大部分只取了地區、職位、工資和日期這幾個欄位,沒有涉及到崗位要求和崗位職責,因為要了解職位的需求以及後面方便畫詞雲,我就自己寫了一個程式碼。說一下拉勾和前程無憂兩者的區別,前程無憂爬了2000頁,不過大概只有前24頁是跟資料分析有關的崗位,拉勾網的資料量比較少,全國主要城市爬下來,一共也才2000多條,而且基本集中在北京上海杭州。調整一下前程無憂爬蟲格式跟拉勾一樣,把兩個表格合併起來一起分析。
# -*- coding:utf-8 -*- import urllib import re,codecs import time,random import requests from lxml import html from urllib import parse key='資料分析' key=parse.quote(parse.quote(key)) headers={'Host':'search.51job.com', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} def get_links(page): url =''+key+',2,'+ str(page)+'.html' r= requests.get(url,headers,timeout=10) s=requests.session() s.keep_alive = False r.encoding = 'gbk' reg = re.compile(r'class="t1 ">.*? ', re.S) links = re.findall(reg, r.text) return links #多頁處理,下載到檔案 def get_content(link): r1=requests.get(link,headers,timeout=10) s=requests.session() s.keep_alive = False r1.encoding = 'gbk' t1=html.fromstring(r1.text) try: job=t1.xpath('//div[@class="tHeader tHjob"]//h1/text()')[0] company = t1.xpath('//p[@class="cname"]/a/text()')[0] print(company) label=t1.xpath('//p[@class="t2"]/span/text()') education=t1.xpath('//div[@class="t1"]//span[2]/text()')[0] salary = re.findall(re.compile(r'.*?(.*?)',re.S),r1.text)[0] area = t1.xpath('//div[@class="tHeader tHjob"]//span[@class="lname"]/text()')[0] companytype=t1.xpath('//p[@class="msg ltype"]/text()') workyear=t1.xpath('//div[@class="t1"]//span[1]/text()')[0] describe = re.findall(re.compile(r'(.*?)任職要求',re.S),r1.text) require = re.findall(re.compile(r'.*?任職要求(.*?)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2035/viewspace-2802459/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 前程無憂崗位資料爬取+Tableau視覺化分析視覺化
- 如何爬取前程無憂python職位資訊Python
- 拉勾網職位資料爬取
- 爬取 boss 直聘技術崗並分析
- 爬取 Boss 直聘網上海區域 PHP 職位資訊資料並分析PHP
- 我爬取了爬蟲崗位薪資,分析後發現爬蟲真香爬蟲
- Python 爬蟲實戰之爬拼多多商品並做資料分析Python爬蟲
- python爬取股票資料並存到資料庫Python資料庫
- Python爬取豆瓣電影的短評資料並進行詞雲分析處理Python
- 爬取豆瓣電影Top250和資料分析
- Python爬蟲之小說資訊爬取與資料視覺化分析Python爬蟲視覺化
- 12 爬取目標的資料分析
- 小白資料分析——Python職位全鏈路分析Python
- 10萬人簡歷只賣40塊,洩密的前程無憂“前程堪憂”
- 用Python爬取《王者榮耀》英雄皮膚資料並視覺化分析,用圖說話Python視覺化
- 爬蟲:拉勾自動投遞簡歷+資料獲取爬蟲
- Python—Requests庫的爬取效能分析Python
- 謀退市,前程無憂要新開始?
- 小豬的Python學習之旅 —— 16.再嘗Python資料分析:採集拉勾網資料分析Android就業行情PythonAndroid就業
- 【python】爬取疫情資料並進行視覺化Python視覺化
- 分析公司不同崗位的地位
- python爬蟲利用代理IP分析大資料Python爬蟲大資料
- Python爬取股票資訊,並實現視覺化資料Python視覺化
- 如何用python分析xml獲取資料?PythonXML
- 什麼是爬蟲?Python爬蟲工程師崗位爬蟲Python工程師
- 北京市政百姓信件分析實戰一 (利用python爬取資料)Python
- Python疫情資料分析,並做資料視覺化展示Python視覺化
- 用Python爬蟲分析演唱會銷售資料Python爬蟲
- Python爬取分析豆瓣電影Top250Python
- 前程無憂:2022 職場空窗期調研
- Python新書上市,強烈推薦!《Python網路資料爬取及分析從入門到精通(爬取篇)》導讀Python新書
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 如何用 Scrapy 爬取網站資料並在 Easysearch 中進行儲存檢索分析網站
- 使用Python進行Web爬取和資料提取PythonWeb
- Python:爬取疫情每日資料Python
- 前程無憂:2022職場人消費信心報告
- 前程無憂:2021大學生就業形勢報告就業
- 寫了個簡單爬蟲,分析 Boss 直聘自動駕駛崗位爬蟲自動駕駛