(詳細)python爬取網頁資訊並儲存為CSV檔案(後面完整程式碼!!!)
本次爬取的網頁是獵聘網內關於深圳的所有招聘資訊,一共400多個職位,並儲存為csv檔案儲存,好了,話不多說,開始進入講解。(對爬蟲感興趣的,可以參考此篇文章的做法去爬你想要的網站去吧!!!)
首先開啟目標網站:
https://www.liepin.com/zhaopin/?compkind=&dqs=050090&pubTime=&pageSize=40&salary=&compTag=&sortFlag=&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=&siTag=1B2M2Y8AsgTpgAmY7PhCfg%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_title&d_ckId=c16556e4cc914dee657cb1e26c5f809e&d_curPage=0&d_pageSize=40&d_headId=c16556e4cc914dee657cb1e26c5f809e0
頁面資訊如下(因為招聘資訊是動態,可能你的介面的職位會有所不同)
我們按F12進入開發者介面:
點選元素旁邊的類似滑鼠的按鈕,如下:
然後就可以在原網頁點選我們想要獲取的標籤,之後就會顯示該標籤對應的html程式碼
比如點選工作名稱:雙語解說員,然後右邊就會幫我們找到對應的原始碼。
接著我們分析上下程式碼,發現該所有職位的程式碼都在<li>..</li>之間
所有我們可以找到包含這些職位程式碼的上一個標籤,即
故程式碼可以寫成 all_job = html.find("ul", class_="sojob-list").find_all("li")
這樣我們就定位到這個工作列表下,下面所有操作都是從這裡面去查詢,我們用一個迴圈遍歷每個<li>下的子標籤
用find方法可以讓網頁解析器一直查詢,直到查到對應的標籤下停止,這裡我們可以定位到 <div class = "job-info">下
該標籤下就是我們要爬取的東西
爬取工作名實現:name = date.find("a", target="_blank").text.strip()
再開啟<p class="condition clearfix>標籤,爬取地區,薪水,對應的網站,學歷
因此
爬取地區實現:area = date.find("a", class_="area").text
爬取薪水實現:salary = date.find("span", class_="text-warning").text
爬取網站實現:url = date.find("a", class_="area")["href"]
爬取學歷實現:edu = date.find("span", class_="edu").text
最後我們再用一個迴圈去讓網站的url發生變化,也就是網站最後面的數字就是該網頁的頁數,如下:
最後再通過兩行命令,將結果儲存為csv檔案即可
爬取結束!!
檢視結果:
附上完整程式碼:
import requests import bs4 import pandas as pd result = {"jobname": [], # 工作名 "area": [], # 地區 "salary": [], # 薪水 "url": [], # 網址 "edu":[] #學歷 } for i in range(11): url = "https://www.liepin.com/zhaopin/?compkind=&dqs=050090&pubTime=&pageSize=40&salary=&compTag=&sortFlag=&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=&siTag=1B2M2Y8AsgTpgAmY7PhCfg%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_title&d_ckId=c16556e4cc914dee657cb1e26c5f809e&d_curPage=0&d_pageSize=40&d_headId=c16556e4cc914dee657cb1e26c5f809e" + str(i) print(url) r = requests.get(url) html = bs4.BeautifulSoup(r.text, "html.parser") all_job = html.find("ul", class_="sojob-list").find_all("li") for date in all_job: name = date.find("a", target="_blank").text.strip() area = date.find("a", class_="area").text salary = date.find("span", class_="text-warning").text url = date.find("a", class_="area")["href"] edu = date.find("span", class_="edu").text result["jobname"].append(name) result["area"].append(area) result["salary"].append(salary) result["url"].append(url) result["edu"].append(edu) df = pd.DataFrame(result) df.to_csv("shenzhen_Zhaopin.csv", encoding="utf_8_sig")
相關文章
- python爬取網頁詳細教程Python網頁
- [Python Scrapy爬蟲] 二.翻頁爬取農產品資訊並儲存本地Python爬蟲
- CSV檔案儲存
- [python爬蟲] 招聘資訊定時系統 (一).BeautifulSoup爬取資訊並儲存MySQLPython爬蟲MySql
- Python中檔案讀取與儲存程式碼示例Python
- Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼Python爬蟲網頁
- [python爬蟲] BeautifulSoup爬取+CSV儲存貴州農產品資料Python爬蟲
- [爬蟲] 利用 Python 的 Selenium 庫爬取極客時間付費課程並儲存為 PDF 檔案爬蟲Python
- PHP匯出大量資料,儲存為CSV檔案PHP
- Python -讀取,儲存檔案Python
- 使用beautifulsoup和re抓取鏈家資料基礎並儲存為csv檔案
- 【爬坑日記】Mac中Excel儲存csv格式檔案 字元亂碼問題MacExcel字元
- python 讀取csv檔案Python
- 將動態aspx頁面,儲存為靜態htm檔案 (轉)
- python讀取檔案——python讀取和儲存mat檔案Python
- 【知識積累】使用Httpclient實現網頁的爬取並儲存至本地HTTPclient網頁
- 使用canvas儲存網頁為pdf檔案支援跨域Canvas網頁跨域
- Python爬蟲小實踐:尋找失蹤人口,爬取失蹤兒童資訊並寫成csv檔案,方便存入資料庫Python爬蟲資料庫
- 如何將html程式碼儲存為Pdf檔案HTML
- python3使用requests包抓取並儲存網頁原始碼Python網頁原始碼
- [python 爬蟲]第一個Python爬蟲,爬取某個新浪部落格所有文章並儲存為doc文件Python爬蟲
- 網頁用python爬取後如何解析網頁Python
- Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)(下)Python爬蟲Cookie
- Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)(上)Python爬蟲Cookie
- Go Web:資料儲存(2)——CSV檔案GoWeb
- Java爬蟲學習——例項:獲取起點中文網站小說並儲存成txt檔案Java爬蟲網站
- Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)Python爬蟲CookieJAR
- Python筆記:網頁資訊爬取簡介(一)Python筆記網頁
- 將網頁儲存為圖片形式程式碼例項網頁
- 【Python3網路爬蟲開發實戰】5-資料儲存-1 檔案儲存-2 JSON檔案儲存Python爬蟲JSON
- 爬取js渲染過的頁面(爬取一個婚慶網站為例)JS網站
- [python爬蟲] Selenium爬取內容並儲存至MySQL資料庫Python爬蟲MySql資料庫
- 修改並儲存hosts檔案
- skmultiflow使用自己的csv檔案訓練模型並儲存實驗結果模型
- Python 自用程式碼(scrapy多級頁面(三級頁面)爬蟲)Python爬蟲
- python - csv : 將text轉為csv檔案 (txt2csv)Python
- Linux企業級專案實踐之網路爬蟲(17)——儲存頁面Linux爬蟲
- Python讀取、儲存、檢視.mat檔案Python