python最簡單的爬蟲 , 一看就會
爬取智聯招聘python的崗位數
開始爬蟲前先檢視網址有什麼特點 , 爬取的內容要往哪裡入手 , 在智聯招聘搜尋python的崗位出現的網址是https://sou.zhaopin.com/jobs/searchresult.ashx?jl=杭州&kw=python
https://sou.zhaopin.com/jobs/searchresult.ashx?這個可以不用管
jl 代表的是地址在杭州
kw 代表搜尋的內容是搜尋的內容
import urllib from urllib import request, parse import re #封裝成一個url函式 def getJobNum(kw): #模擬瀏覽器新增相應頭 header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"} url = "https://sou.zhaopin.com/jobs/searchresult.ashx?" + kw request = urllib.request.Request(url, headers=header) response = urllib.request.urlopen(request) html = response.read().decode() # HTML原始碼 ''' <em>2011</em> ''' jobNumre = "<em>(\d+)</em>" # 匹配崗位數量 jobnum = re.findall(jobNumre, html) # 查詢 return jobnum[0] if __name__ == '__main__': jobList = ['java', 'php', 'python', 'go'] jobNumdict = {} # 儲存 for job in jobList: # jl = 杭州 & kw = php kw = {"jl": "杭州", 'kw': job} kw = urllib.parse.urlencode(kw) # 編碼 num = getJobNum(kw) jobNumdict[job] = num print(jobNumdict)
1.匯入URL模組
import urllib from urllib import response,parse import re
2.模擬瀏覽器新增請求頭
#封裝成一個url函式 def getJobNum(kw): #模擬瀏覽器新增相應頭 header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
3.url請求的地址
url = "https://sou.zhaopin.com/jobs/searchresult.ashx?" + kw
4.把url和請求頭帶入發起請求
request = urllib.request.Request(url, headers=header)
5.開啟請求會得到響應內容
response = urllib.request.urlopen(request)
6.把響應的內容進行解碼
html = response.read().decode()
7.正則匹配崗位數量
jobNumre = "<em>(\d+)</em>" # 匹配崗位數量
8.查詢到符合正則的內容
jobnum = re.findall(jobNumre, html) # 查詢 return jobnum[0]
9.設定想要對比的職位有那些
if __name__ == '__main__': jobList = ['java', 'php', 'python', 'go'] jobNumdict = {} # 儲存
10.遍歷每個職位對應的數量並進行編碼
for job in jobList: # jl = 杭州 & kw = kw = {"jl": "杭州", 'kw': job} kw = urllib.parse.urlencode(kw) # 編碼
11.把資料帶入函式中得到相應的數量
num = getJobNum(kw)
jobNumdict[job] = num
print(jobNumdict)
結果如下
{'java': '5665', 'php': '1262', 'python': '2002', 'go': '219'}
相關文章
- Python爬蟲詳解(一看就懂)Python爬蟲
- python簡單爬蟲(二)Python爬蟲
- python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用Python爬蟲
- 情況最簡單下的爬蟲案例爬蟲
- 簡單瞭解python爬蟲Python爬蟲
- Python代理IP爬蟲的簡單使用Python爬蟲
- Python爬蟲 --- 2.3 Scrapy 框架的簡單使用Python爬蟲框架
- 簡單的爬蟲程式爬蟲
- 使用Python和requests庫的簡單爬蟲程式Python爬蟲
- 基於Python的簡單天氣爬蟲程式Python爬蟲
- 用PYTHON爬蟲簡單爬取網路小說Python爬蟲
- python 爬蟲 mc 皮膚站 little skin 的簡單爬取Python爬蟲
- python爬蟲簡單實現逆向JS解密Python爬蟲JS解密
- python如何實現簡單的爬蟲功能?Python學習教程!Python爬蟲
- Python爬蟲入門並不難,甚至進階也很簡單,掌握了這些就簡單了Python爬蟲
- Python《成功破解簡單的 動態載入 的爬蟲》Python爬蟲
- Python3 | 簡單爬蟲分析網頁元素Python爬蟲網頁
- 初探python之做一個簡單小爬蟲Python爬蟲
- Python 開發簡單爬蟲 (學習筆記)Python爬蟲筆記
- 《Python開發簡單爬蟲》實踐筆記Python爬蟲筆記
- 一看就會!超簡單詳細 ChatGPT 註冊與使用攻略ChatGPT
- python 爬蟲 簡單實現百度翻譯Python爬蟲
- nodeJS做一個簡單的爬蟲NodeJS爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- Python超簡單超基礎的免費小說爬蟲!爬蟲入門從這開始!Python爬蟲
- Python爬蟲筆記(一)——基礎知識簡單整理Python爬蟲筆記
- 爬蟲--Scrapy簡易爬蟲爬蟲
- phpspider簡單快速上手的php爬蟲框架PHPIDE爬蟲框架
- 誰說爬蟲只能Python?看我用C#快速簡單實現爬蟲開發和演示!爬蟲PythonC#
- 為什麼寫爬蟲用Python語言?原因很簡單!爬蟲Python
- Java爬蟲與Python爬蟲的區別?Java爬蟲Python
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Laravel 手動搭建簡單的資料爬蟲Laravel爬蟲
- 一個簡單的爬蟲 頭部構造爬蟲
- 使用nodeJS寫一個簡單的小爬蟲NodeJS爬蟲
- 使用requests+BeautifulSoup的簡單爬蟲練習爬蟲
- python就是爬蟲嗎-python就是爬蟲嗎Python爬蟲