python最簡單的爬蟲 , 一看就會

福爾摩斯恆發表於2018-06-14

原文網址 : https://blog.csdn.net/weixin_42401701/article/details/80687419

爬取智聯招聘python的崗位數

開始爬蟲前先檢視網址有什麼特點 , 爬取的內容要往哪裡入手 , 在智聯招聘搜尋python的崗位出現的網址是https://sou.zhaopin.com/jobs/searchresult.ashx?jl=杭州&kw=python

https://sou.zhaopin.com/jobs/searchresult.ashx?這個可以不用管

jl 代表的是地址在杭州

kw 代表搜尋的內容是搜尋的內容

import urllib
from urllib import request, parse
import re

#封裝成一個url函式
def getJobNum(kw):
    #模擬瀏覽器新增相應頭
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

    url = "https://sou.zhaopin.com/jobs/searchresult.ashx?" + kw

    request = urllib.request.Request(url, headers=header)
    response = urllib.request.urlopen(request)
    html = response.read().decode()  # HTML原始碼
    '''
    <em>2011</em>
    '''
    jobNumre = "<em>(\d+)</em>"  # 匹配崗位數量

    jobnum = re.findall(jobNumre, html)  # 查詢
    return jobnum[0]


if __name__ == '__main__':
    jobList = ['java', 'php', 'python', 'go']
    jobNumdict = {}  # 儲存
    for job in jobList:
        # jl = 杭州 & kw = php
        kw = {"jl": "杭州", 'kw': job}
        kw = urllib.parse.urlencode(kw)  # 編碼

        num = getJobNum(kw)
        jobNumdict[job] = num
    print(jobNumdict)

1.匯入URL模組

import urllib
from urllib import response,parse
import re

2.模擬瀏覽器新增請求頭

#封裝成一個url函式
def getJobNum(kw):
    #模擬瀏覽器新增相應頭
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

3.url請求的地址

url = "https://sou.zhaopin.com/jobs/searchresult.ashx?" + kw

4.把url和請求頭帶入發起請求

request = urllib.request.Request(url, headers=header)

5.開啟請求會得到響應內容

response = urllib.request.urlopen(request)

6.把響應的內容進行解碼

html = response.read().decode()

7.正則匹配崗位數量

jobNumre = "<em>(\d+)</em>"  # 匹配崗位數量

8.查詢到符合正則的內容

jobnum = re.findall(jobNumre, html)  # 查詢
return jobnum[0]

9.設定想要對比的職位有那些

if __name__ == '__main__':
    jobList = ['java', 'php', 'python', 'go']
    jobNumdict = {}  # 儲存

10.遍歷每個職位對應的數量並進行編碼

for job in jobList:
    # jl = 杭州 & kw = 
    kw = {"jl": "杭州", 'kw': job}
    kw = urllib.parse.urlencode(kw)  # 編碼

11.把資料帶入函式中得到相應的數量

num = getJobNum(kw)
    jobNumdict[job] = num
print(jobNumdict)

結果如下

{'java': '5665', 'php': '1262', 'python': '2002', 'go': '219'}

Python爬蟲詳解（一看就懂）
2022-07-15
Python爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
情況最簡單下的爬蟲案例
2020-03-06
爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
簡單的爬蟲程式
2024-03-24
爬蟲
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
python如何實現簡單的爬蟲功能?Python學習教程!
2021-01-12
Python爬蟲
Python爬蟲入門並不難，甚至進階也很簡單，掌握了這些就簡單了
2018-12-03
Python爬蟲
Python《成功破解簡單的動態載入的爬蟲》
2020-12-20
Python爬蟲
Python3 | 簡單爬蟲分析網頁元素
2018-11-30
Python爬蟲網頁
初探python之做一個簡單小爬蟲
2019-03-02
Python爬蟲
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記
一看就會！超簡單詳細 ChatGPT 註冊與使用攻略
2023-02-10
ChatGPT
python 爬蟲簡單實現百度翻譯
2020-04-14
Python爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
Python爬蟲筆記（一）——基礎知識簡單整理
2018-07-08
Python爬蟲筆記
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
phpspider簡單快速上手的php爬蟲框架
2020-02-17
PHPIDE爬蟲框架
誰說爬蟲只能Python？看我用C#快速簡單實現爬蟲開發和演示！
2024-05-27
爬蟲PythonC#
為什麼寫爬蟲用Python語言?原因很簡單！
2021-03-19
爬蟲Python
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Laravel 手動搭建簡單的資料爬蟲
2019-11-28
Laravel爬蟲
一個簡單的爬蟲頭部構造
2020-11-22
爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
使用requests+BeautifulSoup的簡單爬蟲練習
2018-04-06
爬蟲
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲

python最簡單的爬蟲 , 一看就會

相關文章