實戰爬取BOOS直聘，找到最適合你的職位

隨遇啊發表於2020-12-07

原文網址 : https://blog.csdn.net/Ugyfyv/article/details/110819997

說明

最近忙著找工作，想了解一下用人單位的招聘要求，以爬取boss直聘的招聘資訊作為參考。這裡記錄一下的爬取流程，並不作為其它用途！

分析頁面結構

通過分析頁面，發現招聘的詳細資訊都在詳情頁（如下圖），故通過詳情頁來提取招聘內容
在這裡插入圖片描述

設計爬蟲策略
在這裡插入圖片描述

通過列表頁獲取詳細頁的url地址，然後存入到url佇列中，發現列表頁有10頁，這裡使用多執行緒提高爬取效率；

通過url佇列中的詳情頁url地址得到詳情頁的html內容，採用xpath解析，提取招聘資訊，以字典形式存入data佇列中，這裡也採用多執行緒；

將data佇列中的資料儲存為json檔案，這裡每儲存的一個json檔案都是一個列表頁所有的招聘資訊。

頁面請求方式的判斷
在這裡插入圖片描述

不難發現，這裡是通過get請求並新增查詢字串獲取指定頁面的；

查詢字串引數的含義：query=python表示搜尋的職位，page=1表示列表頁的頁碼，ka=page-1這個沒用到可以忽略掉；

對應的程式碼如下：

regx_obj = re.compile(r'<br/>|<(em).*?>.*?</\1>')

def send_request(url_path, headers, param=None):
    """
    :brief 傳送請求，獲取html響應(這裡是get請求)
    :param url_path: url地址
    :param headers: 請求頭引數
    :param param: 查詢引數, 如：param = {'query': 'python', 'page': 1}
    :return: 返回響應內容
    """
    response = requests.get(url=url_path, params=param, headers=headers)
    response = regx_obj.sub('', response.text)
    return response

通過列表頁獲取詳情頁url
在這裡插入圖片描述

這裡通過xpath語法@href獲取a標籤href屬性值，拿到詳細頁url地址，程式碼如下：

def detail_url(param):
    """
    :brief 獲取詳情頁的url地址
    :param param:  get請求的查詢引數
    :return: None
    """
    wuhan_url = '/'.join([base_url, "c101200100/h_101200100/"])
    html = send_request(wuhan_url, headers, param=param)
    # 列表頁頁面
    html_obj = etree.HTML(html)
    # 提取詳情頁url地址
    nodes = html_obj.xpath(".//div[@class='info-primary']//a/@href")
    for node in nodes:
        detail_url = '/'.join([base_url, node])  # 拼接成完整的url地址
        print(detail_url)
        url_queue.put(detail_url)  # 新增到佇列中

解析詳情頁的資料
在這裡插入圖片描述

通過xpath解析資料，然後將資料儲存為字典放到佇列中，程式碼如下：

def parse_data():
    """
    :brief 從html文字中提取指定資訊
    :return: None
    """
    # # 解析為HTML文件
    try:
        while True:
            # 等待25s，超時則丟擲異常
            detail_url = url_queue.get(timeout=25)
            html = send_request(detail_url, headers, param=None)
            html_obj = etree.HTML(html)
            item = {}
            # 釋出日期
            item['publishTime'] = html_obj.xpath(".//div[@class='info-primary']//span[@class='time']/text()")[0]
            # 職位名
            item['position'] = html_obj.xpath(".//div[@class='info-primary']//h1/text()")[0]
            # 釋出者姓名
            item['publisherName'] = html_obj.xpath("//div[@class='job-detail']//h2/text()")[0]
            # 釋出者職位
            item['publisherPosition'] = html_obj.xpath("//div[@class='detail-op']//p/text()")[0]
            # 薪水
            item['salary'] = html_obj.xpath(".//div[@class='info-primary']//span[@class='badge']/text()")[0]
            # 公司名稱
            item['companyName'] = html_obj.xpath("//div[@class='info-company']//h3/a/text()")[0]
            # 公司型別
            item['companyType'] = html_obj.xpath("//div[@class='info-company']//p//a/text()")[0]
            # 公司規模
            item['companySize'] = html_obj.xpath("//div[@class='info-company']//p/text()")[0]
            # 工作職責
            item['responsibility'] = html_obj.xpath("//div[@class='job-sec']//div[@class='text']/text()")[0].strip()
            # 招聘要求
            item['requirement'] = html_obj.xpath("//div[@class='job-banner']//div[@class='info-primary']//p/text()")[0]
            print(item)
            jobs_queue.put(item)  # 新增到佇列中
            time.sleep(15)
    except:
        pass

儲存資料為json檔案

程式碼如下：

def write_data(page):
    """
    :brief 將資料儲存為json檔案
    :param page: 頁面數
    :return: None
    """
    with open('D:/wuhan_python_job_{}.json'.format(page), 'w', encoding='utf-8') as f:
        f.write('[')
        try:
            while True:
                job_dict = jobs_queue.get(timeout=25)
                job_json = json.dumps(job_dict, indent=4, ensure_ascii=False)
                f.write(job_json + ',')
        except:
            pass
        f.seek(0, 2)
        position = f.tell()
        f.seek(position - 1, 0)  # 剔除最後一個逗號
        f.write(']')

json資料示例

{
     "salary": "4K-6K",
     "publisherName": "曾麗香",
     "requirement": "城市：武漢經驗：應屆生學歷：本科",
     "responsibility": "1、2018屆統招本科畢業，計算機相關專業；2、熟悉python開發；3、良好的溝通表達能力，學習能力強，積極上進；",
     "publishTime": "釋出於2018-06-11 12:15",
     "companyName": "雲智匯科技",
     "position": "軟體開發（python、0年經驗）",
     "publisherPosition": "HR主管剛剛線上",
     "companySize": "未融資500-999人",
     "companyType": "計算機軟體"}

其它
div中存在
標籤，xpath無法獲取div標籤中所有的文字內容(如下圖)：
在這裡插入圖片描述

解決辦法：拿到html文字後，提前通過正規表示式剔除該標籤

核心程式碼如下：

正規表示式：去掉標籤中的<br/> 和 <em></em>標籤，便於使用xpath解析提取文字
regx_obj = re.compile(r'<br/>|<(em).*?>.*?</\1>')
response = requests.get(url=url_path, params=param, headers=headers)
response = regx_obj.sub('', response.text)

當爬取速度過快時，會被封ip，這裡將多執行緒改為單執行緒版，並使用time.sleep降低爬取速度
在這裡插入圖片描述
推薦一下我建的python學習交流扣扣qun：850973621，群裡有免費的視訊教程，開發工具、
電子書籍、專案原始碼分享。一起交流學習，一起進步！

作者：white_study
連結：https://www.jianshu.com/p/d293fe5ba56f
來源：簡書
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

爬取 Boss 直聘網上海區域 PHP 職位資訊資料並分析
2018-08-06
PHP
Go 高效抓取 Boss直聘職位資料
2021-07-21
Go
爬取 boss 直聘技術崗並分析
2019-03-20
拉勾網職位資料爬取
2018-08-26
女生轉行IT，有哪些合適的方向和職位？
2020-11-04
寫了個簡單爬蟲，分析 Boss 直聘自動駕駛崗位
2024-03-17
爬蟲自動駕駛
如何選擇最好最適合你的MacBook
2022-01-12
Mac
怎麼才能找到適合你的雲端計算方案
2018-12-21
如何爬取前程無憂python職位資訊
2021-09-11
Python
五款熱門報表工具大比拼，找到最適合你的資料解決方案！
2024-11-25
邦芒支招：6個建議幫你找到合適的工作
2024-02-20
替代helpcrunch的10大產品對比：找到最適合您的選擇
2023-10-23
Pyhton抓取BOSS直聘職位描述和資料清洗，很簡單沒有那麼難
2018-12-17
最適合學Python的幾類人，有你嗎?
2020-10-13
Python
利用Python爬蟲獲取招聘網站職位資訊
2021-08-09
Python爬蟲網站
6個最熱門的IT技術職位，薪資有多高？其實你也行！
2020-03-30
怎樣找到適合自己的產品呢
2018-09-30
最適合夏天佩戴的珠寶，你居然不知道？
2022-06-20
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
Java與Python：哪一個最適合你? - computersciencehub
2020-02-26
JavaPython
高手教程《三倍投幾期止損最合適》實戰教程
2021-03-26
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
BOSS直聘：2019職場人加班現狀調查報告
2019-04-15
BOSS直聘：2023年全年BOSS直聘實現營收59.52億元同比上漲31.9%
2024-03-13
營收
python爬蟲實戰：爬取西刺代理的代理ip（二）
2019-02-16
Python爬蟲
對比Memcached和Redis，誰才是適合你的快取？
2020-05-22
Redis快取
最適合參加IT培訓的4類人，有你嗎？
2020-08-31
如何找到適合網站優化的內容？
2021-11-19
網站優化
BOSS直聘的危與機
2022-08-10
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
適合男孩子的python爬蟲
2020-05-06
Python爬蟲
GitHub 8000+ Star！這可能是最適合你的 TensorFlow 教程
2018-12-27
Github
如何在網路上找到適合的外鏈平臺
2024-06-16
精益變革中，如何找到合適的顧問？
2023-02-20
網路爬蟲——Urllib模組實戰專案（含程式碼）爬取你的第一個網站
2020-02-12
爬蟲網站
優質 RPG 千千萬，哪款才最適合你？
2020-06-15
這五類人最適合轉Web前端，有你嗎？
2019-12-31
Web前端

實戰爬取BOOS直聘，找到最適合你的職位

核心程式碼如下：

相關文章