寫了個簡單爬蟲，分析 Boss 直聘自動駕駛崗位

勇哥编程游记發表於2024-03-17

原文網址 : https://www.cnblogs.com/makemylife/p/18079256

爬蟲自動駕駛

兩年前，朋友想知道 Boss 直聘上關於自動駕駛的崗位有哪些，於是，筆者寫了一個簡單的爬蟲 crawler-boss ，將崗位的資訊收集起來。

這篇文章，筆者想分享爬蟲 crawler-boss 的設計思路。

1 基本原理 Selenium + chromedriver

對於很多動態渲染的網頁而言，想要抓取它的資料，就需要對網頁的 JS 程式碼以及 Ajax 介面等進行分析。

而當 JS 程式碼混亂，難以分析，Ajax 的介面又含有很多加密引數的時候，就非常難以直接找出規律，那麼上述過程會花費大量的時間和精力。

上圖中， Boss 直聘介面引數比較多，筆者並不想花太多時間研究這些引數，於是筆者選擇了另一種方案： Selenium + chromedriver 。

Selenium 是 web 瀏覽器自動化測試的工具，它可以模擬使用者與所有主流瀏覽器之間的互動，比如點選，輸入，抓取，拖拽等等。

但是 Selenium 與網路爬蟲又有千絲萬縷的關係，由於現在的網頁大多采用是JavaScript動態渲染，使得爬蟲返回的結果可能與使用者實際看到的網頁並不一致。我們看到的網頁可能是經過Ajax載入，或者是JavaScript以及其他演算法計算後生成的。

因此，我們可以使用 Selenium 直接模擬瀏覽器執行，我們肉眼看到的是什麼樣，能夠抓取的資料就是什麼樣。

2 安裝 chromedriver

WebDriver 是 Selenium 的核心元件，負責控制瀏覽器進行各種操作。WebDriver 可以透過不同的驅動程式與不同的瀏覽器進行通訊，比如 ChromeDriver、FirefoxDriver 等。

1、檢視當前Google瀏覽器版本

開啟Google瀏覽器，網址欄輸入：chrome://settings/help

2、下載對應版本的chromedriver

對照你的版本下載，當你使用的是 Chrome 版本 115 或更高版本，就點最上面的連結：

https://chromedriver.chromium.org/downloads/

找到你對應的版本，我這裡是122.0.6261.129

下載完成之後，將檔案解壓後，複製到 /usr/local/bin/ 目錄。

安裝完 chromedriver 後，Java 應用中新增如下依賴：

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-server</artifactId>
    <version>3.141.59</version>
</dependency>

然後透過如下程式碼，測試環境是否 OK 。

public static void main(String[] args) {
      WebDriver webDriver = new ChromeDriver();
      webDriver.get("https://juejin.cn");
}

點選執行，如果開啟了掘金網頁說明環境配置成功。

3 流程分析

1、進入搜尋頁面 , 搜尋框中輸入‘自動駕駛’

2、搜尋結果若出現登入浮窗，則關閉，將頁面中職位列表透過 class 擷取出來，儲存到資料庫

3、點選下一頁

4 寫到最後

當我們將 Selenium 作為爬蟲工具時，儘管它有很多優點，但也存在明顯的缺點。

Selenium 模擬瀏覽器動作，除了載入需要的資料外，還會載入圖片、JS、CSS等不必要的內容，導致網路資源和計算資源消耗增加，爬取速度變慢，爬取規模受限。

因此，長期大規模使用 Selenium 作為生產工具不是一個明智的選擇。

然而，如果只是想在個人電腦上快速抓取少量資料，Selenium 確實是一個非常方便的工具。

最後， crawler-boss 的原始碼實現非常簡單，假如同學們感興趣，可以關注公眾號，回覆「爬蟲」即可獲取。

參考文件：

https://zhuanlan.zhihu.com/p/137710454

https://juejin.cn/post/7284318118993068051

如果我的文章對你有所幫助，還請幫忙點贊、在看、轉發一下，你的支援會激勵我輸出更高質量的文章，非常感謝！

爬取 boss 直聘技術崗並分析
2019-03-20
爬取 Boss 直聘網上海區域 PHP 職位資訊資料並分析
2018-08-06
PHP
Go 高效抓取 Boss直聘職位資料
2021-07-21
Go
我爬取了爬蟲崗位薪資，分析後發現爬蟲真香
2020-12-09
爬蟲
Pyhton抓取BOSS直聘職位描述和資料清洗，很簡單沒有那麼難
2018-12-17
Vue低仿BOSS直聘APP
2018-11-07
VueAPP
boss直聘__zp_stoken__逆向
2024-04-24
BOSS直聘的危與機
2022-08-10
手動實現一個淺克隆 (boss直聘一面)
2021-08-11
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
什麼是爬蟲？Python爬蟲工程師崗位
2021-05-17
爬蟲Python工程師
BOSS直聘：2023年全年BOSS直聘實現營收59.52億元同比上漲31.9%
2024-03-13
營收
BOSS直聘：2019年上半年電競行業主要崗位平均招聘月薪達到9032元
2019-09-05
行業
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
flutter仿boss直聘，一個比較完整的例子（一）
2018-03-14
Flutter
自動駕駛L2來了，它會讓駕駛更輕鬆嗎？
2019-07-22
自動駕駛
BOSS直聘：2019 年晶片人才資料洞察
2019-05-27
晶片
Boss直聘IPO：既是結束也是開始
2021-05-26
Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了，動手破壞它！
2019-04-22
Python爬蟲
低速和園區駕駛就意味著簡單？這家神祕的自動駕駛創業公司告訴了我們所有真相
2018-05-16
自動駕駛創業
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
司機們要下崗？危局中滴滴暗自發力自動駕駛
2019-10-28
自動駕駛
BOSS直聘：2022網路安全人才趨勢
2022-06-06
自動駕駛 Apollo 原始碼分析系列，感知篇(一)
2020-12-17
自動駕駛原始碼
車市下一個風口——自動駕駛
2019-05-17
自動駕駛
Boss直聘財報：2024年Q3Boss直聘實現營收19.12億元人民幣同比增長19%
2024-12-13
營收
自動駕駛研究報告
2019-06-23
自動駕駛
自動駕駛拉鋸戰
2022-01-19
自動駕駛
寫個爬蟲唄
2019-02-25
爬蟲
自動駕駛資料閉環：實現高階自動駕駛的必由之路
2022-10-27
自動駕駛
簡約大氣微立體崗位競聘述職個人求職簡歷動態PPT模板_21386
2020-10-03
求職
Python3 | 簡單爬蟲分析網頁元素
2018-11-30
Python爬蟲網頁
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
自動駕駛中的機器學習演算法簡單介紹 - Haltakov
2021-04-22
自動駕駛機器學習演算法
flutter仿BOSS直聘（二），大前端技術實現
2019-01-20
Flutter前端
簡單的爬蟲程式
2024-03-24
爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
福特申請自動駕駛警車專利，可自動貼罰單
2018-05-15
自動駕駛

寫了個簡單爬蟲，分析 Boss 直聘自動駕駛崗位

1 基本原理 Selenium + chromedriver

2 安裝 chromedriver

3 流程分析

4 寫到最後

相關文章