[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

MarvinZhang發表於2019-05-27

原文網址 : https://juejin.im/post/5ceb4342f265da1bc8540660

⚠注意: 可配置爬蟲現在僅在Python版本（v0.2.1-v0.2.4）可用，在最新版本Golang版本（v0.3.0）還暫時不可用，後續會加上，請關注近期更新

前言

開發爬蟲是一件有趣的事情。寫一個程式，對感興趣的目標網站發起HTTP請求，獲取HTML，解析HTML，提取資料，將資料儲存到資料庫或者存為CSV、JSON等格式，再用自己熟悉的語言例如Python對這些資料進行分析生成酷炫的圖表。這個過程是不是很興奮？

然而，開發爬蟲並不是一件簡單的事情。通常開發一個簡單爬蟲往往需要編寫好幾個模組：下載器、解析器、提取規則、儲存模組。實現這個簡單爬蟲用Python實現至少需要編寫10-20行程式碼，而且如果考慮併發和排程的話，通常要編寫50行程式碼以上。更麻煩的是，如果要管理多個爬蟲實現爬蟲的工程化，需要對各個網站的爬蟲程式碼提取共用模組和引數，這個過程需要相當的工程經驗和時間積累。其實，一般各大網站的結構大同小異，僅需要更改提取規則即可。很多爬蟲工程師要在大型專案中編寫成百上千的提取規則，對於沒有任何管理工具的人來說，這基本上是個噩夢。

可配置爬蟲

幸運的是，Crawlab在版本v0.2.1中新增功能可配置爬蟲可以讓工程師從這些重複性工作中解放開來。Crawlab的可配置爬蟲只需要爬蟲工程師配置一些必要的CSS/XPath提取規則，就可以完成一個常規的爬蟲開發。根據作者實驗，對於CSS選擇器或XPath稍微熟悉點的工程師，用可配置爬蟲開發完一個包含五臟俱全的常規爬蟲只需要1-3分鐘。

Crawlab的可配置爬蟲是基於Scrapy的，因此天生是支援併發的。而且，可配置爬蟲完全支援Crawlab自定義爬蟲的一般功能的，因此也支援任務排程、任務監控、日誌監控、資料分析。

安裝執行Crawlab

Crawlab是一個專注於爬蟲的整合了爬蟲管理、任務排程、任務監控、資料分析等模組的分散式爬蟲管理平臺，非常適合對爬蟲管理、爬蟲工程化有要求的開發者及企業。

關於Crawlab的詳細介紹請參考之前的文章：

以下是Crawlab的安裝和執行步驟，時間大概在10-20分鐘。

安裝步驟

執行步驟

如何開發並執行可配置爬蟲

下面總算到了爬蟲開發時間。這裡將以網易24小時排行新聞為例，開發一個相應的可配置爬蟲，整個流程應該不超過3分鐘。

新增爬蟲

Crawlab跑起來之後，在瀏覽器中開啟網址http://localhost:8080，導航到爬蟲。在點選新增爬蟲按鈕。

點選可配置爬蟲。

輸入完基本資訊，點選新增。

配置爬蟲

新增完成後，可以看到剛剛新增的可配置爬蟲出現了在最下方，點選檢視進入到爬蟲詳情。

點選配置標籤進入到配置頁面。接下來，我們需要對爬蟲規則進行配置。

這裡已經有一些配置好的初始輸入項。我們簡單介紹一下各自的含義。

抓取類別

這也是爬蟲抓取採用的策略，也就是爬蟲遍歷網頁是如何進行的。作為第一個版本，我們有僅列表、僅詳情頁、列表+詳情頁。

僅列表頁。這也是最簡單的形式，爬蟲遍歷列表上的列表項，將資料抓取下來。
僅詳情頁。爬蟲只抓取詳情頁。
列表+詳情頁。爬蟲先遍歷列表頁，將列表項中的詳情頁地址提取出來並跟進抓取詳情頁。

這裡我們選擇列表+詳情頁。

列表項選擇器 & 分頁選擇器

列表項的匹和分頁按鈕的匹配查詢，由CSS或XPath來進行匹配。

開始URL

爬蟲最開始遍歷的網址。

遵守Robots協議

這個預設是開啟的。如果開啟，爬蟲將先抓取網站的robots.txt並判斷頁面是否可抓；否則，不會對此進行驗證。使用者可以選擇將其關閉。請注意，任何無視Robots協議的行為都有法律風險。

列表頁欄位 & 詳情頁欄位

這些都是再列表頁或詳情頁中需要提取的欄位。欄位由CSS選擇器或者XPath來匹配提取。可以選擇文字或者屬性。

在檢查完目標網頁的元素CSS選擇器之後，我們輸入列表項選擇器、開始URL、列表頁/詳情頁等資訊。注意勾選url為詳情頁URL。

點選儲存、預覽，檢視預覽內容。

OK，現在配置大功告成，終於可開始跑爬蟲了！

執行爬蟲

你唯一需要做的，就是點選執行按鈕並確認。點選概覽標籤，你可以看到任務已經開始執行了。

點選建立時間連結導航到任務詳情，點選結果標籤，你就可以看到抓取到的結果已經儲存下來了。

怎麼樣，這個過程是不是超級簡單？如果熟練的話，整個過程可以在60秒內完成！就跟玩魔方一樣，越玩越熟練！

結語

本文利用Crawlab的可配置爬蟲功能實現了3分鐘內對網易新聞24小時新聞排行榜的抓取。同樣的過程可以實現在其他類似的網站上面。雖然這是一個經典的“列表+詳情頁”的抓取模式，比較簡單，後續我們還會開發更多的更復雜的抓取模式，實現更多的抓取需求。Crawlab的可配置爬蟲降低了爬蟲的開發時間，增加了爬蟲開發效率，完善了工程化水平，將爬蟲工程師從日常的繁瑣配置工作中解放出來。配置工作可以交給初級爬蟲工程師或者外包人員來做，而高階爬蟲工程師會把精力放在更復雜的爬蟲工作上來，例如反爬、動態內容、分散式爬蟲等等。

Github: tikazyq/crawlab

如果感覺Crawlab還不錯，對你的日常工作或企業有幫助的話，請加作者微信拉入開發交流群，大家一起交流關於Crawlab的使用和開發。

我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲學習日記（六）完成第一個爬蟲任務
2019-01-10
爬蟲
我爬取了爬蟲崗位薪資，分析後發現爬蟲真香
2020-12-09
爬蟲
爬蟲筆記（一）
2019-03-27
爬蟲筆記
我的第一個Python爬蟲——談心得
2018-03-30
Python爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
爬蟲開發技巧
2020-11-14
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
那些年，我爬過的北科(四)——爬蟲進階之極簡併行爬蟲框架開發
2019-03-04
爬蟲框架
什麼是爬蟲?爬蟲的工作原理是什麼呢
2020-05-27
爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
ScienceDirect內容爬蟲
2021-07-21
爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
什麼是爬蟲？Python爬蟲工程師崗位
2021-05-17
爬蟲Python工程師
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
不踩坑的Python爬蟲：如何在一個月內學會爬取大規模資料
2018-06-14
Python爬蟲
什麼是爬蟲？Python爬蟲的工作流程怎樣?
2021-02-01
爬蟲Python
每天一個爬蟲-learnku我的部落格列表
2021-06-17
爬蟲
爬蟲學習日記（一）
2018-11-28
爬蟲
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式
爬蟲實戰開發學習（一）
2021-07-06
爬蟲
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
我常用的puppeteer爬蟲api
2018-05-25
爬蟲API
我去！爬蟲遇到字型反爬，哭了
2021-06-07
爬蟲
個人分享 | 我的常規爬蟲流程
2018-10-31
爬蟲
每天一個爬蟲-learnku
2021-06-16
爬蟲
什麼是爬蟲?學習Python爬蟲難不難?
2019-11-05
爬蟲Python