Python 實戰:用 Scrapyd 打造爬蟲控制檯

Python之禪發表於2018-10-30

爬蟲本地直接跑還是部署到伺服器跑? 有天,老闆安排小黃一個任務,要求獲取某體育賽事網站上所有足球聯賽及球隊的資訊資料,並存入資料庫中為後續的資料分析和計算做準備。因為這類資訊更新頻率比較低,所以隔十幾天啟動一次是沒什麼問題的,用 requests 就搞定了。又過了幾天,老闆跟你說,要求每天24小時不間斷採集賽事資訊,於是你把指令碼寫成了服務放在伺服器執行。又過了一段時間,老闆說:我們要將上個百主流體資訊網站的新聞採集回來,這時候你需要同時維護成百上千個爬蟲,你需要根據頻率排程每個爬蟲,監控每個爬蟲的異常狀態和日誌資訊,如果這些全部需要自己來實現的話,無異於閉門造車,因為業界已經有成熟解決方案。

Scrapyd 就是業內最優秀的爬蟲框架之一 Scrapy 官方出品的部署管理平臺。有了它,你就可以通過 API 向指定的爬蟲發起指令,並且可以通過 Web 頁面來檢視爬蟲的執行記錄與狀態等資訊。

640?wx_fmt=other

將爬蟲部署到伺服器是大部分爬蟲工程師必備的技能,這個技能可以為你的職業價值錦上添花。

網上關於 Scrapyd 的資料比較少,除了官方文件之外,只有一些比較零散的教程文章,遠遠無法滿足大部分開發者的技能需求。

於是,一位資深爬蟲工程師、開源專案 ScrapydArt 作者-韋世東撰寫了一本小冊子,梳理了自己多年爬蟲專案實踐經驗,以幫助更多工程師逐步實現「唯你可用」的爬蟲部署管理控制檯。

640?wx_fmt=png


冊子分為幾個大的部分:

  • 基礎篇:熟練應用打包工具,學會爬蟲的打包和部署

  • 進階篇:程式碼除錯方法以及原始碼閱讀技巧

  • 實戰篇:裝飾器知識的原理和應用

  • 大型實戰篇:基於 Scrapyd 進行擴充套件的能力

小冊子將通過 Scrapy 專案打包部署、Scrapyd 目錄結構分析、功能模組釋義和原始碼剖析來深入淺出的講解相關功能的原理,並且通過自定義 API、增加統計資料和介面美化等實踐來進一步加深你對 Scrapyd 的理解。最終達到可以隨心所欲的將 Scrapyd 的功能進行擴充套件,從而實現自己想要的爬蟲部署管理控制檯。

這本冊子,是迄今為止,對 Scrapyd 總結的相當通俗,全面,而且理論結合實踐的資料。小冊圖文並茂,直觀易懂,下面的動畫大家感受一下。

640?wx_fmt=png

640?wx_fmt=gif


有沒有感受到冊子的誠意


為了寫出更好的文字,更好服務技術人,小冊子選擇了收取一些費用。該冊子,
通過下方海報購買是8折優惠,23.92元限時一週
目前一些章節免費,歡迎掃碼閱讀。

640?wx_fmt=png

掃碼免費閱讀部分章節


對 Scrapy 不感興趣也沒關係,大家幫一下,讓更多的原創乾貨被更多的技術人看到,感謝

相關文章