Python開發爬蟲專案+程式碼

春風化作秋雨發表於2019-04-24

近期,用Python做了一個爬蟲專案,爬取各大網站的資訊文章以及視訊資訊等

實現:

1、分析網站,分析網站佈局,解析分頁資訊獲取方式;

2、獲取原始碼,獲取整個網頁的原始碼資訊;

3、分頁機制,爬取分頁資訊,分頁資訊或者分頁請求(返回json資料);

4、重試機制,追加嘗試機制,爬取網頁資訊失敗,有限次數的重試,避免網路丟包資料丟失;

5、分類爬取,爬取文章資訊,包括標題,作者,釋出時間,摘要,內容,標籤;

6、資料提交,http+post+json請求,提交給java服務介面進行文章資訊儲存;其他,資料提交部分資訊進行base64加密解密,避免json資料解析失敗;

7、低頻爬取,爬取網站頁面資訊,每個隨機毫秒延遲,避免網站反爬蟲;

8、日誌收集,既在控制檯列印,有記錄進檔案,分級別記錄,異常資訊單獨記錄入error.log;

9、異常捕獲,郵件通知;

10、借用快取,使用redis進行快取管理,功能:過濾已爬取並儲存的網頁;

11、定時任務;

12、多執行緒程式設計;

程式碼存放github,望批評指正,地址如下:

https://github.com/hanlin16/spider_service

另外,開發以及部署環境中遇到的問題以及整理的常用知識

https://blog.csdn.net/jiahao1186/column/info/24886

 

相關文章