Python爬蟲：手把手教你寫迷你爬蟲架構

吃著東西不想停發表於2020-07-10

原文網址 : https://www.cnblogs.com/zwhy8/p/13279536.html

Python爬蟲架構

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

作者：我愛學Python

語言&環境

語言：繼續用Python開路！

一個迷你框架

下面以比較典型的通用爬蟲為例，分析其工程要點，設計並實現一個迷你框架。架構圖如下：

程式碼結構：

config_load.py 配置檔案載入
crawl_thread.py 爬取執行緒
mini_spider.py 主執行緒
spider.conf 配置檔案
url_table.py url佇列、url表
urls.txt 種子url集合
webpage_parse.py 網頁分析
webpage_save.py 網頁儲存
看看配置檔案裡有什麼內容：
spider.conf

Step 3. 記錄哪些網頁已經下載過的小本本——URL表。

在網際網路上，一個網頁可能被多個網頁中的超連結所指向。這樣在遍歷網際網路這張圖的時候，這個網頁可能被多次訪問到。為了防止一個網頁被下載和解析多次，需要一個URL表記錄哪些網頁已經下載過。再遇到這個網頁的時候，我們就可以跳過它。

crawl_thread.py

Step 5. 頁面分析模組

從網頁中解析出URLs或者其他有用的資料。這個是上期重點介紹的，可以參考之前的程式碼。

Step 6. 頁面儲存模組

儲存頁面的模組，目前將檔案儲存為檔案，以後可以擴充套件出多種儲存方式，如mysql，mongodb，hbase等等。

webpage_save.py

寫到這裡，整個框架已經清晰的呈現在大家眼前了，千萬不要小看它，不管多麼複雜的框架都是在這些基本要素上擴充套件出來的。

手把手教你寫網路爬蟲（2）：迷你爬蟲架構
2018-04-27
爬蟲架構
手把手教你寫網路爬蟲（3）：開源爬蟲框架對比
2018-04-28
爬蟲框架
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
超貼心的，手把手教你寫爬蟲
2021-01-14
爬蟲
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
手把手教你寫網路爬蟲（4）：Scrapy入門
2018-05-05
爬蟲
手把手教你寫網路爬蟲（5）：PhantomJS實戰
2018-05-06
爬蟲JS
手把手教你寫網路爬蟲（7）：URL去重
2018-05-14
爬蟲
3 行寫爬蟲 - 使用 Goribot 快速構建 Golang 爬蟲
2019-10-13
爬蟲Golang
新手爬蟲，教你爬掘金（二）
2019-03-03
爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
python分散式爬蟲如何設計架構？
2021-09-11
Python分散式爬蟲架構
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
Python為什麼叫爬蟲?Python為什麼適合寫爬蟲?
2021-02-02
Python爬蟲
python 爬蟲
2024-04-20
Python爬蟲
python爬蟲
2024-06-13
Python爬蟲
網路爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python程式碼）
2019-04-24
爬蟲網頁Python
手把手教你爬蟲代理ip池的建立
2021-09-11
爬蟲
什麼是網路爬蟲?為什麼用Python寫爬蟲?
2021-03-08
爬蟲Python
教你用python爬蟲爬blibili網站彈幕！
2021-03-22
Python爬蟲網站
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
Python零基礎爬蟲教學（實戰案例手把手Python爬蟲教學）
2020-04-17
Python爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
教你用Python爬取圖蟲網
2019-02-26
Python
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python爬蟲2
2019-01-07
Python爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲--2
2024-03-24
Python爬蟲
Python asyncio 爬蟲
2020-04-28
Python爬蟲
Python 爬蟲系列
2021-01-01
Python爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲