多執行緒爬蟲實現（上）

dwzb發表於2018-05-26

原文網址 : https://juejin.im/post/5b0951ab51882538ac1ce3c8

執行緒爬蟲

本文首發於知乎

爬蟲主要執行時間消耗是請求網頁時的io阻塞，所以開啟多執行緒，讓不同請求的等待同時進行，可以大大提高爬蟲執行效率。

本文基於多執行緒（這裡開啟了10個執行緒），使用github的api，抓取fork cpython專案的所有5千多個專案資訊，將資料儲存到json檔案中。

抓取github的這個內容，在上一篇文章中展示了不使用多執行緒的版本，這裡就直接在那個的基礎上進行改進。

爬蟲所需技術

requests庫請求網頁，獲取json格式資料，解析字典提取我們要的資訊，儲存json檔案
使用threading為網頁請求部分設計多執行緒
使用兩個佇列，分別儲存待抓取url和解析後的結果資料
擁有github賬戶，需要在程式碼中填入賬號和密碼
瞭解裝飾器（這裡只是計算執行時間，不瞭解也沒關係）

爬蟲程式碼如下

import requests
import time
from threading import Thread
from queue import Queue
import json

def run_time(func):
    def wrapper(*args, **kw):
        start = time.time()
        func(*args, **kw)
        end = time.time()
        print('running', end-start, 's')
    return wrapper


class Spider():

    def __init__(self):
        self.qurl = Queue()
        self.data = list()
        self.email = '' # 登入github用的郵箱
        self.password = '' # 登入github用的密碼
        self.page_num = 171
        self.thread_num = 10

    def produce_url(self):
        baseurl = 'https://api.github.com/repos/python/cpython/forks?page={}'
        for i in range(1, self.page_num + 1):
            url = baseurl.format(i)
            self.qurl.put(url) # 生成URL存入佇列，等待其他執行緒提取

    def get_info(self):
        while not self.qurl.empty(): # 保證url遍歷結束後能退出執行緒
            url = self.qurl.get() # 從佇列中獲取URL
            print('crawling', url)
            req = requests.get(url, auth = (self.email, self.password))
            data = req.json()
            for datai in data:
                result = {
                    'project_name': datai['full_name'],
                    'project_url': datai['html_url'],
                    'project_api_url': datai['url'],
                    'star_count': datai['stargazers_count']
                }
                self.data.append(result)

    @run_time
    def run(self):
        self.produce_url()

        ths = []
        for _ in range(self.thread_num):
            th = Thread(target=self.get_info)
            th.start()
            ths.append(th)
        for th in ths:
            th.join()

        s = json.dumps(self.data, ensure_ascii=False, indent=4)
        with open('github_thread.json', 'w', encoding='utf-8') as f:
            f.write(s)

        print('Data crawling is finished.')

if __name__ == '__main__':
    Spider().run()
複製程式碼

讀者只需要在Spider的__init__中，指定自己的github郵箱和密碼，即可執行爬蟲。

爬蟲說明如下

1.run_time函式是一個計算程式執行時間的裝飾器，作用於Spider物件的run函式

2.Spider類

__init__初始化一些常量
produce_url用於生產所有URL，儲存到Queue佇列qurl中。5千多個元素分佈在171個頁面之中，將這171個URL存入佇列中等待請求解析。其實這裡不需要多執行緒之間通訊，所以使用list代替Queue佇列也是可以的。
get_info網頁的請求與解析，之後開啟多執行緒就是多個這個函式同時執行。函式邏輯：只要qurl中還有元素，就每次從qurl中提取一個url進行請求解析，將結果存入data列表中。當佇列中沒有元素了即退出迴圈（爬蟲結束）。
run呼叫函式，執行爬蟲。首先呼叫produce_url產生待爬URL佇列。然後開啟指定數量的執行緒，每個執行緒都從qurl不斷提取URL進行解析，將資料存入data列表中。等到URL佇列被解析結束，將data中的資料儲存入json檔案中

爬蟲結果

抓取結果展示如下

這個程式開啟10個執行緒抓取171個頁面用了33秒。在這篇文章中不使用多執行緒則使用了333秒。為了能更清晰地體會多執行緒執行效率的改進，讀者可以自行嘗試修改上面程式碼中的self.page_num和self.thread_num。

我這裡做了一個實驗，self.page_num值設為20，即總共抓取20頁

開2個執行緒執行 18.51 秒
開5個執行緒執行 7.49 秒
開10個執行緒執行 3.97 秒
開20個執行緒執行 2.11 秒

一個問題

最後留一個問題給讀者思考：在前面的這篇文章中，我們也實現了一個多執行緒爬蟲，為什麼當時的程式碼那麼簡單，而現在卻複雜了這麼多呢？

後續

多執行緒爬蟲的下一篇文章會實現在翻頁、抓取二級頁面時使用多執行緒。

歡迎關注我的知乎專欄

專欄主頁：python程式設計

版本說明：軟體及包版本說明

如何使用queue模組實現多執行緒爬蟲
2023-11-29
執行緒爬蟲
python多執行緒爬蟲與單執行緒爬蟲效率效率對比
2021-03-19
Python執行緒爬蟲
簡易多執行緒爬蟲框架
2018-06-02
執行緒爬蟲框架
Python《多執行緒併發爬蟲》
2020-12-12
Python執行緒爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
python爬蟲入門八：多程式/多執行緒
2019-01-07
Python爬蟲執行緒
資料提取方法-多程式多執行緒爬蟲
2020-11-16
執行緒爬蟲
python爬蟲之多執行緒、多程式+程式碼示例
2020-08-26
Python爬蟲執行緒
Python爬蟲入門【10】：電子書多執行緒爬取
2019-07-31
Python爬蟲執行緒
python多執行緒非同步爬蟲-Python非同步爬蟲試驗[Celery,gevent,requests]
2020-11-11
Python執行緒非同步爬蟲
如何實現多執行緒
2023-05-19
執行緒
多執行緒實現多工二
2019-09-17
執行緒
多執行緒實現多工一
2019-09-17
執行緒
Java多執行緒的實現
2019-01-19
Java執行緒
Java多執行緒實現方式
2020-07-15
Java執行緒
【unity】 Loom實現多執行緒
2024-10-23
UnityOOM執行緒
JavaScript如何實現多執行緒？
2022-12-29
JavaScript執行緒
Runnable介面實現多執行緒
2021-01-02
執行緒
多執行緒具體實現
2021-03-06
執行緒
基於多執行緒+協程的非同步增量式爬蟲
2024-05-12
執行緒非同步爬蟲
用Pthread實現多執行緒操作
2018-03-23
thread執行緒
【連載 02】多執行緒實現
2024-11-28
執行緒
Python爬蟲15--爬蟲遇上多執行緒，速度更上一層樓，爬取1000張圖片連一分鐘也不要！
2021-01-03
Python爬蟲執行緒
【騏程】多執行緒（上）
2020-11-14
執行緒
Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取
2018-12-27
Python爬蟲執行緒
Python爬蟲入門教程 11-100 行行網電子書多執行緒爬取
2018-12-25
Python爬蟲執行緒
面試-實現多執行緒的方式
2018-06-29
面試執行緒
【QT】QtConcurrent::run()+QThreadPool實現多執行緒
2020-11-10
QTthread執行緒
純Mutex實現多執行緒交替列印
2020-10-12
Mutex執行緒
用多執行緒，實現併發，TCP
2020-04-25
執行緒TCP
Python簡單實現多執行緒例子
2024-06-07
Python執行緒
Java多執行緒【三種實現方法】
2022-03-23
Java執行緒
多執行緒伺服器的實現
2021-02-24
執行緒伺服器
多執行緒基礎-基礎實現
2020-12-12
執行緒
5招教你實現多執行緒場景下的執行緒安全！
2021-08-11
執行緒
Java高併發與多執行緒（二）-----執行緒的實現方式
2021-01-18
Java執行緒
多執行緒爬取B站視訊
2020-10-13
執行緒
多執行緒和多執行緒同步
2024-08-22
執行緒

多執行緒爬蟲實現（上）

歡迎關注我的知乎專欄

相關文章