golang實現併發爬蟲三(用佇列排程器實現）

公子若不胖天下誰胖發表於2020-04-24

原文網址 : https://www.cnblogs.com/anmutu/p/12765207.html

Golang爬蟲佇列

欲看此文，必先可先看：

golang實現併發爬蟲一（單任務版本爬蟲功能）

gollang實現併發爬蟲二（簡單排程器）

上文中的用簡單的排程器實現了併發爬蟲。

並且，也提到了這種併發爬蟲的實現可以提高爬取效率。

當workerCount為1和workerCount為10時其爬取效率是有明顯不同的。

然而，文末其實也提到了這個簡單排程器實現的爬蟲有個不可控或者說是控制力太小了的問題。

究其原因就是因為我們實現的方法是來一個request就給建立一個groutine。

為了讓這個程式變得更為可控。得想想怎麼可以優化下了。

現在，非常明顯，優化點就是我不想要來一個request就建立一個這個實現過程。

那麼，我們可以想到佇列。

把request放到request佇列裡。

那麼，request佇列裡一定是會有一個request的頭的，我們就可以把這個request的頭元素給到worker去做實現。

也就是這樣：

but，這樣是沒有對worker進行一個控制的。

我們希望request可以選擇我們想要的一個worker。

那麼，我們也可以讓scheduler維護一個worker的佇列。

這裡用了三個並行的模組：

1.engine 引擎模組。

2.scheduler 排程器模組。

3.worker 工作模組。

這三者通訊都是通過channel來通訊的。

上圖中可知道排程器模組實際上是維護了2個channel,一個是request的channel,一個是worker的channel。

//佇列排程器
//這個scheduler與engine和worker之間的通訊都是通過channel來連線的。
//故爾它的肚子裡應該有request相關的channel和worker相關的channel.
//另外注意這裡worker的channel的型別是chan Request。
type QueuedScheduler struct {
    requestChan chan con_engine.Request
    workerChan  chan chan con_engine.Request
}

那麼，我們就只需要在這個scheduler排程器的兩個channel裡，各取一個元素，即取request和worker(chan con_engine.Request),把request發給worker就可以了。

一直不斷的去取和傳送，這就是這個佇列排程器要做的事情了。

那個彎曲的箭頭也就是指的這個事情了。在request的佇列裡找到合適的request發給worker佇列裡合適的worker就好。

這就是一個整體的思想了。

稍微說下關於維護如何兩個佇列的程式碼。

重點在於怎麼才能做到各讀取一個元素。

channel的讀取是會阻塞的。

如果我先讀取request，如果讀取不到，那麼在等待的時候就沒有辦法取到worker了。

解決方案就是用select,因為select會保證一點，select裡的每一個case都會被執行到且會很快速的執行。

func (s *QueuedScheduler) Run() {
    s.requestChan = make(chan con_engine.Request) //指標接收者才能改變裡面的內容。
    s.workerChan = make(chan chan con_engine.Request)
    go func() {
        var requestQ []con_engine.Request
        var workerQ []chan con_engine.Request
        for {
            var activeRequest con_engine.Request
            var activeWorker chan con_engine.Request
            if len(requestQ) > 0 && len(workerQ) > 0 {
                activeRequest = requestQ[0]
                activeWorker = workerQ[0]
            }
            //收到一個request就讓request排隊，收到一個worker就讓worker排隊。所有的channel操作都放到select裡。
            select {
            case r := <-s.requestChan:
                requestQ = append(requestQ, r)
            case w := <-s.workerChan:
                workerQ = append(workerQ, w)
            case activeWorker <- activeRequest:
                requestQ = requestQ[1:]
                workerQ = workerQ[1:]
            }
        }
    }()
}

select就是在做三件事情：

1.從requestChan裡收一個request,將這個request存在變數requestQ裡。

2.從workerChan裡收一個worker，將這個worker存在變數workerQ裡。

3.把第一個requestQ裡的第一個元素髮給第一個workerQ裡的第一個元素。　　

其他程式碼就感興趣的同學自己看吧。

作者就先說到這裡。

總體排程的思想上面的圖中。

具體的實現在原始碼裡。

歡迎大家留言指教。

原始碼：

https://github.com/anmutu/du_crawler/tree/master/04crawler

Golang 實現 RabbitMQ 的死信佇列
2022-01-30
GolangMQ佇列
用佇列實現棧
2024-03-10
佇列
用 Rust 實現佇列
2019-12-10
Rust佇列
用棧實現佇列
2024-11-01
佇列
Golang 實現 RabbitMQ 的延遲佇列
2022-02-08
GolangMQ佇列
Python佇列的三種佇列實現方法
2020-04-19
Python佇列
9. 題目：對佇列實現棧&用棧實現佇列
2018-11-23
佇列
Day 10| 232.用棧實現佇列、 225. 用佇列實現棧
2024-06-01
佇列
Kubernetes 排程器實現初探
2019-03-07
用JavaScript實現棧與佇列
2019-02-28
JavaScript佇列
leedcode-用棧實現佇列
2024-03-20
佇列
leedcode-用佇列實現棧
2024-03-15
佇列
用2個棧實現佇列
2020-12-22
佇列
通過佇列實現棧OR通過棧實現佇列
2018-08-19
佇列
用typescript開發爬蟲過程實踐
2019-02-27
TypeScript爬蟲
鏈式佇列—用連結串列來實現佇列
2020-12-10
佇列
LeetCode225. 用佇列實現棧
2024-07-24
LeetCode佇列
1201-用棧實現最小佇列
2024-12-01
佇列
Golang 併發程式設計(channel實現)
2021-09-09
Golang程式設計
佇列(Queue)-c實現
2020-04-07
佇列
用PHP實現高併發伺服器
2019-03-25
PHP伺服器
用連結串列實現佇列的功能
2019-01-08
佇列
力扣-232. 用棧實現佇列
2024-05-10
力扣佇列
golang實現稀疏陣列
2020-10-04
Golang陣列
用佇列實現棧，用棧實現佇列，聽起來有點繞，都搞懂了就掌握了精髓！
2020-06-09
佇列
佇列的一種實現：迴圈佇列
2020-06-01
佇列
教你如何運用golang實現陣列分割
2022-03-05
Golang陣列
用雲函式快速實現圖片爬蟲
2018-11-02
函式爬蟲
兩個棧實現佇列
2018-03-28
佇列
RabbitMQ 實現延遲佇列
2021-12-31
MQ佇列
Redis實現訊息佇列
2021-08-23
Redis佇列
RabbitMQ實現延遲佇列
2022-04-22
MQ佇列
ModStart排程和佇列
2021-12-09
佇列
深入 Java Timer 定時排程器實現原理
2018-12-17
Java
Golang協程池（workpool）實現
2020-07-03
Golang
題目9：用兩個棧實現佇列
2018-07-17
佇列
程式碼隨想錄：用棧實現佇列
2024-12-10
佇列
程式碼隨想錄：用佇列實現棧
2024-12-10
佇列

golang實現併發爬蟲三(用佇列排程器實現）

相關文章