【Python】python使用redis做佇列服務

小亮520cl發表於2017-02-14

系統中引入訊息佇列機制是對系統一個非常大的改善。例如一個web系統中,使用者做了某項操作後需要傳送郵件通知到使用者郵箱中。你可以使用同步方式讓使用者等待郵件傳送完成後反饋給使用者,但是這樣可能會因為網路的不確定性造成使用者長時間的等待從而影響使用者體驗。

有些場景下是不可能使用同步方式等待完成的,那些需要後臺花費大量時間的操作。例如極端例子,一個線上編譯系統任務,後臺編譯完成需要30分鐘。這種場景的設計不可能同步等待後在回饋,必須是先反饋使用者隨後非同步處理完成,再等待處理完成後根據情況再此反饋使用者與否。

另外適用訊息佇列的情況是那些系統處理能力有限的情況下,先使用佇列機制把任務暫時存放起來,系統再一個個輪流處理掉排隊的任務。這樣在系統吞吐量不足的情況下也能穩定的處理掉高併發的任務。

訊息佇列可以用來做排隊機制,只要系統需要用到排隊機制的地方就可以使用訊息佇列來作。

rabbitmq的優先順序做法

目前成熟的訊息佇列產品有很多,著名的例如rabbitmq。它使用起來相對還是比較簡單的,功能也相對比較豐富,一般場合下是完全夠用的。但是有個很煩人的就是它不支援優先順序。 例如一個發郵件的任務,某些特權使用者希望它的郵件能夠更加及時的傳送出去,至少比普通使用者要優先對待。預設情況下rabbitmq是無法處理掉的,扔給rabbitmq的任務都是FIFO先進先出。但是我們可以使用一些變通的技巧來支援這些優先順序。建立多個佇列,併為rabbitmq的消費者設定相應的路由規則。

例如預設情況下有這樣一個佇列,我們拿list來模擬 [task1, task2, task3],消費者輪流按照FIFO的原則一個個拿出task來處理掉。如果有高優先順序的任務進來,它也只能跟在最後被處理[task1, task2, task3, higitask1]. 但是如果使用兩個佇列,一個高優先順序佇列,一個普通優先順序佇列。 普通優先順序[task1, task2, task3], 高優先順序[hightask1 ] 然後我們設定消費者的路由讓消費者隨機從任意佇列中取資料即可。

並且我們可以定義一個專門處理高優先順序佇列的消費者,它空閒的時候也不處理低優先順序佇列的資料。這類似銀行的VIP櫃檯,普通客戶在銀行取號排隊,一個VIP來了他雖然沒有從取號機裡拿出一個排在普通會員前面的票,但是他還是可以更快地直接走VIP通道。

使用rabbitmq來做支援優先順序的訊息佇列的話,就像是上面所述同銀行VIP會員一樣,走不同的通道。但是這種方式只是相對的優先順序,做不到絕對的優先順序控制,例如我希望某一個優先順序高的任務在絕對意義上要比其他普通任務優先處理掉,這樣上面的方案是行不通的。因為rabbitmq的消費者只知道再自己空閒的情況下從自己關心的佇列中“隨機”取某一個佇列裡面的第一個資料來處理,它沒法控制優先取找哪一個佇列。或者更加細粒度的優先順序控制。或者你係統裡面設定的優先順序有10多種。這樣使用rabbitmq也是很難實現的。

但是如果使用redis來做佇列的話上面的需求都可以實現。

使用redis怎麼做訊息佇列

首先redis它的設計是用來做快取的,但是由於它自身的某種特性使得他可以用來做訊息佇列。它有幾個阻塞式的API可以使用,正是這些阻塞式的API讓他有做訊息佇列的能力。

試想一下在”資料庫解決所有問題“的思路下,不使用訊息佇列也是可以完成你的需求的。我們把任務全部存放在資料庫然後透過不斷的輪詢方式來取任務處理。這種做法雖然可以完成你的任務但是做法很粗劣。但是如果你的資料庫介面提供一個阻塞的方法那麼就可以避免輪詢操作了,你的資料庫也可以用來做訊息佇列,只不過目前的資料庫還沒有這樣的介面。 另外做訊息佇列的其他特性例如FIFO也很容易實現,只需要一個List物件從頭取資料,從尾部塞資料即可實現。

redis能做訊息佇列得益於他list物件blpop brpop介面以及Pub/Sub(釋出/訂閱)的某些介面。他們都是阻塞版的,所以可以用來做訊息佇列。

redis訊息佇列優先順序的實現

一些基礎redis基礎知識的說明

redis> blpop tasklist 0
"im task 01"

這個例子使用blpop命令會阻塞方式地從tasklist列表中取頭一個資料,最後一個引數就是等待超時的時間。如果設定為0則表示無限等待。另外redis存放的資料都只能是string型別,所以在任務傳遞的時候只能是傳遞字串。我們只需要簡單的將負責資料序列化成json格式的字串,然後消費者那邊再轉換一下即可。

這裡我們的示例語言使用python,連結redis的庫使用redis-py. 如果你有些程式設計基礎把它切換成自己喜歡的語言應該是沒問題的。


  1. 1簡單的FIFO佇列
  2. import redis, time

  3. def handle(info):
  4.     print info
  5.     time.sleep(20)

  6. def main():
  7.     pool = redis.ConnectionPool(host='localhost', port=6379, db=0)
  8.     r = redis.Redis(connection_pool=pool)
  9.     while 1:
  10.         result = r.brpop('task', 0)            
  11.         handle(result[1])

  12. if __name__ == "__main__":
  13.     main()

上例子即使一個最簡單的消費者,我們透過一個無限迴圈不斷地從redis的佇列中取資料。如果佇列中沒有資料則沒有超時的阻塞在那裡,有資料則取出往下執行。

一般情況取出來是個複雜的字串,我們可能需要將其格式化後作為再傳給處理函式,但是為了簡單我們的例子就是一個普通字串。另外例子中的處理函式不做任何處理,僅僅sleep 用來模擬耗時的操作。

我們另開一個redis的客戶端來模擬生產者,自帶的客戶端就可以。多往tasklist 佇列裡面塞上一些資料。


  1. redis 127.0.0.1:6379> LPUSH task "fuckin1"
  2. (integer) 1
  3. redis 127.0.0.1:6379> LPUSH task "fuckin2"
  4. (integer) 1
  5. redis 127.0.0.1:6379> LPUSH task "fuckin3"
  6. (integer) 2
  7. redis 127.0.0.1:6379> LPUSH task "fuckin4"
  8. (integer) 3
  9. redis 127.0.0.1:6379> LPUSH task "fuckin5"
  10. (integer) 4
  11. redis 127.0.0.1:6379> LPUSH task "fuckin6"
  12. (integer) 5
  13. redis 127.0.0.1:6379> LPUSH task "fuckin7"
  14. (integer) 6
  15. redis 127.0.0.1:6379> LPUSH task "fuckin8"
  16. (integer) 7
  17. redis 127.0.0.1:6379> LPUSH task "fuckin10"
  18. (integer) 8
  19. redis 127.0.0.1:6379> lrange task 0 -1
  20. 1) "fuckin10"
  21. 2) "fuckin8"
  22. 3) "fuckin7"
  23. 4) "fuckin6"
  24. 5) "fuckin5"
  25. 6) "fuckin4"
  26. 7) "fuckin3"

可以看到
[root@host-192-168-1-56 soft]# python duilie.py 
('task', 'fuckin1')
fuckin1
('task', 'fuckin2')    ---每個任務之間間隔20秒,20秒是模擬任務執行時間
fuckin2
('task', 'fuckin3')
fuckin3
('task', 'fuckin4')
fuckin4
('task', 'fuckin5')
.。
。。。
。。。
('task', 'fuckin10')
fuckin10
。。。等待狀態,等待新的任務

2.簡單優先順序的佇列

假設一種簡單的需求,只需要高優先順序的比低優先順序的任務率先處理掉。其他任務之間的順序一概不管,這種我們只需要在在遇到高優先順序任務的時候將它塞到佇列的前頭,而不是push到最後面即可。

因為我們的佇列是使用的redis的 list,所以很容易實現。遇到高優先順序的使用rpush 遇到低優先順序的使用lpush

redis> lpush tasklist 'im task 01'
redis> lpush tasklist 'im task 02'
redis> rpush tasklist 'im high task 01'
redis> rpush tasklist 'im high task 01'
redis> lpush tasklist 'im task 03'
redis> rpush tasklist 'im high task 03'

隨後會看到,高優先順序的總是比低優先順序的率先執行。但是這個方案的缺點是高優先順序的任務之間的執行順序是先進後出的。

3.較為完善的佇列

例子2中只是簡單的將高優先順序的任務塞到佇列最前面,低優先順序的塞到最後面。這樣保證不了高優先順序任務之間的順序。

假設當所有的任務都是高優先順序的話,那麼他們的執行順序將是相反的。這樣明顯違背了佇列的FIFO原則。

不過只要稍加改進就可以完善我們的佇列。

跟使用rabbitmq一樣,我們設定兩個佇列,一個高優先順序一個低優先順序的佇列。高優先順序任務放到高佇列中,低的放在低優先佇列中。redis和rabbitmq不同的是它可以要求佇列消費者從哪個佇列裡面先讀。

def main():
    pool = redis.ConnectionPool(host='localhost', port=6379, db=0)
    r = redis.Redis(connection_pool=pool)
    while 1:
        result = r.brpop(['high_task_queue', 'low_task_queue'], 0)
        handle(result[1])

上面的程式碼,會阻塞地從'high_task_queue', 'low_task_queue'這兩個佇列裡面取資料,如果第一個沒有再從第二個裡面取。 所以只需要將佇列消費者做這樣的改進便可以達到目的。

redis> lpush low_task_queue low001
redis> lpush low_task_queue low002
redis> lpush low_task_queue low003
redis> lpush low_task_queue low004
redis> lpush high_task_queue low001
redis> lpush high_task_queue low002
redis> lpush high_task_queue low003
redis> lpush high_task_queue low004

透過上面的測試看到,高優先順序的會被率先執行,並且高優先順序之間也是保證了FIFO的原則。

這種方案我們可以支援不同階段的優先順序佇列,例如高中低三個級別或者更多的級別都可以。

4.優先順序級別很多的情況

假設有個這樣的需求,優先順序不是簡單的高中低或者0-10這些固定的級別。而是類似0-99999這麼多級別。那麼我們第三種方案將不太合適了。 雖然redis有sorted set這樣的可以排序的資料型別,看是很可惜它沒有阻塞版的介面。於是我們還是隻能使用list型別透過其他方式來完成目的。

有個簡單的做法我們可以只設定一個佇列,並保證它是按照優先順序排序號的。然後透過二分查詢法查詢一個任務合適的位置,並透過 lset 命令插入到相應的位置。 例如佇列裡面包含著寫優先順序的任務[1, 3, 6, 8, 9, 14],當有個優先順序為7的任務過來,我們透過自己的二分演算法一個個從佇列裡面取資料出來反和目標資料比對,計算出相應的位置然後插入到指定地點即可。

因為二分查詢是比較快的,並且redis本身也都在記憶體中,理論上速度是可以保證的。但是如果說資料量確實很大的話我們也可以透過一些方式來調優。

回想我們第三種方案,把第三種方案結合起來就會很大程度上減少開銷。例如資料量十萬的佇列,它們的優先順序也是隨機0-十萬的區間。我們可以設定10個或者100個不同的佇列,0-一萬的優先順序任務投放到1號佇列,一萬-二萬的任務投放到2號佇列。這樣將一個佇列按不同等級拆分後它單個佇列的資料就減少許多,這樣二分查詢匹配的效率也會高一點。但是資料所佔的資源基本是不變的,十萬資料該佔多少記憶體還是多少。只是系統裡面多了一些佇列而已。


參考文件:

http://blog.itpub.net/29096438/viewspace-1792563/    ---redis list列表使用

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29096438/viewspace-2133529/,如需轉載,請註明出處,否則將追究法律責任。

相關文章