分散式佇列神器 Celery

發表於2017-01-12

Celery 是什麼?

Celery 是一個由 Python 編寫的簡單、靈活、可靠的用來處理大量資訊的分散式系統,它同時提供操作和維護分散式系統所需的工具。

Celery 專注於實時任務處理，支援任務排程。

說白了，它是一個分散式佇列的管理工具，我們可以用 Celery 提供的介面快速實現並管理一個分散式的任務佇列。

1.快速入門

(本文以 Celery4.0 為基礎進行書寫)

首先，我們要理解 Celery 本身不是任務佇列，它是管理分散式任務佇列的工具，或者換一種說法，它封裝好了操作常見任務佇列的各種操作，我們用它可以快速進行任務佇列的使用與管理，當然你也可以自己看 rabbitmq 等佇列的文件然後自己實現相關操作都是沒有問題的。

Celery 是語言無關的，雖然它是用 Python 實現的，但他提供了其他常見語言的介面支援。只是如果你恰好使用 Python 進行開發那麼使用 Celery 就自然而然了。

想讓 Celery 執行起來我們要明白幾個概念：

1.1 Brokers

brokers 中文意思為中間人，在這裡就是指任務佇列本身，Celery 扮演生產者和消費者的角色，brokers 就是生產者和消費者存放/拿取產品的地方(佇列)

常見的 brokers 有 rabbitmq、redis、Zookeeper 等

1.2 Result Stores / backend

顧名思義就是結果儲存的地方，佇列中的任務執行完後的結果或者狀態需要被任務傳送者知道，那麼就需要一個地方儲存這些結果，就是 Result Stores 了

常見的 backend 有 redis、Memcached 甚至常用的資料都可以。

1.3 Workers

就是 Celery 中的工作者，類似與生產/消費模型中的消費者，其從佇列中取出任務並執行

1.4 Tasks

就是我們想在佇列中進行的任務咯，一般由使用者、觸發器或其他操作將任務入隊，然後交由 workers 進行處理。

理解以上概念後我們就可以快速實現一個佇列的操作：

這裡我們用 redis 當做 celery 的 broker 和 backend。

(其他 brokers 與 backend 支援看這裡)

安裝 Celery 和 redis 以及 python 的 redis 支援:

apt-get install redis-server
pip install redis
pip install celery

apt-get install redis-server

pip install redis

pip install celery

這裡需要注意如果你的 celery 是 4.0 及以上版本請確保 python 的 redis 庫版本在 2.10.4 及以上，否則會出現 redis 連線 timeout 的錯誤，具體參考

然後，我們需要寫一個task:

#tasks.py
from celery import Celery

app = Celery('tasks',  backend='redis://localhost:6379/0', broker='redis://localhost:6379/0') #配置好celery的backend和broker

@app.task  #普通函式裝飾為 celery task
def add(x, y):
    return x + y

#tasks.py

from celery import Celery

app = Celery('tasks', backend='redis://localhost:6379/0', broker='redis://localhost:6379/0') #配置好celery的backend和broker

@app.task #普通函式裝飾為 celery task

def add(x, y):

return x + y

OK，到這裡，broker 我們有了，backend 我們有了，task 我們也有了，現在就該執行 worker 進行工作了，在 tasks.py 所在目錄下執行：

celery -A tasks worker --loglevel=info

1	celery -A tasks worker --loglevel=info

意思就是執行 tasks 這個任務集合的 worker 進行工作（當然此時broker中還沒有任務，worker此時相當於待命狀態）

最後一步，就是觸發任務啦，最簡單方式就是再寫一個指令碼然後呼叫那個被裝飾成 task 的函式：

#trigger.py
from tasks import add
result = add.delay(4, 4) #不要直接 add(4, 4)，這裡需要用 celery 提供的介面 delay 進行呼叫
while not result.ready():
    time.sleep(1)
print 'task done: {0}'.format(result.get())

#trigger.py

from tasks import add

result = add.delay(4, 4) #不要直接 add(4, 4)，這裡需要用 celery 提供的介面 delay 進行呼叫

while not result.ready():

time.sleep(1)

print 'task done: {0}'.format(result.get())

執行此指令碼

delay 返回的是一個 AsyncResult 物件，裡面存的就是一個非同步的結果，當任務完成時result.ready() 為 true，然後用 result.get() 取結果即可。

到此，一個簡單的 celery 應用就完成啦。

2. 進階用法

經過快速入門的學習後，我們已經能夠使用 Celery 管理普通任務，但對於實際使用場景來說這是遠遠不夠的，所以我們需要更深入的去了解 Celery 更多的使用方式。

首先來看之前的task:

@app.task  #普通函式裝飾為 celery task
def add(x, y):
    return x + y

@app.task #普通函式裝飾為 celery task

def add(x, y):

return x + y

這裡的裝飾器app.task實際上是將一個正常的函式修飾成了一個 celery task 物件，所以這裡我們可以給修飾器加上引數來決定修飾後的 task 物件的一些屬性。

首先，我們可以讓被修飾的函式成為 task 物件的繫結方法，這樣就相當於被修飾的函式 add 成了 task 的例項方法，可以呼叫 self 獲取當前 task 例項的很多狀態及屬性。

其次，我們也可以自己複寫 task 類然後讓這個自定義 task 修飾函式 add ，來做一些自定義操作。

2.1 根據任務狀態執行不同操作

任務執行後，根據任務狀態執行不同操作需要我們複寫 task 的 on_failure、on_success 等方法：

# tasks.py
class MyTask(Task):
    def on_success(self, retval, task_id, args, kwargs):
        print 'task done: {0}'.format(retval)
        return super(MyTask, self).on_success(retval, task_id, args, kwargs)
    
    def on_failure(self, exc, task_id, args, kwargs, einfo):
        print 'task fail, reason: {0}'.format(exc)
        return super(MyTask, self).on_failure(exc, task_id, args, kwargs, einfo)

@app.task(base=MyTask)
def add(x, y):
    return x + y

# tasks.py

class MyTask(Task):

def on_success(self, retval, task_id, args, kwargs):

print 'task done: {0}'.format(retval)

return super(MyTask, self).on_success(retval, task_id, args, kwargs)

def on_failure(self, exc, task_id, args, kwargs, einfo):

print 'task fail, reason: {0}'.format(exc)

return super(MyTask, self).on_failure(exc, task_id, args, kwargs, einfo)

@app.task(base=MyTask)

def add(x, y):

return x + y

嗯，然後繼續執行 worker：

celery -A tasks worker --loglevel=info

1	celery -A tasks worker --loglevel=info

執行指令碼，得到：

分散式佇列神器 Celery
再修改下tasks:

@app.task  #普通函式裝飾為 celery task
def add(x, y):
    raise KeyError
    return x + y

@app.task #普通函式裝飾為 celery task

def add(x, y):

raise KeyError

return x + y

重新執行 worker，再執行 trigger.py:

分散式佇列神器 Celery

可以看到，任務執行成功或失敗後分別執行了我們自定義的 on_failure、on_success

2.2 繫結任務為例項方法

# tasks.py
from celery.utils.log import get_task_logger

logger = get_task_logger(__name__)
@app.task(bind=True)
def add(self, x, y):
    logger.info(self.request.__dict__)
    return x + y

# tasks.py

from celery.utils.log import get_task_logger

logger = get_task_logger(__name__)

@app.task(bind=True)

def add(self, x, y):

logger.info(self.request.__dict__)

return x + y

然後重新執行：

分散式佇列神器 Celery
執行中的任務獲取到了自己執行任務的各種資訊，可以根據這些資訊做很多其他操作，例如判斷鏈式任務是否到結尾等等。

關於 celery.task.request 物件的詳細資料可以看這裡

2.3 任務狀態回撥

實際場景中得知任務狀態是很常見的需求，對於 Celery 其內建任務狀態有如下幾種：

引數	說明
PENDING	任務等待中
STARTED	任務已開始
SUCCESS	任務執行成功
FAILURE	任務執行失敗
RETRY	任務將被重試
REVOKED	任務取消

當我們有個耗時時間較長的任務進行時一般我們想得知它的實時進度，這裡就需要我們自定義一個任務狀態用來說明進度並手動更新狀態，從而告訴回撥當前任務的進度，具體實現：

# tasks.py
from celery import Celery
import time

@app.task(bind=True)
def test_mes(self):
    for i in xrange(1, 11):
        time.sleep(0.1)
        self.update_state(state="PROGRESS", meta={'p': i*10})
    return 'finish'

# tasks.py

from celery import Celery

import time

@app.task(bind=True)

def test_mes(self):

for i in xrange(1, 11):

time.sleep(0.1)

self.update_state(state="PROGRESS", meta={'p': i*10})

return 'finish'

然後在 trigger.py 中增加：

# trigger.py
from task import add,test_mes
import sys

def pm(body):
    res = body.get('result')
    if body.get('status') == 'PROGRESS':
        sys.stdout.write('\r任務進度: {0}%'.format(res.get('p')))
        sys.stdout.flush()
    else:
        print '\r'
        print res
r = test_mes.delay()
print r.get(on_message=pm, propagate=False)

# trigger.py

from task import add,test_mes

import sys

def pm(body):

res = body.get('result')

if body.get('status') == 'PROGRESS':

sys.stdout.write('\r任務進度: {0}%'.format(res.get('p')))

sys.stdout.flush()

else:

print '\r'

print res

r = test_mes.delay()

print r.get(on_message=pm, propagate=False)

然後執行任務：
分散式佇列神器 Celery

2.4 定時/週期任務

Celery 進行週期任務也很簡單，只需要在配置中配置好週期任務，然後在執行一個週期任務觸發器（ beat ）即可：

新建 Celery 配置檔案 celery_config.py:

# celery_config.py
from datetime import timedelta
from celery.schedules import crontab

CELERYBEAT_SCHEDULE = {
    'ptask': {
        'task': 'tasks.period_task',
        'schedule': timedelta(seconds=5),
    },
}

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0'

# celery_config.py

from datetime import timedelta

from celery.schedules import crontab

CELERYBEAT_SCHEDULE = {

'ptask': {

'task': 'tasks.period_task',

'schedule': timedelta(seconds=5),

}

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0'

配置中 schedule 就是間隔執行的時間，這裡可以用 datetime.timedelta 或者 crontab 甚至太陽系經緯度座標進行間隔時間配置，具體可以參考這裡

如果定時任務涉及到 datetime 需要在配置中加入時區資訊，否則預設是以 utc 為準。例如中國可以加上：

CELERY_TIMEZONE = 'Asia/Shanghai'

1	CELERY_TIMEZONE = 'Asia/Shanghai'

然後在 tasks.py 中增加要被週期執行的任務：

# tasks.py
app = Celery('tasks', backend='redis://localhost:6379/0', broker='redis://localhost:6379/0')
app.config_from_object('celery_config')

@app.task(bind=True)
def period_task(self):
    print 'period task done: {0}'.format(self.request.id)

# tasks.py

app = Celery('tasks', backend='redis://localhost:6379/0', broker='redis://localhost:6379/0')

app.config_from_object('celery_config')

@app.task(bind=True)

def period_task(self):

print 'period task done: {0}'.format(self.request.id)

然後重新執行 worker，接著再執行 beat：

celery -A task beat

1	celery -A task beat

分散式佇列神器 Celery

可以看到週期任務執行正常～

2.5 鏈式任務

有些任務可能需由幾個子任務組成，此時呼叫各個子任務的方式就變的很重要，儘量不要以同步阻塞的方式呼叫子任務，而是用非同步回撥的方式進行鏈式任務的呼叫：

錯誤示範

@app.task
def update_page_info(url):
    page = fetch_page.delay(url).get()
    info = parse_page.delay(url, page).get()
    store_page_info.delay(url, info)

@app.task
def fetch_page(url):
    return myhttplib.get(url)

@app.task
def parse_page(url, page):
    return myparser.parse_document(page)

@app.task
def store_page_info(url, info):
    return PageInfo.objects.create(url, info)

@app.task

def update_page_info(url):

page = fetch_page.delay(url).get()

info = parse_page.delay(url, page).get()

store_page_info.delay(url, info)

@app.task

def fetch_page(url):

return myhttplib.get(url)

@app.task

def parse_page(url, page):

return myparser.parse_document(page)

@app.task

def store_page_info(url, info):

return PageInfo.objects.create(url, info)

正確示範1

def update_page_info(url):
    # fetch_page -> parse_page -> store_page
    chain = fetch_page.s(url) | parse_page.s() | store_page_info.s(url)
    chain()

@app.task()
def fetch_page(url):
    return myhttplib.get(url)

@app.task()
def parse_page(page):
    return myparser.parse_document(page)

@app.task(ignore_result=True)
def store_page_info(info, url):
    PageInfo.objects.create(url=url, info=info)

def update_page_info(url):

# fetch_page -> parse_page -> store_page

chain = fetch_page.s(url) | parse_page.s() | store_page_info.s(url)

chain()

@app.task()

def fetch_page(url):

return myhttplib.get(url)

@app.task()

def parse_page(page):

return myparser.parse_document(page)

@app.task(ignore_result=True)

def store_page_info(info, url):

PageInfo.objects.create(url=url, info=info)

正確示範2

fetch_page.apply_async((url), link=[parse_page.s(), store_page_info.s(url)])

1	fetch_page.apply_async((url), link=[parse_page.s(), store_page_info.s(url)])

鏈式任務中前一個任務的返回值預設是下一個任務的輸入值之一 ( 不想讓返回值做預設引數可以用 si() 或者 s(immutable=True) 的方式呼叫 )。

這裡的 s() 是方法 celery.signature() 的快捷呼叫方式，signature 具體作用就是生成一個包含呼叫任務及其呼叫引數與其他資訊的物件，個人感覺有點類似偏函式的概念：先不執行任務，而是把任務與任務引數存起來以供其他地方呼叫。

2.6 呼叫任務

前面講了呼叫任務不能直接使用普通的呼叫方式，而是要用類似 add.delay(2, 2) 的方式呼叫，而鏈式任務中又用到了 apply_async 方法進行呼叫，實際上 delay 只是 apply_async 的快捷方式，二者作用相同，只是 apply_async 可以進行更多的任務屬性設定，比如 callbacks/errbacks 正常回撥與錯誤回撥、執行超時、重試、重試時間等等，具體引數可以參考這裡

2.7 關於 AsyncResult

AsyncResult 主要用來儲存任務執行資訊與執行結果，有點類似 tornado 中的 Future 物件，都有儲存非同步結果與任務執行狀態的功能，對於寫 js 的朋友，它有點類似 Promise 物件，當然在 Celery 4.0 中已經支援了 promise 協議，只需要配合 gevent 一起使用就可以像寫 js promise 一樣寫回撥：

import gevent.monkey
monkey.patch_all()

import time
from celery import Celery

app = Celery(broker='amqp://', backend='rpc')

@app.task
def add(x, y):
    return x + y

def on_result_ready(result):
    print('Received result for id %r: %r' % (result.id, result.result,))

add.delay(2, 2).then(on_result_ready)

import gevent.monkey

monkey.patch_all()

import time

from celery import Celery

app = Celery(broker='amqp://', backend='rpc')

@app.task

def add(x, y):

return x + y

def on_result_ready(result):

print('Received result for id %r: %r' % (result.id, result.result,))

add.delay(2, 2).then(on_result_ready)

要注意的是這種 promise 寫法現在只能用在 backend 是 RPC (amqp) 或 Redis 時。並且獨立使用時需要引入 gevent 的猴子補丁，可能會影響其他程式碼。官方文件給的建議是這個特性結合非同步框架使用更合適，例如 tornado、 twisted 等。

delay 與 apply_async 生成的都是 AsyncResult 物件，此外我們還可以根據 task id 直接獲取相關 task 的 AsyncResult: AsyncResult(task_id=xxx)

關於 AsyncResult 更詳細的內容，可以參考這裡

利用 Celery 進行分散式佇列管理、開發將會大幅提升開發效率，關於 Celery 更詳細的使用大家可以去參考詳細的官方文件

[原始碼分析] 分散式任務佇列 Celery 之傳送Task & AMQP
2021-04-19
原始碼分散式佇列MQ
Celery任務佇列
2019-02-16
佇列
[原始碼解析] 並行分散式任務佇列 Celery 之多程式模型
2021-04-15
原始碼並行分散式佇列模型
[原始碼解析] 分散式任務佇列 Celery 之啟動 Consumer
2021-04-05
原始碼分散式佇列
[原始碼解析] 並行分散式任務佇列 Celery 之負載均衡
2021-05-13
原始碼並行分散式佇列負載
[原始碼分析] 並行分散式任務佇列 Celery 之 Timer & Heartbeat
2021-05-06
原始碼並行分散式佇列
[原始碼解析] 並行分散式任務佇列 Celery 之 Task是什麼
2021-04-08
原始碼並行分散式佇列
分散式訊息佇列
2017-11-18
分散式佇列
[原始碼解析] 並行分散式任務佇列 Celery 之消費動態流程
2021-04-12
原始碼並行分散式佇列
[原始碼分析] 分散式任務佇列 Celery 多執行緒模型之子程式
2021-04-22
原始碼分散式佇列執行緒模型
[原始碼分析]並行分散式任務佇列 Celery 之子程式處理訊息
2021-04-25
原始碼並行分散式佇列
實現簡單延遲佇列和分散式延遲佇列
2020-04-18
佇列分散式
分散式訊息佇列知識圖譜
2019-01-23
分散式佇列
分散式佇列程式設計優化篇
2016-08-24
分散式佇列程式設計優化
分散式佇列程式設計：模型、實戰
2016-08-11
分散式佇列程式設計模型
快速理解Kafka分散式訊息佇列框架
2015-11-17
Kafka分散式佇列框架
Python 並行分散式框架 Celery
2017-07-13
Python並行分散式框架
Python中任務佇列-芹菜celery的使用
2021-07-07
Python佇列
【Python】django-celery非同步任務佇列
2017-11-10
PythonDjango非同步佇列
Facebook的分散式優先順序佇列FOQS
2022-01-23
分散式佇列
基於Dynomite的分散式延遲佇列
2018-12-17
MIT分散式佇列
分散式之訊息佇列複習精講
2018-05-21
分散式佇列
Redis 分散式鎖與任務佇列實戰
2015-11-23
Redis分散式佇列
分散式服務（RPC）+分散式訊息佇列（MQ）面試題精選
2019-05-04
分散式RPC佇列MQ面試題
celery筆記五之訊息佇列的介紹
2023-05-07
筆記佇列
分散式任務 + 訊息佇列框架 go-queue
2021-03-21
分散式佇列框架Go
Hatchet：Python中分散式、容錯任務佇列
2024-03-12
Python分散式佇列
中介軟體---分散式任務排程---Celery
2019-02-17
分散式
鏈式佇列
2024-04-26
佇列
基於Django與Celery實現非同步佇列任務
2015-08-24
Django非同步佇列
佇列（楊輝三角）——鏈式佇列
2020-12-08
佇列
Dyno-queues 分散式延遲佇列之輔助功能
2021-02-25
分散式佇列
為什麼分散式一定要有訊息佇列？
2018-07-24
分散式佇列
JavaWeb專案架構之Redis分散式日誌佇列
2018-01-26
JavaWeb架構Redis分散式佇列
大型網站架構系列：分散式訊息佇列（一）
2016-02-27
網站架構分散式佇列
本地啟動Flower來監控Dify的Celery任務佇列
2024-08-29
佇列
Dyno-queues 分散式延遲佇列之基本功能
2021-02-17
分散式佇列
Dyno-queues 分散式延遲佇列之生產消費
2021-02-21
分散式佇列

分散式佇列神器 Celery

1.快速入門

1.1 Brokers

1.2 Result Stores / backend

1.3 Workers

1.4 Tasks

2. 進階用法

2.1 根據任務狀態執行不同操作

2.2 繫結任務為例項方法

2.3 任務狀態回撥

2.4 定時/週期任務

2.5 鏈式任務

錯誤示範

正確示範1

正確示範2

2.6 呼叫任務

2.7 關於 AsyncResult

相關文章