(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

費弗裡發表於2022-03-25

本文示例程式碼及檔案已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes

1 簡介

  我們在編寫程式尤其是與網路請求相關的程式,如呼叫web介面、執行網路爬蟲等任務時,經常會遇到一些偶然發生的請求失敗的狀況,這種時候如果我們僅僅簡單的捕捉錯誤然後跳過對應任務,肯定是不嚴謹的,尤其是在網路爬蟲中,會存在損失有價值資料的風險。

  這類情況下我們就很有必要為我們的程式邏輯新增一些錯誤重試的策略,費老師我在幾年前寫過文章介紹過Python中的retry庫,但它功能較為單一,只能應對基本的需求。

  而今天我要給大家介紹的tenacity庫,可能是目前Python生態中最好用的錯誤重試庫,下面就讓我們一睹其主要功能吧~

(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

2 tenacity中的常用功能

  作為一個第三方Python庫,我們可以使用pip install tenacity對其進行安裝,安裝完成後,下面我們來學習一下tenacity的主要使用方法和特性:

2.1 tenacity的基礎使用

  tenacity的錯誤重試核心功能由其retry裝飾器來實現,預設不給retry裝飾器傳引數時,它會在其所裝飾的函式執行過程丟擲錯誤時不停地重試下去,譬如下面這個簡單的例子:

import random
from tenacity import retry

@retry
def demo_func1():

    a = random.random()
    print(a)
    
    if a >= 0.1:
        raise Exception

demo_func1()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

  可以看到,我們的函式體內每次生成0到1之間的隨機數,當這個隨機數不超過0.1時才會停止丟擲錯誤,否則則會被tenacity捕捉到每次的錯誤丟擲行為並立即重試。

2.2 設定最大重試次數

  有些時候我們對某段函式邏輯錯誤重試的忍耐是有限度的,譬如當我們呼叫某個網路介面時,如果連續n次都執行失敗,我們可能就會認為這個任務本身就存在缺陷,不是通過重試就能有朝一日正常的。

  這種時候我們可以利用tenacity中的stop_after_attempt函式,作為retry()中的stop引數傳入,從而為我們“無盡”的錯誤重試過程新增一個終點,其中stop_after_attempt()接受一個整數輸入作為最大重試的次數:

from tenacity import retry, stop_after_attempt

@retry(stop=stop_after_attempt(3))
def demo_func2():
    
    print('函式執行')
    
    raise Exception
    
demo_func2()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

  可以看到,我們的函式在限制了最大重試次數後,經過3次重試,在第4次繼續執行依然丟擲錯誤後,正式地丟擲了函式中對應的Exception錯誤結束了重試過程。

2.3 設定重試最大超時時長

  我們除了像上一小節中那樣設定最大錯誤重試的次數之外,tenacity還為我們提供了stop_after_delay()函式來設定整個重試過程的最大耗時,超出這個時長也會結束重試過程:

import time
from tenacity import retry, stop_after_delay

# 設定重試最大超時時長為5秒
@retry(stop=stop_after_delay(5))
def demo_func3():
    
    time.sleep(1)
    print(f'已過去 {time.time() - start_time} 秒')
    
    raise Exception

# 記錄開始時間
start_time = time.time()
demo_func3()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

2.4 組合重試停止條件

  如果我們的任務同時需要新增最大重試次數以及最大超時時長限制,在tenacity中僅需要用|運算子組合不同的限制條件再傳入retry()stop引數即可,譬如下面的例子,當我們的函式執行重試超過3秒或次數大於5次時均可以結束重試:

import time
import random
from tenacity import retry, stop_after_delay, stop_after_attempt

@retry(stop=(stop_after_delay(3) | stop_after_attempt(5)))
def demo_func4():
    
    time.sleep(random.random())
    print(f'已過去 {time.time() - start_time} 秒')
    
    raise Exception

# 記錄開始時間
start_time = time.time()
demo_func4()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

  可以看到,在上面的演示中,先達到了“最大重試5次”的限制從而結束了重試過程。

2.5 設定相鄰重試之間的時間間隔

  有些情況下我們並不希望每一次重試丟擲錯誤後,立即開始下一次的重試,譬如爬蟲任務中為了更好地偽裝我們的程式,tenacity中提供了一系列非常實用的函式,配合retry()wait引數,幫助我們妥善處理相鄰重試之間的時間間隔,其中較為實用的主要有以下兩種方式:

2.5.1 設定固定時間間隔

  我們通過使用tenacity中的wait_fixed()可以為相鄰重試之間設定固定的等待間隔秒數,就像下面的簡單示例那樣:

import time
from tenacity import retry, wait_fixed, stop_after_attempt

# 設定重試等待間隔為1秒
@retry(wait=wait_fixed(1), stop=stop_after_attempt(3))
def demo_func5():
    
    print(f'已過去 {time.time() - start_time} 秒')
    
    raise Exception
    
# 記錄開始時間
start_time = time.time()
demo_func5()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

2.5.2 設定隨機時間間隔

  除了設定固定的時間間隔外,tenacity還可以通過wait_random()幫助我們為相鄰重試設定均勻分佈隨機數,只需要設定好均勻分佈的範圍即可:

import time
from tenacity import retry, wait_random, stop_after_attempt

# 設定重試等待間隔為1到3之間的隨機數
@retry(wait=wait_random(min=1, max=3), stop=stop_after_attempt(5))
def demo_func6():
    
    print(f'已過去 {time.time() - start_time} 秒')
    
    raise Exception

# 記錄開始時間
start_time = time.time()
demo_func6()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

  可以觀察到,每一次重試後的等待時長都是隨機的~

2.6 自定義是否觸發重試

  tenacityretry()的預設策略是當其所裝飾的函式執行過程“丟擲任何錯誤”時即進行重試,但有些情況下我們需要的可能是對特定錯誤型別的捕捉/忽略,亦或是對異常計算結果的捕捉。

  tenacity中同樣內建了相關的實用功能:

2.6.1 捕捉或忽略特定的錯誤型別

  使用tenacity中的retry_if_exception_type()retry_if_not_exception_type(),配合retry()retry引數,我們可以對特定的錯誤型別進行捕捉或忽略:

from tenacity import retry, retry_if_exception_type, retry_if_not_exception_type

@retry(retry=retry_if_exception_type(FileExistsError))
def demo_func7():
    
    raise TimeoutError
    
@retry(retry=retry_if_not_exception_type(FileNotFoundError))
def demo_func8():

    raise FileNotFoundError
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

2.6.2 自定義函式結果條件判斷函式

  我們可以編寫額外的條件判斷函式,配合tenacity中的retry_if_result(),實現對函式的返回結果進行自定義條件判斷,返回True時才會觸發重試操作:

import random
from tenacity import retry, retry_if_result

@retry(retry=retry_if_result(lambda x: x >= 0.1))
def demo_func9():
    a = random.random()
    print(a)
    return a

# 記錄開始時間
demo_func9()
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

2.7 對函式的錯誤重試情況進行統計

  被tenacityretry()裝飾的函式,我們可以列印其retry.statistics屬性檢視其歷經的錯誤重試統計記錄結果,譬如這裡我們對前面執行過的示例函式demo_func9()的統計結果進行列印:

demo_func9.retry.statistics
(資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫

  除了上述的功能之外,tenacity還具有很多特殊的特性,可以結合logging模組、非同步函式、協程等其他Python功能實現更高階的功能,感興趣的朋友可以前往https://github.com/jd/tenacity瞭解更多。


  以上就是本文的全部內容,歡迎在評論區與我進行討論~

相關文章