執行緒池運用不當的一次線上事故

IT人的職場進階發表於2020-06-12

原文網址 : https://www.cnblogs.com/luojunwu/p/13099389.html

在高併發、非同步化等場景，執行緒池的運用可以說無處不在。執行緒池從本質上來講，即通過空間換取時間，因為執行緒的建立和銷燬都是要消耗資源和時間的，對於大量使用執行緒的場景，使用池化管理可以延遲執行緒的銷燬，大大提高單個執行緒的複用能力，進一步提升整體效能。

今天遇到了一個比較典型的線上問題，剛好和執行緒池有關，另外涉及到死鎖、jstack命令的使用、JDK不同執行緒池的適合場景等知識點，同時整個調查思路可以借鑑，特此記錄和分享一下。

01 業務背景描述

該線上問題發生在廣告系統的核心扣費服務，首先簡單交代下大致的業務流程，方便理解問題。

綠框部分即扣費服務在廣告召回扣費流程中所處的位置，簡單理解：當使用者點選一個廣告後，會從C端發起一次實時扣費請求(CPC，按點選扣費模式)，扣費服務則承接了該動作的核心業務邏輯：包括執行反作弊策略、建立扣費記錄、click日誌埋點等。

02 問題現象和業務影響

12月2號晚上11點左右，我們收到了一個線上告警通知：扣費服務的執行緒池任務佇列大小遠遠超出了設定閾值，而且佇列大小隨著時間推移還在持續變大。詳細告警內容如下：

相應的，我們的廣告指標：點選數、收入等也出現了非常明顯的下滑，幾乎同時發出了業務告警通知。其中，點選數指標對應的曲線表現如下：

該線上故障發生在流量高峰期，持續了將近30分鐘後才恢復正常。

03 問題調查和事故解決過程

下面詳細說下整個事故的調查和分析過程。

第1步：收到執行緒池任務佇列的告警後，我們第一時間檢視了扣費服務各個維度的實時資料：包括服務呼叫量、超時量、錯誤日誌、JVM監控，均未發現異常。

第2步：然後進一步排查了扣費服務依賴的儲存資源（mysql、redis、mq），外部服務，發現了事故期間存在大量的資料庫慢查詢。

上述慢查詢來自於事故期間一個剛上線的大資料抽取任務，從扣費服務的mysql資料庫中大批量併發抽取資料到hive表。因為扣費流程也涉及到寫mysql，猜測這個時候mysql的所有讀寫效能都受到了影響，果然進一步發現insert操作的耗時也遠遠大於正常時期。

第3步：我們猜測資料庫慢查詢影響了扣費流程的效能，從而造成了任務佇列的積壓，所以決定立馬暫定大資料抽取任務。但是很奇怪：停止抽取任務後，資料庫的insert效能恢復到正常水平了，但是阻塞佇列大小仍然還在持續增大，告警並未消失。

第4步：考慮廣告收入還在持續大幅度下跌，進一步分析程式碼需要比較長的時間，所以決定立即重啟服務看看有沒有效果。為了保留事故現場，我們保留了一臺伺服器未做重啟，只是把這臺機器從服務管理平臺摘掉了，這樣它不會接收到新的扣費請求。

果然重啟服務的殺手鐗很管用，各項業務指標都恢復正常了，告警也沒有再出現。至此，整個線上故障得到解決，持續了大概30分鐘。

04 問題根本原因的分析過程

下面再詳細說下事故根本原因的分析過程。

第1步：第二天上班後，我們猜測那臺保留了事故現場的伺服器，佇列中積壓的任務應該都被執行緒池處理掉了，所以嘗試把這臺伺服器再次掛載上去驗證下我們的猜測，結果和預期完全相反，積壓的任務仍然都在，而且隨著新請求進來，系統告警立刻再次出現了，所以又馬上把這臺伺服器摘了下來。

第2步：執行緒池積壓的幾千個任務，經過1個晚上都沒被執行緒池處理掉，我們猜測應該存在死鎖情況。所以打算通過jstack命令dump執行緒快照做下詳細分析。

#找到扣費服務的程式號
$ ps aux|grep "adclick"

# 通過程式號dump執行緒快照，輸出到檔案中
$ jstack pid > /tmp/stack.txth

在jstack的日誌檔案中，立馬發現了：用於扣費的業務執行緒池的所有執行緒都處於waiting狀態，執行緒全部卡在了截圖中紅框部分對應的程式碼行上，這行程式碼呼叫了countDownLatch的await()方法，即等待計數器變為0後釋放共享鎖。

第3步：找到上述異常後，距離找到根本原因就很接近了，我們回到程式碼中繼續調查，首先看了下業務程式碼中使用了newFixedThreadPool執行緒池，核心執行緒數設定為25。針對newFixedThreadPool，JDK文件的說明如下：

建立一個可重用固定執行緒數的執行緒池，以共享的無界佇列方式來執行這些執行緒。如果在所有執行緒處於活躍狀態時提交新任務，則在有可用執行緒之前，新任務將在佇列中等待。

關於newFixedThreadPool，核心包括兩點：

1、最大執行緒數 = 核心執行緒數，當所有核心執行緒都在處理任務時，新進來的任務會提交到任務佇列中等待；

2、使用了無界佇列：提交給執行緒池的任務佇列是不限制大小的，如果任務被阻塞或者處理變慢，那麼顯然佇列會越來越大。

所以，進一步結論是：核心執行緒全部死鎖，新進的任務不對湧入無界佇列，導致任務佇列不斷增加。

第4步：到底是什麼原因導致的死鎖，我們再次回到jstack日誌檔案中提示的那行程式碼做進一步分析。下面是我簡化過後的示例程式碼：

/*** 執行扣費任務 */
public Result<Integer> executeDeduct(ChargeInputDTO chargeInput) {  
    ChargeTask chargeTask = new ChargeTask(chargeInput);  
    bizThreadPool.execute(() -> chargeTaskBll.execute(chargeTask ));  
    return Result.success();
}

/*** 扣費任務的具體業務邏輯 */
public class ChargeTaskBll implements Runnable {  
    public void execute(ChargeTask chargeTask) {     
        // 第一步：引數校驗     
        verifyInputParam(chargeTask);     

        // 第二步：執行反作弊子任務     
        executeUserSpam(SpamHelper.userConfigs);     

        // 第三步：執行扣費     
        handlePay(chargeTask);     

        // 其他步驟：點選埋點等     ...  
    }
}

/*** 執行反作弊子任務 */
public void executeUserSpam(List<SpamUserConfigDO> configs) {  
    if (CollectionUtils.isEmpty(configs)) {     
        return;  
    }  try {    
        CountDownLatch latch = new CountDownLatch(configs.size());    
        for (SpamUserConfigDO config : configs) {      
           UserSpamTask task = new UserSpamTask(config,latch);      
           bizThreadPool.execute(task);    
        }    
        latch.await();  
    } catch (Exception ex) {    
        logger.error("", ex);  
    }
}

通過上述程式碼，大家能否發現死鎖是怎麼發生的呢？根本原因在於：一次扣費行為屬於父任務，同時它又包含了多次子任務：子任務用於並行執行反作弊策略，而父任務和子任務使用的是同一個業務執行緒池。當執行緒池中全部都是執行中的父任務時，並且所有父任務都存在子任務未執行完，這樣就會發生死鎖。下面通過1張圖再來直觀地看下死鎖的情況：

假設核心執行緒數是2，目前正在執行扣費父任務1和2。另外，反作弊子任務1執行完了，反作弊子任務2和4都積壓在任務佇列中等待被排程。因為反作弊子任務2和4沒執行完，所以扣費父任務1和2都不可能執行完成，這樣就發生了死鎖，核心執行緒永遠不可能釋放，從而造成任務佇列不斷增大，直到程式OOM crash。

死鎖原因清楚後，還有個疑問：上述程式碼線上上執行很長時間了，為什麼現在才暴露出問題呢？另外跟資料庫慢查詢到底有沒有直接關聯呢？

暫時我們還沒有復現證實，但是可以推斷出：上述程式碼一定存在死鎖的概率，尤其在高併發或者任務處理變慢的情況下，概率會大大增加。資料庫慢查詢應該就是導致此次事故出現的導火索。

05 解決方案

弄清楚根本原因後，最簡單的解決方案就是：增加一個新的業務執行緒池，用來隔離父子任務，現有的執行緒池只用來處理扣費任務，新的執行緒池用來處理反作弊任務。這樣就可以徹底避免死鎖的情況了。

06 問題總結

回顧事故的解決過程以及扣費的技術方案，存在以下幾點待繼續優化：

1、使用固定執行緒數的執行緒池存在OOM風險，在阿里巴巴Java開發手冊中也明確指出，而且用的詞是『不允許』使用Executors建立執行緒池。而是通過ThreadPoolExecutor去建立，這樣讓寫的同學能更加明確執行緒池的執行規則和核心引數設定，規避資源耗盡的風險。

2、廣告的扣費場景是一個非同步過程，通過執行緒池或者MQ來實現非同步化處理都是可選的方案。另外，極個別的點選請求丟失不扣費從業務上是允許的，但是大批量的請求丟棄不處理且沒有補償方案是不允許的。後續採用有界佇列後，拒絕策略可以考慮傳送MQ做重試處理。--- 結束 ---

- End -

作者簡介：程式設計師，985碩士，前亞馬遜Java工程師，現58轉轉技術總監。持續分享技術和管理方向的文章。如果感興趣，可微信掃描下面的二維碼關注我的公眾號：『IT人的職場進階』

【踩坑指南】執行緒池使用不當的五個坑
2024-02-04
執行緒
案例解析：執行緒池使用不當導致的系統崩潰
2019-06-16
執行緒
記一次鎖使用不當導致Dubbo執行緒阻塞問題
2024-06-10
執行緒
Arthas | 定位線上 Dubbo 執行緒池滿異常
2022-12-05
執行緒
MySQL中介軟體之ProxySQL(5)：執行緒、執行緒池、連線池
2018-07-09
MySql執行緒
Java執行緒池二：執行緒池原理
2020-12-20
Java執行緒
執行緒和執行緒池
2019-03-04
執行緒
執行緒執行緒池 Task
2018-04-26
執行緒
多執行緒【執行緒池】
2021-02-20
執行緒
java--執行緒池--建立執行緒池的幾種方式與執行緒池操作詳解
2021-07-13
Java執行緒
ThreadLocal引起的一次線上事故
2021-05-14
thread
執行緒池建立執行緒的過程
2020-10-21
執行緒
Java多執行緒-執行緒池的使用
2021-01-17
Java執行緒
執行緒池
2024-10-07
執行緒
SpringBoot執行緒池和Java執行緒池的實現原理
2023-04-11
Spring Boot執行緒Java
執行緒與執行緒池的那些事之執行緒池篇（萬字長文）
2021-06-21
執行緒
【連載 03】Java 執行緒池（上）
2024-12-02
Java執行緒
執行緒池以及四種常見執行緒池
2018-08-07
執行緒
java執行緒池趣味事：這不是執行緒池
2021-02-20
Java執行緒
Python的執行緒池
2018-12-15
Python執行緒
執行緒池的使用
2019-07-08
執行緒
資料訪問連線池和執行緒池
2024-09-08
執行緒
二. 執行緒管理之執行緒池
2019-01-08
執行緒
Android多執行緒之執行緒池
2018-10-07
Android執行緒
kuangshenshuo-多執行緒-執行緒池
2020-10-21
執行緒
多執行緒之手撕執行緒池
2024-09-24
執行緒
java多執行緒9：執行緒池
2021-12-20
Java執行緒
執行緒池管理(1)-為什麼需要執行緒池
2019-05-04
執行緒
記一次執行緒池配置導致的ThreadLocal清空
2022-11-23
執行緒thread
Java併發之執行緒池系列 (1) 讓多執行緒不再坑爹的執行緒池
2019-03-31
Java執行緒
執行緒池的建立和使用，執行緒池原始碼初探（篇一）
2020-10-24
執行緒原始碼
詳解執行緒池的作用及Java中如何使用執行緒池
2021-01-14
執行緒Java
Android執行緒池
2018-05-21
Android執行緒
java 執行緒池
2018-06-22
Java執行緒
Java執行緒池
2020-09-23
Java執行緒
ThreadPool執行緒池
2020-10-07
thread執行緒
執行緒池 Executor
2018-12-24
執行緒
【連載 05】自定義執行緒池（上）
2024-12-19
執行緒