案例解析：執行緒池使用不當導致的系統崩潰

【空山新雨】發表於2019-06-16

原文網址 : https://www.cnblogs.com/spec-dog/p/11032779.html

前幾天，發現一臺阿里雲伺服器上的Web服務不可用。遠端SSH登入不上，嘗試幾次登入上去之後，執行命令都顯示

-bash: fork: Cannot allocate memory

一看以為是記憶體洩漏導致溢位。因為執行不了任何命令，只能通過控制檯重啟伺服器恢復服務。

初步排查

服務恢復後，檢視系統日誌，linux系統日誌路徑/var/log/messages，可通過journalctl命令檢視，如

journalctl --since="2019-06-12 06:00:00" --until="2019-06-12 10:00:00"

可檢視since之後，until之前時間段的日誌。除了發現crond[14954]: (CRON) CAN'T FORK (do_command): Cannot allocate memory 這個錯誤日誌，未見其它異常（下面的sshd[10764]: error: fork: Cannot allocate memory應是ssh登入執行命名失敗的日誌）

linux-log

通過阿里雲-雲監控-主機監控檢視記憶體使用率指標，這段時間內，記憶體使用率一直在40%以下，基本可排除記憶體溢位的可能。

通過搜尋查閱到程式數超過作業系統限制可能導致bash: fork: Cannot allocate memory的報錯(參考： https://blog.csdn.net/wangshuminjava/article/details/80603847 ）。

通過ps -eLf|wc -l檢視當前程式執行緒數(ps -ef只列印程式，ps -eLf會列印所有的執行緒), 只有1000多個，故障時刻系統到底執行了多少執行緒已無從得知，只能持續跟進監測。

問題定位

幾天後，再次通過ps -eLf|wc -l檢視，發現執行緒數已達16000多個。直接執行ps -eLf可看到大量tomcat程式所產生的執行緒，猜測是不是執行緒死鎖導致大量執行緒未完成一直hung在那裡。

執行 jstack 程式號 > ~/jstack.txt 命令將程式所執行執行緒情況列印出來分析，發現大量的WAITING狀態的執行緒，如下

"pool-19-thread-1" #254 prio=5 os_prio=0 tid=0x00007f0b700a6000 nid=0x29a9 waiting on condition [0x00007f0b274df000]
   java.lang.Thread.State: WAITING (parking)
	at sun.misc.Unsafe.park(Native Method)
	- parking to wait for  <0x00000006ce3d8790> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
	at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
	at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
	at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
	at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

根據上述內容可看出執行緒在等一個條件，並且是在執行LinkedBlockingQueue.take方法的時候，檢視該方法的java doc，當佇列為空時，該方法將會一直等待直到有元素可用。

/**
 * Retrieves and removes the head of this queue, waiting if necessary
 * until an element becomes available.
 *
 * @return the head of this queue
 * @throws InterruptedException if interrupted while waiting
 */
E take() throws InterruptedException;

詢問同事在哪裡用到了LinkedBlockingQueue，同事回憶起不久前用執行緒池實現往阿里雲OSS服務通過追加的方式上傳檔案功能，檢視程式碼後發現問題——執行緒池沒有關閉。為了使檔案片段儲存不存在錯亂，每次儲存檔案時，都new了一個執行緒池物件，

ThreadPoolExecutor saveImgThreadPool = new ThreadPoolExecutor(1, 1, 0, TimeUnit.SECONDS, new LinkedBlockingQueue<>());

但處理完後，沒有關閉這個執行緒池物件，這樣執行緒池仍會通過take方法去取等待佇列中是否還有未完成的執行緒任務，等待佇列為空時將會一直等待，這樣就導致大量的執行緒hung在這裡了（基本是隻要方法被調一次，就會產生一個hung住的執行緒）。

延伸

執行緒狀態為“waiting for monitor entry”：
意味著它在等待進入一個臨界區，所以它在”Entry Set“佇列中等待。此時執行緒狀態一般都是 Blocked：
java.lang.Thread.State: BLOCKED (on object monitor)
執行緒狀態為“waiting on condition”：
說明它在等待另一個條件的發生，來把自己喚醒，或者乾脆它是呼叫了 sleep(N)。此時執行緒狀態大致為以下幾種：
java.lang.Thread.State: WAITING (parking)：一直等那個條件發生（本文案例即為此種場景）；java.lang.Thread.State: TIMED_WAITING (parking或sleeping)：定時的，那個條件不到來，也將定時喚醒自己。
如果大量執行緒在“waiting for monitor entry”：可能是一個全域性鎖阻塞住了大量執行緒。如果短時間內列印的thread dump 檔案反映，隨著時間流逝，waiting for monitor entry 的執行緒越來越多，沒有減少的趨勢，可能意味著某些執行緒在臨界區裡呆的時間太長了，以至於越來越多新執行緒遲遲無法進入臨界區。
如果大量執行緒在“waiting on condition”：可能是它們又跑去獲取第三方資源，尤其是第三方網路資源，遲遲獲取不到Response，導致大量執行緒進入等待狀態。所以如果你發現有大量的執行緒都處在 Wait on condition，從執行緒堆疊看，正等待網路讀寫，這可能是一個網路瓶頸的徵兆，因為網路阻塞導致執行緒無法執行。也可能是如本文所提到的，由於程式編寫不當所致。

我的個人部落格地址：http://blog.jboost.cn
我的頭條空間： https://www.toutiao.com/c/user/5833678517/#mid=1636101215791112
我的github地址：https://github.com/ronwxy
我的微信公眾號：jboost-ksxy

——————————————————————————————————————

歡迎關注我的微信公眾號，及時獲取最新分享

執行緒崩潰為什麼不會導致 JVM 崩潰
2022-06-15
執行緒JVM
記錄一個LifeCycle 多執行緒使用導致的崩潰
2020-04-05
執行緒
HttpClient引發的執行緒數過多導致應用崩潰
2020-10-18
HTTPclient執行緒應用崩潰
記一次鎖使用不當導致Dubbo執行緒阻塞問題
2024-06-10
執行緒
【踩坑指南】執行緒池使用不當的五個坑
2024-02-04
執行緒
執行緒池運用不當的一次線上事故
2020-06-12
執行緒
誤升級GLIBC導致系統崩潰之後
2021-07-16
iOS開發-stringByEvaluatingJavaScriptFromString導致崩潰
2018-10-13
iOSJavaScript
記一次執行緒池配置導致的ThreadLocal清空
2022-11-23
執行緒thread
總結：iOS中多執行緒的經典崩潰
2020-06-22
iOS執行緒
Netty原始碼解析一——執行緒池模型之執行緒池NioEventLoopGroup
2022-02-21
Netty原始碼執行緒模型OOP
lol關於win10系統導致閃退崩潰修復方法
2020-03-13
Win10
執行緒池執行模型原始碼全解析
2019-03-24
執行緒模型原始碼
GodBlessYou: 讓你的應用不再崩潰
2019-03-04
Go
Redis使用不當導致應用卡死
2022-12-08
Redis
多塊硬碟離線導致raid6崩潰的資料恢復案例
2022-05-12
硬碟AI資料恢復
從原始碼的角度解析執行緒池執行原理
2019-04-25
原始碼執行緒
伺服器資料恢復—VMware下誤重灌系統導致伺服器崩潰的資料恢復案例
2023-11-15
伺服器資料恢復
pymysql 非執行緒安全導致的故障.
2020-04-07
MySql執行緒
多執行緒中自定義執行緒池與shiro導致的許可權錯亂問題解決
2024-07-12
執行緒
Java原始碼解析 ThreadPoolExecutor 執行緒池
2019-01-25
Java原始碼thread執行緒
Java原始碼解析 - ThreadPoolExecutor 執行緒池
2019-01-19
Java原始碼thread執行緒
Java執行緒池ThreadPoolExecutor原始碼解析
2023-12-27
Java執行緒thread原始碼
Java執行緒池二：執行緒池原理
2020-12-20
Java執行緒
執行緒和執行緒池
2019-03-04
執行緒
執行緒執行緒池 Task
2018-04-26
執行緒
多執行緒【執行緒池】
2021-02-20
執行緒
java--執行緒池--建立執行緒池的幾種方式與執行緒池操作詳解
2021-07-13
Java執行緒
新的Firefox bug可導致瀏覽器程式與作業系統一同崩潰
2018-09-25
Firefox瀏覽器作業系統
VMware虛擬化環境下重灌系統導致的伺服器崩潰解決方案
2021-03-23
伺服器
益普索：2022年崩潰系統情緒調查
2023-02-24
執行緒池建立執行緒的過程
2020-10-21
執行緒
Java多執行緒-執行緒池的使用
2021-01-17
Java執行緒
模態對話方塊可能導致程式崩潰
2018-08-24
A站大流量導致服務崩潰異常分析
2021-07-15
執行緒池
2024-10-07
執行緒
SpringBoot執行緒池和Java執行緒池的實現原理
2023-04-11
Spring Boot執行緒Java
執行緒與執行緒池的那些事之執行緒池篇（萬字長文）
2021-06-21
執行緒

案例解析：執行緒池使用不當導致的系統崩潰

初步排查

問題定位

延伸

相關文章