一次IO效能問題的發現過程

济南小老虎發表於2024-05-01

原文網址 : https://www.cnblogs.com/jinanxiaolaohu/p/18169447

一次IO效能問題的發現過程

背景

計劃搭建兩套完全的系統進行壓測.
但是發現自己給自己挖了一個坑, 沒注意到一個區別. 

郵件在三點鐘發出去了, 但是問題是我在四點鐘發現的.

問題現象

阿里雲上面高一個虛擬機器 的CPU出現異常的 CPU用量上升的問題. 

Busy IOwait 比較高. 有 60% 
感覺非常奇怪. 

我這邊我一開始認為只跑了一個MySQL資料庫, 理論上不應該如此. 
然後開始問題發現和解決的過程

故障圖

問題確認

輸入 top 進行確認. 
發現的確idle 只有 30% 是存在IO的瓶頸. 
立即使用 iostat 進行檢視

發現了很詭異的問題

iostat 的結果

問題不對勁

iostat 裡面看到很多的磁碟讀取, 但是看不到具體的程序
所以機器有卡頓, 並且一號跑的內容可能存在有差池的情況.

立馬就很詭異. 我理解iostat 應該能看到所有程序的相關資訊
顯然, 沒有 
立即給阿里雲提工單. 

提工單的工程中, 突然靈機一閃
docker ps 了下
果然發現有之前自己驗證 telemetry的容器再跑
立馬 systemctl stop docker
在進行 iostat 的檢視 
大量的讀取沒有了.

問題反思

1. 虛擬機器是我直接clone的. clone之前執行了 systemctl stop docker的處理
    但是沒有關閉開機自啟動. 
2. 早上檢查機器沒有發現異常, 就可以了壓測. 並且系統表面上也沒有問題. 
3. 因為測試結果與自己的預期非常相仿, 加深了自己的主觀認識. 

當然了最大的收穫是  iostat 竟然無法看到 容器內的讀寫. 
後續再進行相關工作時 必須要進行全方面的檢查
容器沒怎麼佔記憶體, 但是沒想到佔用了那麼多的IO
是一個很大的教訓.

記一次OOM問題排查過程
2019-11-22
OOM
記一次 Composer 問題的解決過程！！
2018-08-07
一次線上問題的排查解決過程
2019-02-24
一次「找回」TraceId的問題分析與過程思考
2023-04-21
一次ygc越來越慢的問題排查過程
2019-03-14
GC
達夢儲存過程效能問題定位
2024-09-02
儲存過程
MySQL 記一次 Bug發現過程
2018-04-04
MySql
一次IOS通知推送問題排查全過程
2022-05-04
iOS
記一次線上崩潰問題的排查過程
2021-11-10
在效能測試的過程中會遇到哪些問題？
2021-12-31
記一次問題發現
2019-03-22
一次TiDB GC阻塞引發的效能問題分析
2022-12-20
TiDBGC
nuxtjs 安裝過程中出現問題
2020-05-26
UXJS
一次線上問題處理過程記錄
2021-12-12
MGR測試過程中出現的問題彙總
2018-11-09
npm install 使用過程出現的問題總結
2018-09-11
NPM
docker使用redis過程出現的問題記錄
2021-11-04
DockerRedis
記一次使用gdb診斷gc問題全過程
2023-02-04
GC
.記一次使用gdb診斷gc問題全過程
2023-02-04
GC
記錄一次現網MySQL記憶體增長超限問題定位過程
2021-08-04
MySql記憶體
一次容器MySQL的效能問題排查
2021-12-01
MySql
一次 kafka 消費者的效能調優過程
2024-04-19
Kafka
Flutter開發過程中遇到的問題記錄
2021-03-02
Flutter
開發過程中mysql常見問題
2019-01-06
MySql
Mybatis PageHelper編譯SQL引發的一次效能問題.18286262
2024-07-05
MyBatis編譯SQL
thrift使用過程中的問題
2019-05-11
一次快取效能問題排查
2019-08-26
快取
皮膚開發過程中遇到的3個問題
2018-10-11
教育類app開發過程中，需要避免的問題
2020-11-10
APP
vue專案開發過程常見問題
2018-07-29
Vue
記錄開發過程一個路由問題
2020-10-28
路由
一次詭異的線上資料庫的死鎖問題排查過程
2019-04-09
資料庫
記一次nodejs開發CLI的過程
2019-03-04
NodeJS
解決Rust -- update crates.io過慢的問題
2020-09-23
Rust
一次ORACLE IO效能診斷案例
2021-06-17
Oracle
爬蟲過程中遇到的問題
2024-04-27
爬蟲
記一次專案中解決 -- 併發減庫存超賣問題過程(Java)
2021-06-20
Java
記一次驚魂的Win10啟動卡死問題恢復過程
2024-06-22
Win10

一次IO效能問題的發現過程

一次IO效能問題的發現過程

背景

問題現象

故障圖

問題確認

iostat 的結果

問題不對勁

問題反思

相關文章