記一次生產事故磁碟被佔滿

ITLearner發表於2020-02-10

原文網址 : https://juejin.im/post/5e41a113f265da57663fc768

寫在前面

今天，跑在阿里雲ECS上的生產環境，突然間訪問異常，介面各種報錯，無奈公司沒有專業的運維人員，只能硬著頭皮解決一下。

問題排查

先從表面看起，資料庫首先報錯

Caused by: org.postgresql.util.PSQLException: ERROR: could not extend file "base/16385/16587_fsm": No space left on device
  建議：Check free disk space.
複製程式碼

直觀上看，裝置沒有可用空間，也就是磁碟滿了。

進入伺服器後臺，執行

$ df -h
Filesystem            Size  Used Avail Use% Mounted on
udev                  7.9G     0  7.9G   0% /dev
tmpfs                 1.6G  3.5M  1.6G   1% /run
/dev/vda1              59G   56G     0 100% /
tmpfs                 7.9G  4.0K  7.9G   1% /dev/shm
tmpfs                 5.0M  4.0K  5.0M   1% /run/lock
tmpfs                 7.9G     0  7.9G   0% /sys/fs/cgroup
/dev/mapper/vg0-vol0 1000G   14G  937G   2% /data
tmpfs                 1.6G     0  1.6G   0% /run/user/0
複製程式碼

發現確實磁碟滿了，而且滿的很徹底。系統盤佔用100%，估計什麼服務都跑不動了。/dev/vda1 59G 56G 0 100% /

不過發現/dev/mapper/vg0-vol0 1000G 14G 937G 2% /data，1000G只用了2%

阿里雲ECS分為系統盤和資料盤，1000G的是資料盤

第一反應，應該是搭建的PG資料庫的資料沒有移到資料盤上。

將Postgres資料庫資料目錄移動到系統盤

參考如何將PostgreSQL資料目錄移動到Ubuntu 16.04上的新位置

$ sudo -u postgres psql
postgres# SHOW data_directory; # 檢視當前資料目錄
        data_directory        
------------------------------
 /var/lib/postgresql/9.5/main
(1 row)
postgres# \q; # 退出
# 為了確保資料的完整性，我們將在實際更改資料目錄之前關閉PostgreSQL
$ sudo systemctl stop postgresql
# 確保關閉完成
$ sudo systemctl status postgresql
. . .
Jul 22 16:22:44 ubuntu-512mb-nyc1-01 systemd[1]: Stopped PostgreSQL RDBMS.
$ sudo rsync -av /var/lib/postgresql /data # /data為要遷移到的新目錄
$ cd /data
$ ls
... postgresql
# 刪除原資料目錄
$ sudo rm -rf /var/lib/postgresql
# 將新資料目錄連結到原資料目錄
$ sudo ln -s /data/postgresql /var/lib/postgresql
# 重啟Postgres資料庫
$ sudo systemctl start postgresql
$ sudo systemctl status postgresql
複製程式碼

完成以上步驟，即將postgre資料庫資料目錄移到了阿里雲資料盤

以為OK了，執行

$ df -h
Filesystem            Size  Used Avail Use% Mounted on
udev                  7.9G     0  7.9G   0% /dev
tmpfs                 1.6G  3.5M  1.6G   1% /run
/dev/vda1              59G   56G   51M 100% /
tmpfs                 7.9G  4.0K  7.9G   1% /dev/shm
tmpfs                 5.0M  4.0K  5.0M   1% /run/lock
tmpfs                 7.9G     0  7.9G   0% /sys/fs/cgroup
/dev/mapper/vg0-vol0 1000G   14G  937G   2% /data
tmpfs                 1.6G     0  1.6G   0% /run/user/0
複製程式碼

紋絲未動。。。

Ubuntu查詢大檔案

猜測是存在大檔案導致磁碟被佔滿

$ cd /
$ find . -type f -size +800M  -print0 | xargs -0 du -h
5.6G ./var/log/syslog.1
6.7G ./var/log/syslog
...
$ rm ...
複製程式碼

如果發現是log字眼的大檔案，我們可以毫不留情的刪掉，要是遇見一些不認識的，不要貿然刪掉，一定要查清楚檔案的作用，能刪則刪，千萬不要不小心刪庫跑路。。。

刪除完畢後，再次檢視

$ df -h
Filesystem            Size  Used Avail Use% Mounted on
udev                  7.9G     0  7.9G   0% /dev
tmpfs                 1.6G  3.4M  1.6G   1% /run
/dev/vda1              59G   45G   12G  80% /
tmpfs                 7.9G  4.0K  7.9G   1% /dev/shm
tmpfs                 5.0M  4.0K  5.0M   1% /run/lock
tmpfs                 7.9G     0  7.9G   0% /sys/fs/cgroup
/dev/mapper/vg0-vol0 1000G   14G  936G   2% /data
tmpfs                 1.6G     0  1.6G   0% /run/user/0
複製程式碼

多出了12G。

檢視已刪除空間卻沒有釋放的程式

這時候，服務應該可以恢復成功。但你馬上會發現，磁碟又被佔滿，而這次，日誌檔案卻不算大。

檢視已經刪除的檔案，空間有沒有釋放，沒有的話kill掉pid

使用rm刪除檔案的時候，雖然檔案已經被刪除，但是由於檔案被其他程式佔用，空間卻沒有釋放

$ sudo lsof -n |grep deleted
java      17866                  root  237r      REG              253,1    163541    1709285 /tmp/tomcat.8250394289784312179.8080/work/Tomcat/localhost/ROOT/upload_c6db0c17_6e6a_4141_bfb6_ac1b2d8a3b0b_00000000.tmp (deleted)
...
$ sudo kill -9 17866
複製程式碼

再次使用df -h命令，磁碟使用率一下子減少了好多。

總結

伺服器系統盤被佔滿是非常可怕的！屆時，一切服務都將變得不可用，業務系統也會莫名其妙多出奇怪的問題。所以，運維需要經常性的檢視伺服器磁碟佔用情況，阿里雲ECS使用者，可以開啟報警，及時發現問題，解決問題！
阿里雲ECS提供了系統盤和資料盤，記住，例如Pg、Redis、Cassandra等容易佔磁碟的服務，一定要將資料目錄放在阿里雲ECS提供的資料盤上。
/var/log是系統日誌目錄，可以經常性的關注下，大容量日誌儘早刪除。
對待程式不停對檔案寫日誌的操作，要釋放檔案佔用的磁碟空間，最好的方法是線上清空這個檔案，可以通過如下命令完成：

[root@localhost ~]# echo "" >/var/log/syslog
複製程式碼

通過這種方法，磁碟空間不但可以馬上釋放，也可保障程式繼續向檔案寫入日誌，這種方法經常用於線上清理Apache、Tomcat、Nginx等Web服務產生的日誌檔案。

最後，有一個專業的運維是多麼重要！

記一次生產事故：30萬單就這樣沒了！
2020-09-24
一次生產事故的最佳化經歷
2020-07-28
深入認識二進位制序列化--記一次生產事故的思考
2019-07-01
記一次生產環境tomcat執行緒數打滿情況分析
2020-08-12
Tomcat執行緒
一次生產環境CPU佔用高的排查
2023-02-10
驚魂36小時，一次生產事故，動態磁碟刪除卷分割槽丟失，資料恢復案例實戰
2020-09-04
資料恢復
Sentry 服務磁碟佔滿清除postgresql方法
2019-04-19
SQL
Linux磁碟空間佔滿問題快速排雷
2019-02-14
Linux
記一次生產頻繁發生FullGC問題
2023-03-16
GC
記一次生產環境大面積404問題！
2021-03-29
筆記本磁碟佔用率100怎麼辦_筆記本磁碟佔用一直是100%如何解決
2020-08-03
筆記
記一次記憶體溢位導致的生產事故
2020-12-20
記憶體溢位
記一次生產慢sql索引最佳化及思考
2023-12-18
SQL索引
linux磁碟已滿，檢視哪個檔案佔用多
2024-08-31
Linux
記一次生產資料庫“意外”重啟的經歷
2018-12-07
資料庫
一次生產環境OOM排查
2024-03-01
OOM
臨近年關，兩個磁碟佔滿引起的服務下線
2020-12-29
臨時表空間被佔滿的原因查詢
2019-06-29
記一次處理事故
2024-11-26
一次生產的 JVM 優化案例
2019-03-09
JVM優化
伺服器寬頻被佔滿應該怎麼辦？
2021-05-31
伺服器
記一次訂單號事故
2020-08-21
一次生產環境的docker MySQL故障
2022-05-26
DockerMySql
生產事故後續
2019-03-08
一次生產 CPU 100% 排查優化實踐
2018-12-17
優化
Linux磁碟滿問題分析
2018-12-21
Linux
一次生產 CPU 100% 排查最佳化實踐
2018-12-18
記一次Linux伺服器磁碟空間佔用，大檔案查詢
2020-10-27
Linux伺服器
[20230201]磁碟空間爆滿.txt
2023-02-09
定位磁碟IO佔用命令
2024-12-06
一次因生產事故與chatGpt的對話
2023-03-29
ChatGPT
再一次生產 CPU 高負載排查實踐
2019-06-18
負載
記一次資料庫事故-ORA-15038
2020-04-20
資料庫
Docker啟動出現"No space left on device" 或者 docker日誌太多導致磁碟佔滿問題
2019-02-21
Dockerdev
記一次生產問題的排查，讓我領略了演算法的重要性
2022-05-03
演算法
埠被佔用
2024-11-28
docker引起伺服器磁碟爆滿
2022-06-10
Docker伺服器
伺服器磁碟空間滿了
2022-06-07
伺服器

記一次生產事故 磁碟被佔滿