Elasticsearch 磁碟空間異常：一次成功的故障排除案例分享

极限实验室發表於2024-08-12

原文網址 : https://www.cnblogs.com/infinilabs/p/18354181

Elasticsearch

故障現象

近日有客戶找到我們，說有個 ES 叢集節點，磁碟利用率達到了 82% ，而其節點才 63% ，想處理下這個節點，降低節點的磁碟利用率。

起初以為是沒有開啟自動平衡導致的，經查詢，資料還是比較平衡的。

利用率較高的是 76 節點，如果 76 節點的分片比其他節點多，好像還比較合乎邏輯，但它反而比其他節點少了 12-15 個分片。那是 76 節點上的分片比較大？

索引情況

圖中都是較大的索引，1 個索引 25TB 左右，共 160 個分片。

分片大小

節點 64

節點 77

節點 75

問題節點 76

可以看出分片大小沒有出現較大的傾斜，分片大小和資料平衡的原因都被排除。

換個方向思考，節點 76 比其他節點多使用了磁碟空間 8 個 TB 左右，叢集最大分片大小約 140GB ，8000/140=57 ，即節點 76 至少要比其他節點多 57 個分片才行，啊這...

會不會有其他的檔案佔用了磁碟空間？

我們登入到節點主機，排查是否有其他檔案佔用了磁碟空間。

結果：客戶的資料路徑是單獨的資料磁碟，並沒有其他檔案，都是 ES 叢集索引佔用的空間。

現象總結

分片大小差不多的情況下，節點 76 的分片數還比別的節點還少 10 個左右，它的磁碟空間反而多佔用了 8TB 。

這是不是太奇怪了？事出反常必有妖，繼續往下查。

原因定位

透過進一步排查，我們發現節點 76 上有一批索引目錄，在其他的節點上沒有，而且也不在 GET \_cat/indices?v 命令的結果中。說明這些目錄都是 dangling 索引佔用的。

dangling 索引產生的原因

當 Elasticsearch 節點離線時，如果刪除的索引數量超過 Cluster.indes.tombstones.size，就會發生這種情況。

解決方案

透過命令刪除 dangling 索引：

DELETE /\_dangling/<index-uuid>?accept_data_loss=true

最後

這次的分享就到這裡了，歡迎與我一起交流 ES 的各種問題和解決方案。

HP-UX上一次Oracle軟體安裝目錄磁碟空間滿導致的故障
2018-06-14
UXOracle
磁碟空間不足
2019-10-12
MySQL 磁碟空間滿導致表空間相關資料檔案損壞故障處理
2019-10-26
MySql
一次elasticsearch 查詢瞬間超時案例分析
2023-12-04
Elasticsearch
記一次Win10磁碟空間清理 robocopy mklink
2024-08-25
Win10
串列埠通訊常見的錯誤和故障排除方法
2024-03-02
串列埠
如何檢查Mac磁碟空間，mac磁碟空間其他怎麼清理
2020-11-24
Mac
一次交換空間設定不合理引發的故障
2022-04-15
win10 如何修改磁碟空間 win10修改磁碟空間方法
2020-08-15
Win10
windows10磁碟空間不足怎麼清理_win10磁碟空間清理的方法
2019-12-27
WindowsWin10
WSL 回收未使用的磁碟空間
2024-11-07
Oracle 擴充磁碟空間
2020-01-11
Oracle
SQLServer異常故障恢復(二)
2018-09-30
SQLServer
檢視佔用磁碟空間的程式
2018-07-17
ORACLE ASM的SSD磁碟空間回收分析
2022-12-27
OracleASM
ubuntu 擴充套件磁碟空間
2024-06-10
Ubuntu套件
docker磁碟空間清理辦法
2021-06-08
Docker
[20230201]磁碟空間爆滿.txt
2023-02-09
NullPointerException空指標異常的理解
2018-03-27
NullException指標
記一次詭異的故障排查經歷
2018-07-24
一次死鎖導致CPU異常飄高的整個故障排查過程
2021-04-23
如何配置並排除 GRUB故障
2023-10-11
Linux 硬體故障排除指南
2020-03-03
Linux
Linux檢查Docker映象,容器的磁碟空間
2022-09-13
LinuxDocker
網路故障排除工具 | 快速定位網路故障
2020-10-27
linux檢視剩餘磁碟空間
2018-03-10
Linux
ORACLE ASM磁碟組空間溢位
2019-07-31
OracleASM
[20201104]磁碟空間消耗在哪裡.txt
2020-11-04
沒有磁碟空間 No space left on device
2020-11-09
dev
lsof |grep deleted 釋放磁碟空間
2021-12-13
delete
伺服器磁碟空間滿了
2022-06-07
伺服器
[20211029]udump磁碟空間暴漲.txt
2021-10-29
Kubernetes故障排除的直觀指南 - Daniele Polencic
2019-12-06
通過redis的monitor命令排除故障
2020-04-04
Redis
OGG相關的CPATURE導致SYSAUX表空間異常暴增處理
2020-11-28
UX
記一次Linux伺服器磁碟空間佔用，大檔案查詢
2020-10-27
Linux伺服器
Oracle asm磁碟損壞異常恢復
2022-11-30
OracleASM
WebSphere 叢集建立及故障排除
2020-04-07
Web