檢視故障
- 檢視ceph狀態
透過ceph的輸出,發現osd.7提示slow ops,同時有1個pg處於inactive狀態。
故障處理
- 確定osd狀態
透過以上命令確定osd.7屬於ceph03節點。
- 確定pg狀態
透過以上命令,發現pg 7.1d stuck狀態。
- 檢視ceph日誌
檢視ceph03節點的ceph日誌,/var/log/ceph/ceph-osd.7.log,內容如下:
故障解決
- 嘗試重啟mon服務
嘗試重啟ceph.mon服務,未生效。
- 嘗試重啟修復pg
嘗試修復pg,未生效。
- 重啟osd服務
嘗試重啟osd服務,問題得以解決。
經驗總結
1、ceph變更,需要關機時,建議將應用全部停止後,再對ceph進行關機操作。
2、重新加電開機以後,先確保ceph狀態正常,再去啟動應用。
3、對於ceph日常的運維,要多進行監控,建立效能基線,在發現問題時,可以進行有效對比。