記一次ceph pg unfound處理過程

空殼先生發表於2021-01-26

原文網址 : https://www.cnblogs.com/scofield666/p/14330174.html

今天檢查ceph叢集，發現有pg丟失，於是就有了本文~~~

1.檢視叢集狀態

[root@k8snode001 ~]# ceph health detail
HEALTH_ERR 1/973013 objects unfound (0.000%); 17 scrub errors; Possible data damage: 1 pg recovery_unfound, 8 pgs inconsistent, 1 pg repair; Degraded data redundancy: 1/2919039 objects degraded (0.000%), 1 pg degraded
OBJECT_UNFOUND 1/973013 objects unfound (0.000%)
    pg 2.2b has 1 unfound objects
OSD_SCRUB_ERRORS 17 scrub errors
PG_DAMAGED Possible data damage: 1 pg recovery_unfound, 8 pgs inconsistent, 1 pg repair
    pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound
    pg 2.44 is active+clean+inconsistent, acting [14,8,21]
    pg 2.73 is active+clean+inconsistent, acting [25,14,8]
    pg 2.80 is active+clean+scrubbing+deep+inconsistent+repair, acting [4,8,14]
    pg 2.83 is active+clean+inconsistent, acting [14,13,6]
    pg 2.ae is active+clean+inconsistent, acting [14,3,2]
    pg 2.c4 is active+clean+inconsistent, acting [8,21,14]
    pg 2.da is active+clean+inconsistent, acting [23,14,15]
    pg 2.fa is active+clean+inconsistent, acting [14,23,25]
PG_DEGRADED Degraded data redundancy: 1/2919039 objects degraded (0.000%), 1 pg degraded
    pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound

從輸出發現pg 2.2b is active+recovery_unfound+degraded, acting [14,22,4], 1 unfound
現在我們來檢視pg 2.2b，看看這個pg得想想資訊。

[root@k8snode001 ~]# ceph pg dump_json pools    |grep 2.2b
dumped all
2.2b       2487                  1        1         0       1  9533198403 3048     3048                active+recovery_unfound+degraded 2020-07-23 08:56:07.669903  10373'5448370  10373:7312614  [14,22,4]         14  [14,22,4]             14  10371'5437258 2020-07-23 08:56:06.637012   10371'5437258 2020-07-23 08:56:06.637012             0

可以看到它現在只有一個副本

2.檢視pg map

[root@k8snode001 ~]# ceph pg map 2.2b
osdmap e10373 pg 2.2b (2.2b) -> up [14,22,4] acting [14,22,4]

從pg map可以看出，pg 2.2b分佈到osd [14,22,4]上

3.檢視儲存池狀態

[root@k8snode001 ~]# ceph osd pool stats k8s-1
pool k8s-1 id 2
  1/1955664 objects degraded (0.000%)
  1/651888 objects unfound (0.000%)
  client io 271 KiB/s wr, 0 op/s rd, 52 op/s wr

[root@k8snode001 ~]# ceph osd pool ls detail|grep k8s-1
pool 2 'k8s-1' replicated size 3 min_size 1 crush_rule 0 object_hash rjenkins pg_num 256 pgp_num 256 last_change 88 flags hashpspool,selfmanaged_snaps stripe_width 0 application rbd

4.嘗試恢復pg 2.2b丟失的塊

[root@k8snode001 ~]# ceph pg repair 2.2b

如果一直修復不成功，可以檢視卡住PG的具體資訊，主要關注recovery_state，命令如下

[root@k8snode001 ~]# ceph pg 2.2b  query
{
    "......
    "recovery_state": [
        {
            "name": "Started/Primary/Active",
            "enter_time": "2020-07-21 14:17:05.855923",
            "might_have_unfound": [],
            "recovery_progress": {
                "backfill_targets": [],
                "waiting_on_backfill": [],
                "last_backfill_started": "MIN",
                "backfill_info": {
                    "begin": "MIN",
                    "end": "MIN",
                    "objects": []
                },
                "peer_backfill_info": [],
                "backfills_in_flight": [],
                "recovering": [],
                "pg_backend": {
                    "pull_from_peer": [],
                    "pushing": []
                }
            },
            "scrub": {
                "scrubber.epoch_start": "10370",
                "scrubber.active": false,
                "scrubber.state": "INACTIVE",
                "scrubber.start": "MIN",
                "scrubber.end": "MIN",
                "scrubber.max_end": "MIN",
                "scrubber.subset_last_update": "0'0",
                "scrubber.deep": false,
                "scrubber.waiting_on_whom": []
            }
        },
        {
            "name": "Started",
            "enter_time": "2020-07-21 14:17:04.814061"
        }
    ],
    "agent_state": {}
}

如果repair修復不了；兩種解決方案，回退舊版或者直接刪除

5.解決方案

回退舊版
[root@k8snode001 ~]# ceph pg  2.2b  mark_unfound_lost revert
直接刪除
[root@k8snode001 ~]# ceph pg  2.2b  mark_unfound_lost delete

6.驗證

我這裡直接刪除了，然後ceph叢集重建pg,稍等會再看，pg狀態變為active+clean

[root@k8snode001 ~]#  ceph pg  2.2b query
{
    "state": "active+clean",
    "snap_trimq": "[]",
    "snap_trimq_len": 0,
    "epoch": 11069,
    "up": [
        12,
        22,
        4
    ],

再次檢視叢集狀態

[root@k8snode001 ~]# ceph health detail
HEALTH_OK

Ceph pg unfound處理過程詳解
2021-02-17
記一次PMML檔案的處理過程
2019-02-02
記一次linux主機中病毒處理過程
2019-01-21
Linux
一次線上問題處理過程記錄
2021-12-12
記一次Nodejs安全工單的處理過程_20171226
2019-02-16
NodeJS
記一次線上服務CPU 100%的處理過程
2020-07-10
一次壞塊的處理過程(一)
2019-06-20
一次壞塊的處理過程(二)
2019-02-20
一次併發處理過程, 基於 Redis
2020-03-01
Redis
一次ceph心跳機制異常的處理
2019-07-20
記一次12c pdb打補丁失敗處理過程
2020-09-02
ceph：忘記甚至從ceph裡刪除了 ceph.client.admin密碼，怎麼處理？
2024-08-29
client密碼
ceph之pg inactive
2024-09-13
Java使用javacv處理影片檔案過程記錄
2024-04-15
Java
ceph-pg雜湊分析
2020-01-19
【原始碼】Redis命令處理過程
2022-02-10
原始碼Redis
python中PCA的處理過程
2021-09-11
PythonPCA
記一次SQL調優過程
2019-10-10
SQL
Linux核心筆記005 - 越界訪問記憶體，Linux核心處理過程
2020-06-06
Linux筆記記憶體
DOM在Ahooks中的處理過程
2022-07-21
Hook
開會時CPU 飆升100%同事們都手忙腳亂記一次應急處理過程
2020-07-14
記一次"記憶體洩露"排查過程
2019-10-15
記憶體洩露
記一次OOM問題排查過程
2019-11-22
OOM
記一次 Boomer 壓測 MQTT 過程
2020-08-04
OOMMQQT
記一次ElementUI原始碼修改過程
2020-10-08
UI原始碼
記一次系統演變過程
2020-05-18
MySQL 記一次 Bug發現過程
2018-04-04
MySql
記一次 GitLab 的遷移過程
2021-08-06
Gitlab
一次Oracle監聽無法動態註冊處理過程排查分析
2023-10-07
Oracle
Flink流處理過程的部分原理分析
2018-12-19
大資料處理過程是怎樣
2022-12-05
大資料
Linux 核心處理中斷全過程解析
2021-01-12
Linux
記錄一次記憶體洩漏排查過程
2023-11-06
記憶體
記一次nodejs開發CLI的過程
2019-03-04
NodeJS
記一次前端面試的全過程
2018-11-24
前端面試
記一次安卓webview查錯過程
2018-05-11
安卓WebView
記錄一次Dataguard的修復過程
2018-06-16
記一次使用 AetherUpload 影片上傳過程
2019-09-28