踩坑日誌--CEPH叢集常見問題解決辦法

一往無前，未來可期發表於2020-11-06

踩坑日誌–CEPH叢集常見問題解決辦法

前言

一：使用ceph命令報錯：.handle_connect_reply connect got BADAUTHORIZER

1.1：報錯詳情

我檢視osd狀態（ceph osd status）發現出現以下錯誤：

[root@ct ~(keystone_admin)]# ceph osd status
2020-03-12 18:09:43.363 7f2e96572700  0 -- 192.168.11.100:0/3068442569 >> 192.168.11.100:6804/1625 conn(0x7f2e80005580 :-1 s=STATE_CONNECTING_WAIT_CONNECT_REPLY_AUTH pgs=0 cs=0 l=1).handle_connect_reply connect got BADAUTHORIZER
2020-03-12 18:09:43.564 7f2e96572700  0 -- 192.168.11.100:0/3068442569 >> 192.168.11.100:6804/1625 conn(0x7f2e80005580 :-1 s=STATE_CONNECTING_WAIT_CONNECT_REPLY_AUTH pgs=0 cs=0 l=1).handle_connect_reply connect got BADAUTHORIZER
2020-03-12 18:09:43.965 7f2e96572700  0 -- 192.168.11.100:0/3068442569 >> 192.168.11.100:6804/1625 conn(0x7f2e80005580 :-1 s=STATE_CONNECTING_WAIT_CONNECT_REPLY_AUTH pgs=0 cs=0 l=1).handle_connect_reply connect got BADAUTHORIZER
2020-03-12 18:09:44.767 7f2e96572700  0 -- 192.168.11.100:0/3068442569 >> 192.168.11.100:6804/1625 conn(0x7f2e80005580 :-1 s=STATE_CONNECTING_WAIT_CONNECT_REPLY_AUTH pgs=0 cs=0 l=1).handle_connect_reply connect got BADAUTHORIZER
2020-03-12 18:09:46.370 7f2e96572700  0 -- 192.168.11.100:0/3068442569 >> 192.168.11.100:6804/1625 conn(0x7f2e80005580 :-1 s=STATE_CONNECTING_WAIT_CONNECT_REPLY_AUTH pgs=0 cs=0 l=1).handle_connect_reply connect got BADAUTHORIZER
2020-03-12 18:09:49.574 7f2e96572700  0 -- 192.168.11.100:0/3068442569 >> 192.168.11.100:6804/1625 conn(0x7f2e80005580 :-1 s=STATE_CONNECTING_WAIT_CONNECT_REPLY_AUTH pgs=0 cs=0 l=1).handle_connect_reply connect got BADAUTHORIZER
。。。會一直出現這個

1.2：解決

最開始重啟ceph-osd服務發現沒用，需要重啟ceph服務才可以systemctl restart ceph.target

1.3：問題解決！

二：CEPH某個節點的osd總是起不來

2.1：報錯詳情

CEPH叢集檢視健康狀態的時候發現有一個節點的osd服務down了，使用 ceph osd status命令發現是c1節點的服務沒有起來

[root@ct ~(keystone_admin)]# ceph osd status
+----+------+-------+-------+--------+---------+--------+---------+----------------+
| id | host |  used | avail | wr ops | wr data | rd ops | rd data |     state      |
+----+------+-------+-------+--------+---------+--------+---------+----------------+
| 0  |  ct  | 14.4G | 1009G |    0   |     0   |    0   |     6   |   exists,up    |
| 1  |      |    0  |    0  |    0   |     0   |    0   |     0   | autoout,exists |
| 2  |  c2  | 14.4G | 1009G |    0   |     0   |    1   |    48   |   exists,up    |
+----+------+-------+-------+--------+---------+--------+---------+----------------+

2.2：解決

再次檢查健康狀態，終於發現問題：因為c1節點的時間同步出現了問題

[root@ct ~(keystone_admin)]# ceph -s
  cluster:
    id:     8c9d2d27-492b-48a4-beb6-7de453cf45d6
    health: HEALTH_WARN
            Degraded data redundancy: 2127/6381 objects degraded (33.333%), 133 pgs degraded, 192 pgs undersized
            clock skew detected on mon.c1	'//顯示c1節點時間有問題'
 
  services:
    mon: 3 daemons, quorum ct,c1,c2
    mgr: ct(active), standbys: c2, c1
    osd: 3 osds: 2 up, 2 in
 
  data:
    pools:   3 pools, 192 pgs
    objects: 2.13 k objects, 13 GiB
    usage:   29 GiB used, 2.0 TiB / 2.0 TiB avail
    pgs:     2127/6381 objects degraded (33.333%)
             133 active+undersized+degraded
             59  active+undersized

c1節點重新進行時間同步，並重啟相關服務即可

[root@c1 ~]# ntpdate ct	'//同步ct的時間'
12 Mar 18:23:27 ntpdate[37287]: step time server 192.168.11.100 offset -28799.645303 sec
[root@c1 ~]# date	'//再次檢查時間是否相同'
2020年 03月 12日 星期四 18:23:33 CST
[root@c1 ~]# systemctl restart ceph-osd.target	'//重啟osd服務'

再次檢查健康狀態，問題已經解決

[root@ct ~(keystone_admin)]# ceph -s
  cluster:
    id:     8c9d2d27-492b-48a4-beb6-7de453cf45d6
    health: HEALTH_OK
 
  services:
    mon: 3 daemons, quorum ct,c1,c2
    mgr: ct(active), standbys: c2
    osd: 3 osds: 3 up, 3 in
 
  data:
    pools:   3 pools, 192 pgs
    objects: 2.13 k objects, 13 GiB
    usage:   43 GiB used, 3.0 TiB / 3.0 TiB avail
    pgs:     192 active+clean

2.3：問題成功解決！

redis 叢集常見問題 QA
2023-04-21
Redis
常見php與mysql中文亂碼問題解決辦法
2021-09-09
PHPMySql
【知識分享】伺服器常見異常問題及解決辦法
2023-03-31
伺服器
分享視訊直播常見問題與解決辦法彙總
2018-08-01
CentOS 常見異常及解決辦法
2020-11-15
CentOS
MySQL組複製的幾個常見問題以及解決辦法
2018-10-09
MySql
常見的HTTP介面超時問題出現原因及解決辦法
2024-01-12
HTTP
Kubernetes叢集日誌詳解
2022-01-19
As常見問題解決方法
2018-08-24
git常見問題解決
2019-01-06
Git
PhpCms安裝報錯怎麼辦？PHPCMS安裝使用常見問題解決辦法
2020-06-16
PHP
web開發技巧-網頁排版佈局常見問題及解決辦法
2021-08-24
Web網頁
ceph踩坑日記之rgw_dynamic_resharding
2020-10-30
keepalived 1.3.5常見配置以及常見問題解決
2020-05-07
Git常見問題及解決
2019-03-06
Git
ceph叢集
2024-08-25
ceph-deploy離線部署ceph叢集及報錯解決FAQ
2022-02-28
artisan日誌 root 許可權解決辦法
2019-04-02
伺服器常見故障及解決辦法
2023-01-12
伺服器
WordPress：常見問題及解決方案
2024-03-10
Nacos 常見問題及解決方法
2019-11-05
UltraEdit常見問題及解決教程
2021-09-07
解決常見介面跨域問題
2020-11-25
跨域
跨域問題解決辦法
2022-06-06
跨域
解決叢集 Yellow 與 Red 的問題
2020-03-04
Java™ 教程（常見問題及其解決方案）
2019-01-19
Java
Kafka常見的問題及解決方案
2023-05-08
Kafka
快取常見問題及解決方案
2019-10-08
快取
爬蟲常見問題及解決方式
2022-06-10
爬蟲
ES系列二之常見問題解決
2022-11-26
svn相關問題解決辦法
2024-10-18
CSS元素高度塌陷的幾種常見解決辦法！
2021-07-05
CSS
解決ELK日誌被截斷的問題
2024-04-15
[Hadoop踩坑]叢集分散式環境配置
2021-09-09
Hadoop分散式
新手linux系統常見問題解決方案
2020-07-08
Linux
SLF4J日誌記錄常見寫法
2023-03-08
解決SpringBoot連線Nacos叢集報400問題
2022-02-08
Spring Boot
微信分享常見問題--避坑指北
2021-07-28

踩坑日誌--CEPH叢集常見問題解決辦法

前言

一：使用ceph命令報錯：.handle_connect_reply connect got BADAUTHORIZER

1.1：報錯詳情

1.2：解決

1.3：問題解決！

二：CEPH某個節點的osd總是起不來

2.1：報錯詳情

2.2：解決

2.3：問題成功解決！

相關文章