一次ceph心跳機制異常的處理

安全劍客發表於2019-07-20

原文網址 : http://blog.itpub.net/31559985/viewspace-2651221/

部署使用ceph叢集的時候遇到一個情況，在大規模叢集的時候，有節點網路或者osd異常時，mon遲遲不把該異常的osd標down，一直等待900s後mon發現該節點的osd一直沒有更新pgmap才把異常的osd標down，並更新osdmap擴散出去。

現象：部署使用ceph叢集的時候遇到一個情況，在大規模叢集的時候，有節點網路或者osd異常時，mon遲遲不把該異常的osd標down，一直等待900s後mon發現該節點的osd一直沒有更新pgmap才把異常的osd標down，並更新osdmap擴散出去。但這個900s內，客戶端IO還是會一直往異常的osd上去下發，導致io超時，並進一步影響上次的業務。

原因分析：

我們在mon的日誌裡面也看到了和異常osd建立心跳的其他osd向mon報告該osd的異常，但mon確實在短時間內沒有這些osd標down。檢視了一些相關網路和書籍的資料後，才發現了問題。
首先我們關注osd配置中幾個相關的配置項：
（1）osd_heartbeat_min_peers:10
（2）mon_osd_min_down_reporters:2
（3）mon_osd_min_down_reporters_ratio:0.5
以上引數的之都可以在ceph叢集節點上執行ceph daemon osd.x config show檢視（x是你的叢集osd的id）。
問題出現的原因是什麼呢？
問題現場的叢集部署時每個osd會隨機選取10個peer osd來作為建立心跳的物件，但在ceph的機制中，這個10個osd不一定保證能夠全部分散在不同的節點上。故在有osd異常的時候，向mon報該osd down的reporter有概率不滿足ratio=0.5，即reporter數量未過叢集儲存host數量的一半，這樣異常osd就無法通過osd之間的心跳報活機制快速標down，直到900s後mon發現這個osd pgmap一直不更新才識別到異常（另一種機制，可以看做是給osd心跳保活機制做最後的保險），並通過osdmap擴散出來。而這個900s對於上層業務來說，往往是不可接受的。
但這個現象對於小規模叢集幾乎不會出現，比如以一個3節點ceph叢集為例：
一次ceph心跳機制異常的處理一次ceph心跳機制異常的處理
如果與其他節點osd建立的peer數量小於了osd_heartbeat_min_peers，那麼osd會繼續選擇與自己較近的osd建立心跳連線（即使是和自己位於同一個節點上。）
對於osd心跳機制，網上有人總結過幾點要求：
（1）及時：建立心跳的osd可以在秒級發現其他osd的異常並上報monitor，monitor在幾分鐘內把該osd標down下線
（2）適當的壓力：不要以為peer越多越好，特別是現在實際應用場景中osd監聽和傳送心跳報文的網路鏈路都是和public network以及cluster network共用的，心跳連線建立過多會極大影響系統的效能。Mon有單獨與osd維持心跳的方式，但ceph通過osd之間的心跳保活，將這種壓力分散到各個osd上，極大減小了中心節點mon的壓力。
一次ceph心跳機制異常的處理一次ceph心跳機制異常的處理
（3）容忍網路抖動：mon收集到osd的彙報之後，會經過週期的等待幾個條件，而不是貿然把osd標down。這些條件有目標osd的實效時間大於通過固定量osd_heartbeat_grace和歷史網路條件確定的閾值，以及上報的主機數是否達到min_reporters和min_reporters_ratio，以及在一定時間內，失效彙報沒有被源報告者取消掉等。
（4）擴散機制：2種實現，mon主動擴散osdmap，還有一種惰性的是osd和client自己來取。為了讓異常資訊及時讓client和其他osd感知到，一般是前一種實現比較好。

總結和啟示：

2個方向可以做出改變。
（1）對於原有機制中取叢集儲存節點數量的0.5作為min_reporter_ratio明顯不合理，應該採用的是這個osd與多少host上的osd建立心跳（取host數量），那就由0.5*建立心跳的host總數來作為判斷依據。
（2）一些場景下，我們會自己定義一些資料存放的邏輯區域，通過對crush的層級結構的利用，例如在一個ceph叢集中定義多個邏輯區域，一個資料的分片或者副本只存在於一個邏輯區域中，那相關osd建立心跳連線的範圍就需要相應精簡和準確。

現在ceph實現的osd心跳機制還是會有很多問題，不知道後面會不會有新的機制替換當前機制，讓我們拭目以待。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31559985/viewspace-2651221/，如需轉載，請註明出處，否則將追究法律責任。

Ceph心跳機制
2020-02-13
異常處理機制
2024-08-05
Java 的異常處理機制
2018-04-26
Java
SpringMVC異常的處理機制
2020-10-22
SpringMVC
java異常的處理機制
2020-10-27
Java
Java異常處理機制
2018-08-04
Java
異常處理機制(二)之異常處理與捕獲
2023-11-14
Java 中的異常處理機制
2022-09-26
Java
8.異常處理機制
2024-05-10
08.異常處理機制
2020-06-14
C++異常處理機制
2021-02-14
C++
C#中的異常處理機制
2020-09-24
C#
goang 錯誤&異常處理機制
2021-09-09
Go
C++ 異常處理機制詳解：輕鬆掌握異常處理技巧
2024-04-28
C++
Python異常處理機制、除錯、測試
2018-10-22
Python除錯
.NET----錯誤和異常處理機制
2019-08-07
JAVA的異常處理機制（一）——try...catch...finally
2018-07-27
Java
Python入門學習之異常處理機制
2021-06-28
Python
異常處理機制(一)之throw與throws的區別
2023-11-13
React 原始碼解析系列 - React 的 render 異常處理機制
2022-02-17
React原始碼
Python基礎入門（7）- Python異常處理機制
2021-12-20
Python
知識點講解七：Python中的異常處理機制
2018-09-03
Python
Go 函式的健壯性、panic異常處理、defer 機制
2023-10-19
Go函式
異常的處理
2024-08-05
異常-throws的方式處理異常
2018-09-02
異常篇——異常處理
2022-02-27
C介面與實現—C裡面的異常處理機制
2019-05-11
異常處理
2024-10-18
[原創]利用SEH異常處理機制繞過GS保護
2018-04-20
轉載利用SEH異常處理機制繞過GS保護
2018-04-19
JSP 異常處理如何處理？
2021-09-01
JS
React 異常處理
2019-03-01
React
JS異常處理
2018-05-08
JS
oracle異常處理
2023-05-09
Oracle
Python——異常處理
2019-08-04
Python
Python異常處理
2020-06-24
Python
ThinkPHP 異常處理
2019-12-18
PHP
JavaScript 異常處理
2020-08-13
JavaScript

一次ceph心跳機制異常的處理

相關文章