傳統運維將消失?體系化的 SRE 可靠性與連續性保障,瞭解一下?
什麼是SRE?
所以為了解決這些問題,不難看出需要測試、開發、運維以及其他相關崗位人員都得進行合作建設,所以會發現其實可以認為SRE是一套指導建設的體系化方法。
SRE的目標是什麼?
提高穩定性
建設SRE體系的目標是“提高穩定性”
而在SRE中對“提高穩定性”這一目標有著兩個衡量的指標
從他們的釋義中可以看出兩個指標與系統執行狀態關係對應如下
細分目標
而 MTBF 也可以細分2個階段,如下:
在體系建設方面可以分別對應
辨別故障的基礎:合適的SLI,對應的SLO
什麼是SLI
建設監控系統的同學會知道,監控中對目標物件進行監控時會有大量的指標,但是很多指標的作用估計微乎其微。
而透過遵循以下兩個原則從中脫穎而出讓其作用發光發熱的指標就是SLI。
-
能標識目標物件是否穩定
-
與使用者體驗強相關或使用者可以明顯感知的
所以SLI更能表達出“目標物件穩不穩定”。
VALET選擇法
什麼是SLO
所以我們也可以透過組合多個SLO,採用與運算的方式,來更加精確的表達業務的穩定性
公式如:Availability = SLO1 & SLO2 & SLO3
所以得所有的 SLO 都達成才能算是達標!
而簡單來說SLO的出現讓業務的穩定性表達的更加精確、可靠。
關於時間維度
SLO中的時間維度可以分成持續時間和週期,用來覆蓋以下兩種場景
-
時間維度: 從故障角度評估
-
請求維度: 從成功請求佔比評估
時間維度:從故障角度評估
請求維度:從成功請求佔比評估
這種方式有效的補充了時間維度的不足,通常就是相輔相成的存在。
關於SLO與可用性
關於SLO與故障
指導工作的量化資料:ErrorBudget
什麼是ErrorBudget
消費 ErrorBudget 資料
穩定性燃盡圖
利用ErrorBudget計分形式,使用柱狀圖形式圖表實時展示其狀態,當然得設定一個週期建議為4個自然周,週期後資料恢復。
對於特殊的場景,可以適當增大ErrorBudget,可以讓其場景合理化,但是還是具體情況具體分析。
故障定級
利用ErrorBudget歸一化成次數時,可以利用其消耗數百分比來制定故障等級,這樣所有不同的SLO都可以利用同一份規則去做故障定級,達到統一規範的目的。
一般故障等級都會分成P0~P4五個級別,0為最高。
常見的故障等級設定如下:
穩定性共識機制
1.當剩餘預算充足或未消耗之前,對問題的發生要有容忍度
在日常我們會遇到網路抖動或裝置瞬時切換導致了極短暫系統不穩定, 這時有極少一部分客戶反饋或業務使用時遇到了,結果就被投訴業務不穩定,然後技術人員就立刻放下手頭工作去排查問題,後續還要花大量的時間去覆盤總結和彙報。
這樣消耗了技術人員大量的時間和精力,排查結果對業務沒什麼大幫助,這樣導致的結果會有技術人員手頭工作無法完成,也浪費了其他協助人員的時間。
總體來說價效比不高,而且是一個漣漪的擴散影響,這種事情一多了,估計就會引發”海嘯“了吧!
現在有了SLO和錯誤預算判斷標準,就有了明確的應對思路:如果預算充足就應該有所容忍不應該被投訴,也不應該高優先順序響應。
注意要點
基於錯誤預算的告警
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2993402/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 谷歌SRE與運維工作的思考谷歌運維
- 應用可靠性與效能不給力?HarmonyOS HiViewDFX瞭解一下View
- 斷點續傳瞭解一下啊?斷點
- Range/Content-Range與斷點續傳,瞭解一下?斷點
- 傳統IT硬體消失 雲端計算將走向定製化
- PIGOSS BSM 與“中國交通建設”攜手資訊化運維保障體系的建設Go運維
- 系統管理員與網站可靠性工程師(SRE)對比:區別在那兒?網站工程師
- 系統可靠性
- 雲端計算運維與傳統運維的探討運維
- 站點可靠性工程SRE與平臺工程比較
- 高效可靠安全的大檔案傳輸系統,瞭解一下!
- 軟體定義的“可靠性”到底可不可靠?信服雲的ECC機制瞭解一下
- 看世界盃直播?海外運維實踐瞭解一下運維
- 供水泵站組態監控與故障運維一體化系統運維
- RocketMQ的可靠性傳輸MQ
- 最佳站點可靠性工程SRE工具介紹 - thenewstack
- 雲原生時代的運維體系進化運維
- 智慧公交監控系統瞭解一下
- 資料系統的基石:可靠性、可擴充套件性和可維護性+資料儲存與檢索的模型套件模型
- SGA系統全域性區記憶體結構瞭解記憶體
- 體系結構、指令定址、對映關係、系統可靠性
- 《Google SRE 運維解密》讀書筆記Go運維解密筆記
- oracle資料庫系統運維的重要性Oracle資料庫運維
- SSL 1635——系統可靠性
- java系統可靠性測試設計與用例分析Java
- 立足信創國產化運維,打造安全可控IT運維管理系統運維
- 極限運算中的連續性原則
- SDN與傳統網路運維的區別-Elinkcloud運維Cloud
- 分散式儲存系統可靠性:系統量化估算分散式
- 二維碼太醜?用風格遷移生成個性二維碼瞭解一下
- 銀行業IT服務連續性體系規劃與災備自動化切換經驗行業
- 元件化開發瞭解一下?元件化
- 運維自動化之賬單系統運維
- win10系統本地連線乙太網禁用後消失瞭如何解決Win10
- 我所瞭解的Linux運維技術Linux運維
- 金融系統IT運維監控的探索與實踐運維
- 資料治理對運維資料體系的思考與啟發 | 運維進階運維
- 雲端計算運維與傳統運維工作有啥不同?需要什麼資質?運維