運維必讀:避免故障、拒絕背鍋的六大原則!

IT職業頻道發表於2019-04-19

運維必讀:避免故障、拒絕背鍋的六大原則!

眾所周知,故障是運維人員永遠的痛!相信每一個運維人員的KPI中都有一項:可用性。

可用性高就是不出故障,各個公司對可用性和故障評級的標準都不相同,但是避免故障的方法卻是殊途同歸。

運維人員應該怎麼避免故障?下面簡單列舉了以下幾條:

01、變更要有回滾,在同樣的環境測試過

所有的變更都必須有回滾的辦法,在同樣的環境下測試過。沒有做過的東西,總是會在你意想不到的地方給你一次痛擊,多年運維經驗告訴我們,所有沒有做過的變更,出錯的機率最大。

所以我們需要給變更以回滾的可能,在各個步驟可能出錯的情況下,考慮回滾到最初狀態。優秀的運維人員對不考慮回滾的的操作都是敬而遠之的。從某種意義上來說,運維是一門經驗的學科,是一門試錯的學科。

02、對破壞性的操作謹慎小心

破壞性的操作有哪些列?對資料庫來說有:DROP Table,Drop database,truncate table,delete all data;這些操作做完了以後幾乎無法考慮怎麼把資料都回滾回去了。就算回滾,代價也是非常大的。你執行這樣的語句非常簡單,但是回滾恢復資料缺非常困難。這些操作時就要更加謹慎了。

03、設定好命令提示

讓你時刻知道你在操作哪個資料庫,讓你知道你在哪個目錄下。開多個標籤頁的話,如果每個標籤頁的標題上內容一樣,我們切來切去就有可能在錯誤的標籤頁上做操作,設定了這個以後,這個問題機率就會小很多。


04、備份並驗證備份有效性

是人總會出錯,是機器總可能會有突然崩潰的那一天,怎麼辦?我們需要準備備份。備份有了,是否就可以高枕無憂了?還是不行。你需要驗證備份的有效性。沒有一個備份能夠保證它備份出來的資料能夠100%恢復出正確的資料。所以,備份並不只是備份,它還包括備份的驗證,它如果不能恢復出正確的資料,就只是浪費空間而已。


05、交接和休假最容出故障變更,請謹慎

這個是經驗之談。我們在總結故障的情況時,發現在公司部門有變化時,工作交接,故障的出現頻率會比正常情況下多50%以上。有人說,這是因為機器或者應用是有感情的,捨不得離開的運維者。

我們不談感情,簡單的理性分析一下。公司或者部門難免會做一些調整,變化是世界上唯一不變的事情。而運維人員是一線做事情的人,部門調整或者領導的更換可能導致工作的著重點不同,做事的方式和評測的標準變了,適應過程中難免會出現一些考慮不周到的地方,出故障也是情理之中了。

所以,運維部門和運維人員對變化需要儘量放平心態;接手別人的工作要一而再,再而三的確認變更方案。請教人並不見得就是能力不行的表現;休假前最好各種可以做好的事情,最好能夠準備一份文件,指明在什麼情況下怎麼做和聯絡哪些人。在別人放假的時候接手工作,“能拖則拖”,實在需要執行:必須不厭其煩的跟原運維者確認各個操作細節。


06、搭建報警,及時獲得出錯資訊

搭建效能監控,瞭解歷史,獲得趨勢,預測未來。運維的最高境界不是故障來了,泰山崩於前而不驚,而是沒有故障,讓故障消失在萌芽之中。請給那些默默無聞,每天想著我們的系統還存在哪些隱患,怎麼解決,怎麼及早發現的運維人員鼓掌。他們是最可愛的人。而他們賴以生存的工具就是報警和監控。Oracle發展了這麼多年,awr和相關的效能引數都相對比較全;MySQL現在也已經迎頭趕上,配套的工具越來越多。

報警可以讓你及時知道系統出現了什麼異常。效能監控可以讓你瞭解系統的歷史效能資訊。分析故障發生時的各種現象,確認故障的真正原因;瞭解變化趨勢,發現故障的苗頭,及早最佳化和調整。報警和效能監控其實不不完全獨立的,很多效能的監控項也可以報警出來。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545820/viewspace-2641894/,如需轉載,請註明出處,否則將追究法律責任。

相關文章