運維標準化與流程化建設深度指南(轉)

昀溪發表於2018-08-18

當下企業很多都熱衷於建設運維自動化、智慧化,透過技術革新代替繁雜的手工運維,提高生產效率的同時最大程度的減少人為失誤。但是如何建設自動化運維,在不同的企業有著不同的建設方法和技術棧,雖然大多是以Python為主。一般說來,企業的運維發展由起步到成熟,大致要經過三個大階段:運維無序化、運維標準化和流程化、運維自動化。

運維無序化主要表現在運維工作無規範統一,更多是團隊成員依賴自身技術各自為戰,著重於眼前運維工作,過多處於被迫接受和疲憊應付工作的狀態。運維無序階段提升工作效率主要依賴加人和加班,而且此階段運維工作效率低下,人為失誤較多,故障排除難度較大。長時間的運維無序化,對內團隊成員極度疲憊和不自信,對外主要表現為不再被各業務部門和其他IT兄弟團隊所信任。一般創業初期的IT運維處於無序化較多,如何解決結束無序化的苦惱,解放生產力呢?答案更多被提及的是運維自動化。然而面對眾說紛紜的運維自動化平臺,如何結合自身條件進行落地實現呢?答案很多,有購買商業產品(價格真的不便宜),有自主研發,結合本人推行運維自動化的實際經驗提醒各位,不管哪種方式,運維標準化和流程化一定是首先要做的,否則運維自動化只能是空中樓閣,欲求不得。

什麼是運維標準化和流程化呢?如果非要給出定義的話,那麼我的定義是兩個字:文件。

運維的標準化和流程化首先要以文件的形式進行展示,並且能夠指導日常運維工作。國有國法,家有家規,冰箱洗衣機都有說明書,運維標準化流程化就是運維工作的國法家規,運維工作如何進行的說明書。相比開發、測試等其他崗位,運維工作直面生產環境,每一步運維操作與生產系統能否正常執行息息相關,稍有不慎就易產生生產事故。並且運維自動化的落地實施也是要基於運維的標準化和流程化,所以作為運維管理的第一步,不可忽略。

標準化和流程化的建設思路一般是包括三大部分:日常工作梳理、標準化和流程化制定、日常工作標準化和流程化執行。

一、運維工作梳理

 運維工作相對比較繁雜,結合實際運維工作,不同的公司又不同的劃分方法,以某公司為例,大致分為資料中心(DC)運維、IT資源運維、服務運維、事件管理四個部分。 

 

  • 資料中心運維主要因為有自建IDC機房和部分託管在其他IDC機房的伺服器,所以日常運維工作中有關於資料中心相關的工作,例如資料中心的設計和建設工作,資料中心日常巡檢,資料中心許可權管理、備件梳理管理、裝置上下架等管理。如果是部署在雲端的企業,對於資料中心的運維工作會少一些。
  • IT資源運維主要是指計算、儲存、網路和安全四大基礎資源的運維工作。計算資源包括物理伺服器的管理,如開關機、配置修改、資源增加等;儲存資源管理一般包括自建分部署儲存、商業儲存、NAS等相關儲存資源的賬戶許可權管理、容量管理、監控等;網路資源運維管理工作主要包括網路許可權管理、裝置配置變更等等;安全資源運維管理主要日常與安全相關的規章制度和策略以及安全裝置具體操作等。IT資源運維工作涉及日常運維工作基礎資源,是整個運維工作的重點,基礎資源的保障好壞,關係著上層應用服務的健康執行情況。
  •  系統運維的日常大多是與服務運維相關。運維服務部署(如:Nginx部署、JDK、Tomcat的部署等)、服務的配置變更和服務釋出、服務變更等。服務運維設計的標準和規範指導日常服務運維工作的進行,並且為自動化運維做鋪墊,這要求在日常運維工作中,對於重複的手工運維工作儘量透過指令碼或是其他變成語言實現自動化。
  • 事件管理針對日常運維工作中出現的運維事件進行處理指導和提出管理方案。主要包括對事件進行分類、事件處理流程、如何彙報事件以及事件的總結等。

透過對日常運維工作所涉及的內容進行分類整理,並且加工提煉最後形成運維的標準和規範,將一些流程化的工作進行固化,並且逐步實現運維自動化,提高運維效率。

二、運維標準化流程化文件

透過上一節對運維工作進行梳理,接下來進行運維標準護額和流程化文件的提煉。當然所做這一切都是基於公司自身的實際情況進行,切勿脫離實際,直接摘抄。另外一點,在制定運維標準流程之前,必須制定好文件編寫得規範和標準,這樣整體的規範流程文件的風格統一整齊。一般來講,文件要儘量簡潔,設計流程相關要圖文並茂,著重對流程圖的流程說明和關鍵點備註。

資料中心運維標準化和流程化

首先是資料中心運維相關標準流程規範。資料中心的建立在國內網以及不同行業都有相對比較同意的規範標準可供參考設定。一般對於自建資料中心的企業,對於資料中心的標準建立參考遵循國際標準、國家標準和行業規定即可。如《GB50174-2017 資料中心設計規範》、《GB 50462-2015 資料中心基礎設施施工及驗收規範》、TIA-942 標準等。建立完成之後,還涉及到日常運維巡檢流程、對資料中心的備件管理中的備件申請流程、資料中心故障處理流程及其資料中心日常管理規範等。

 

一級類目

二級類目

標準規範名稱

備註

資料中心運維

 

資料中心設計標準規範

國家標準、國際標準、行業標準等

 

資料中心巡檢流程

 
 

資料中心備件申請流程

 
 

資料中心故障處理流程

 
 

資料中心管理規範

 

 

IT資源運維標準化和流程化

IT資源運維主要對涵蓋系統基礎設施的計算、儲存、網路、安全四個基礎部分的運維其中著重偏向於硬體以及硬體配置相關運維工作。這其中涉及的規範和流程如下:

 

一級類目

二級類目

標準規範名稱

備註

IT資源運維

計算資源

物理伺服器申請流程

申請、評估、稽核、採購、驗收

物理伺服器上架流程

佈線、上架、安裝作業系統

作業系統安裝標準規範

 

物理伺服器配置變更流程

申請、評估、稽核、變更

物理伺服器到期處理流程

自動觸發申請、評估、遷移、驗證、進入報廢流程

物理伺服器報廢流程

申請、驗證、稽核、利舊建議、關機、進入下架流程

物理伺服器下架流程

關機後15日、斷電、下架、利舊、銷燬

虛擬機器/容器化申請流程

 

虛擬機器/容器安裝標準規範

 

虛擬機器/容器配置變更流程

 

虛擬機器/容器刪除流程

 

網路資源

網路裝置申請流程

 

網路裝置上架流程

 

網路配置變更流程

 

網路裝置報廢流程

 

網路裝置下架流程

 

安全資源

安全裝置申請流程

 

安全裝置上架流程

 

安全裝置配置變更流程

配置升級、擴容、埠開通、訪問控制、策略修改

安全裝置報廢流程

 

安全裝置下架流程

 

儲存資源

儲存裝置申請流程

 

儲存裝置上架流程

 

儲存裝置配置變更流程

包括硬碟新增、更換,容量擴容

儲存裝置報廢流程

 

儲存裝置下架流程

 

 

服務運維標準化和流程化

對於日常運維服務相關的標準化和流程化主要是標準化部署、配置以及流程化的處理如釋出、變更等,這其中還包括資料庫的資料處理流程、生產賬號管理流程、以及備份和監控的標準規範等。

 

一級類目

二級類目

標準規範名稱

備註

服務運維

 

運維服務申請流程

 

Nginx安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼(包括高可用和負載均衡叢集部署)

Haproxy安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼(包括高可用和負載均衡叢集部署)

Apache安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼(包括高可用和負載均衡叢集部署)

JDK安裝標準規範

適合只部署JDK的情況,如果申請Tomcat等依賴JDK的應用,不需要單獨申請JDK安全

Tomcat安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼

Weblogic安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼

MQ安全標準規範

ActiveMQ、RabbitMQ 安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼

Redis安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼

MongoDB安裝標準規範

安裝、最佳化配置、安全加固、備份、監控、日誌備份=>指令碼

大資料平臺安裝部署標準規範

大資料生態圈元件安裝標準規範

Oracle安裝標準規範

單機、DG、RAC、OGG同步

Mysql安全標準規範

單機、主備、MHA、DB中介軟體

運維服務釋出流程

 

運維服務變更流程

 

運維服務刪除流程

 

資料手工處理流程

 

資訊風險源管理流程

 

生產系統測試賬號管理流程

 

生產系統管理賬戶管理流程

 

備份管理規範

備份物件、備份時間、備份頻次、備份耗時、備份驗證、備份監控

監控管理規範

 

 

事件管理標準化和流程化

針對日常運維過程中出現的事件進行規範化和流程化管理與指導,使工程師在處理運維事件的時候有章可循,以達到事件通知上通下達、規範化處理、快速高效處理的目的。

 

一級類目

二級類目

標準規範名稱

備註

事件管理

 

運維事件分類規範

 

運維事件處理流程

故障處理、安全事件處理

運維事件通報流程

 

運維事件處理規範

 

重保運維管理規範

 

 

三、標準流程化執行落地

透過運維工作梳理,進行運維標準化、流程化文件的編寫之後,接下來就是最重要的落地執行。有了規範標準和流程,那麼在日常運維工作中就不應該出現隨心所欲、按照自己習慣進行運維工作的現象。

其實在標準化和流程化落地的初始階段,往往會給工程師帶來各種不方便和諸多不適應。典型的例子如下:標準化、流程化給工程師帶來的感覺是事情變得複雜繁瑣,自己的手腳被束縛,本來很簡單的一個事情,幾條命令幾秒鐘就可以搞定,但在執行標準化和流程化之後,變得需要涉及多人或崗位,同時也需要幾十分鐘甚至幾個小時才能搞定,而最後實際操作的可能也就一開始的那幾條命令。這是標準化初期的普遍現象,對於出現這種問題要積極溝通解決,讓工程師們儘快度過這種看似繁瑣、效率低下的初期階段。解決方法有三:

  • 首先是對工程師以及流程干係人進行標準化和流程化意義的普及。讓大家瞭解知道進行標準化和流程化的意義,標準和流程得進行運維工作,可以大大減少人為失誤,同時讓大家在同一標準下工作,減少交流成本,相互之間的配合也會更加緊密。團隊協作流程化處理問題最大程度的減少相互之間的影響。最後,標準化和流程化是最運維自動化最基礎準備。
  • 加快運維自動化的建立。儘快將固化的標準和流程進行自動化的編碼開發,大大減少人為操作,提高運維效率,這樣運維工程師的日常工作因為大大減少人工操作,較以往會更加輕鬆。
  • 最佳化標準化和流程化。標準化和流程化的制定是基於實際的日常運維工作的,在實際執行過程中,應該根據實際情況,進行不斷的最佳化調整,以達到最優。

透過以上三步,減少工程師在執行運維標準化、流程化的煩惱,讓大家積極參與進來,推動標準和流程的實施,以快速實現運維的自動化。

標準化和流程化的落地,往往還會伴隨著對已存在的系統部署方式進行遷移至標準化的操作。這其實要求我們在執行標準化和流程化以後的所有運維操作完全按照運維的標準和流程進行,對於執行以前的運維工作要進行遷移,目的是要實現所有系統和運維的標準、流程化。對於遷移,一般比較好的方案是:首先保留已存在非標準化系統,同時搭建標準化環境,進行已存在系統的部署並進行測試,測試無誤後,與已存在非標準化系統並行執行,同時提供對外服務一段時間後,在評估,最後將已存在非標準化系統進行下線,以達到系統平滑得由非標準化遷移至標準化的目的。 

四、總結

標準化和流程化作為運維管理體系的基石和運維自動化的第一步,在進行運維管理工作中必不可少,而且要實現徹底的標準統一。在進行落地的過程中,要適當的與運維自動化並行,加快自動化的腳步,只有這樣才能最大程度的減少人為失誤,減少人力成本,提高運維的效率和質量。

本文轉自

相關文章