某資料中心IT運維服務體系建設完整思路

天府雲創發表於2017-08-02

某銀行省級資料中心 IT 運維服務體系建設,應包含運維服務制度、流程、組織、隊伍、技術、安全和物件等方面的內容。同時結合某銀行的業務特色,整合運維服務資源,規範運維行為,確保服務質效,形成統一管理、集約高效的一體化運維體系, 從而保障某銀行資料集中條件下網路和應用系統安全、 穩定、高效、持續執行。

一、運維服務體系建設原則

運維服務體系建設的原則有以下幾個方面。

一是以完善的運維服務制度、流程為基礎。為保障執行維護工作的質量和效率,應制定相對完善、切實可行的執行維護管理制度和規範,確定各項運維活動的標準流程和相關崗位設定等, 使運維人員在制度和流程的規範和約束下協同操作。

二是以先進、成熟的運維管理平臺為手段。通過建立統一、整合、開放並可擴充套件的運維管理平臺,實現對各類運維事件的全面採集、及時處理與合理分析,實現執行維護工作的智慧化和高效率。

三是以高素質的運維服務隊伍為保障。 運維服務的順利實施離不開高素質的運維服務人員,因此必須不斷提高運維服務隊伍的專業化水平,才能有效利用技術手段和工具,做好各項運維工作。

二、運維服務體系的總體架構

運維服務體系由運維服務制度、運維服務流程、運維服務組織、運維服務隊伍、運維技術服務平臺以及執行維護物件六部分組成,涉及制度、人、技術、物件四類因素,其總體架構如圖 1 所示。制度是規範運維管理工作的基本保障,也是流程建立的基礎。運維服務組織中的相關人員遵照制度要求和標準化的流程,採用先進的運維管理平臺對各類運維物件進行規範化的執行管理和技術操作。

1. 運維服務制度和流程

為確保運維服務工作正常、有序、高效、協調地進行,需要根據管理內容和要求制定一系列管理制度,覆蓋各類運維物件,包括從投產管理、日常運維管理到下線管理以及應急處理的各個方面。此外,為實現運維服務工作流程的規範化和標準化,還需要制定流程規範,確定各流程中的崗位設定、職責分工以及流執行過程中的相關約束。

2. 運維服務組織和隊伍

某銀行科技部門根據其運維服務工作的內容和流程確定各項工作中的崗位設定和職責分工, 並按照相應崗位的要求配備所需不同專業、 不同層次的人員,組成專業分工下高效協作的運維隊伍。 分行科技處負責資料省級集中處理的應用系統和本機構開發的應用系統部署和執行維護,承擔轄內網路的執行管理。轄內各中支和支行科技人員承擔本行系統執行維護和故障處理。

3. 運維服務工作流程

為保障執行維護體系的高效、協調執行,應依據管理環節、管理內容、管理要求制定統一的執行維護工作流程,實現執行維護工作的標準化、規範化。其環節包括事件管理、問題管理、變更管理和配置管理。

4. 運維技術服務平臺

運維技術服務平臺包含實施執行維護和技術服務的各種手段和工具,通過技術手段固化標準化的流程、積累和管理運維知識並開展主動性運維工作。

三、運維的範圍

1. 全國集中的核心應用系統

全國集中的核心應用系統的運維由總行負責, 分行中心負責業務諮詢工作和向總行反饋使用情況等。

2. 分行部署的核心應用系統

分行部署的核心應用系統的運維由分行中心負責, 分行中心負責技術性維護,業務維護由分行業務部門負責。

3. 分行自建系統

分行自建系統可以分為以下三類:

(1)全轄使用,這類系統的運維由分行中心負責,分行中心負責技術性維護,業務維護由各分行業務部門自行負責;

(2)省內使用,這類系統的運維由分行中心負責,分行中心負責技術性維護,業務維護由分行業務部門自行負責;

(3)分行機關使用,這類系統的運維由分行中心全面負責。

四、運維服務體系建設的內容

1. 運維管理制度建設

總結現有的運維管理經驗,遵照國內外相關運維標準,結合目前的實際情況,統一制定運維管理制度和規範。通過定期和不定期的檢查,促進各項制度規範在分行資料中心的貫徹落實,從而建立起全轄統一、規範的執行維護管理工作方式。同時,隨著某銀行資訊化建設的不斷髮展,也要確保各項制度的及時更新。制度體系內容要涵蓋機房管理、網路管理、資產管理、主機和應用管理、儲存和備份管理、技術服務管理、安全管理、文件管理以及人員管理等類別。各類制度具體內容因需要而定,如網路管理制度需覆蓋網路的接入管理、使用者管理、配置管理及網路日常執行管理和應急處理等。 安全管理制度需覆蓋包括機房設施、 網路、主機、資料庫、中介軟體、應用軟體、資料資訊的安全管理、其他機密資源和人員的安全管理以及安全事件的應急處理等。

2. 運維技術服務平臺

運維技術服務平臺由運維事件響應中心、運維管理系統、運維知識庫和運維輔助分析系統構成(如圖 2 所示)。平臺採用分行級、中支級分散式管理模式,在分行科技處和各中支分別部署。

(1 )整合分行 IT  監控平臺

將分行級資料中心的監控資料交換到運維事件響應中心、運維流程管理系統、運維知識庫、運維輔助分析系統,支撐運維體系。

分行級中心向總行中心傳送的資訊包括:網路管理、主機管理、資料庫管理、儲存備份管理、 中介軟體管理、 應用系統管理的相關資訊, 報表系統產生的裝置資產、執行效能和執行事件報表,事件告警機制產生的關聯和上報資訊;省級中心和地市中心支行之間傳送的管理資訊為網路管理資訊。

(2 )運維事件響應中心

負責客戶端執行和應用系統問題的接收及轉發的部門是各級科技部門。 問題接收分為網路響應和電話響應兩種方式,對於響應人員無法當場解決的問題,轉發到運維部門的相應崗位,並向使用者反饋解決情況。對於分行級資料中心運維難以解決的問題,上報總行並配合總行進行問題的解決。同時,實現問題庫的維護、解決情況的反饋、解決方案的查詢等功能。

(3 )運維服務管理系統

運維流程管理系統的建立,可以使日常的運維工作有序化,職責角色清晰化,能夠有效地提高解決問題的速度和質量,使運維部門內的相關支援資訊更為暢通、透明、完整,實現知識的積累和管理,更好地進行量化管理和設定優化指標,進行持續地服務改進,最終提高整個運維工作的效率和質量。

(4 )運維知識庫建設

知識庫建設是某銀行資訊系統運維體系的重要組成部分, 基於統一的技術支援平臺,通過整合總行、分行資料中心、合作單位和協作廠商的技術資源和解決方案,實現對全行有效的技術支援工作。

執行維護知識庫由知識庫平臺和知識庫內容兩部分組成。 知識庫平臺包括知識檢索、知識維護與管理等,可以通過純 Web 方式向服務請求物件提供基於 Web的查詢服務和檢索服務,以完全共享知識庫中的知識,在提供 Web 服務時,還可通過響應中心平臺來即時地響應使用者請求的服務。

(5 )運維輔助分析系統

以日常監控平臺、運維響應中心、運維流程管理系統為基礎,通過統計分析,瞭解運維服務能力與服務質量的現狀,並可以進行趨勢分析,為運維管理決策提供支援。

3. 執行維護管理流程

為加強對資訊系統的執行維護管理,確保執行維護體系高效、協調執行,應依據運維管理環節、管理內容、管理要求制定統一的執行維護工作流程,實現執行維護工作的標準化、規範化和自動化。通過建立運維管理流程,可以使日常的運維工作流程化,職責角色更加清晰,從而使解決問題的速度和質量得到有效提高,實現知識積累和知識管理,並可以幫助運維部門進行持續的服務改進,提高服務物件的滿意度。執行維護流程包含的環節有事件管理、問題管理、變更管理及配置管理。

(1 )事件管理

所謂事件, 是指發生的對 IT 體系某一環節執行造成影響的事件, 包括系統崩潰、軟體故障、任何影響使用者業務操作和系統正常運作的故障、以及影響業務流程的情況,事件也包括一個使用者的請求。

對日常性運維工作中出現的突發事件 (即日常執行維護管理平臺自動發現併產生的告警事件)和由使用者/維護人員報告的事件會轉入事件管理流程,事件管理流程如圖 3 所示。

(2 )問題管理

問題是指導致事件產生的原因,許多事件往往是由同一個問題引起的。問題的來源主要有以下幾種:

①已經處理的事件,經過回顧分析後,可能形成一個問題;

②重大事件, 雖然經過緊急處理恢復服務, 但未找到根本原因, 也形成一個問題;

③對於趨勢性事件的分析,並形成問題。

問題管理流程可以按照不同領域的問題(如網路、主機、中介軟體、資料庫、應用等)由相關領域的技術支援專家來處理。原則上這些專家可以是二線支援專家,他們在負責接受來自一線支援人員的支援請求的同時, 也負責對以往事件進行分析,找出事件產生的根本原因,從而確定解決方案,消除這些根本原因,最終使此類事件不再發生;另一方面,也要從發生的事件中找出事件的發展趨勢或潛在可能發生的問題,主動提供預防性措施,提高系統可靠性,降低運維成本。

問題管理流程著重於消除事件或減少事件發生,確定事件的根本原因,其流程如下:首先,定期分析事件,找出潛在問題,調查問題以找出其原因,制定解決方案、變通方法或提出預防性措施,以消除產生原因,或在重發時使其影響力最小化。其次,記錄解決方案、變通方法、預防性措施,根據需要新增到知識庫中。再次,提出變更請求,對問題的解決方案進行評估,通過提出變更請求以對該方案進行測試和實施。最後,問題必須進行事後回顧以找出改進機會或總結預防性措施,包括改進事件監測、找出技能差距和文件資料改進等。

(3 )變更管理

變更請求通常由於問題的解決方案中需要對生產環境進行某些改變而產生, 變更請求來源於問題管理環節或由使用者提交。 變更管理通過一個單一的職能流程來控制和管理整個資訊系統執行環境中的一切變更,範圍可包括軟體,硬體,網路裝置和文件等的變更,其流程如下。

①由使用者或問題管理環節的維護人員提出變更申請, 由運維負責人檢查和完善其內容,並進行風險等級、優先順序的初步評估。

②通過分類,確定是否為重大變更、緊急變更,如果是常規變更請求,則由運維負責人安排實施; 如果是風險等級為“重大”的變更請求, 則應上報變更管理小組。

③根據特定的變更請求成立特定的變更管理小組, 成員包括對該變更申請有批准權的人員、對該變更的評估和批准提供參考意見的技術人員和管理人員。評估內容包括變更的技術可行性、對系統效能的影響、對現有服務的影響、對資源的需求等。

④變更管理小組評估後決定是否批准變更申請。變更請求得到批准後,運維負責人安排相應資源進行變更的計劃、測試,並制定實施方案,確定實施時間表,分配相應資源,通知請求人。

⑤相應崗位實施變更,運維負責人監視實施過程,並在必要時進行協調。

⑥定期回顧變更管理流程以提高效率和效能,在實施變更流程不久之後,可以進行第一次回顧,以確保流程得到正確實施並達到預期目的。對發現的問題必須追根溯源並儘快解決,之後可以定期舉行回顧。

(4 )配置管理

配置管理是服務管理的一個核心流程,能確保應用系統及其執行環境中所有 IT裝置/系統及其配置資訊得到有效完整的記錄和維護, 包括各 IT 裝置/系統之間的物理和邏輯關係,從而為實現有效服務管理奠定基礎。

配置管理流程著重於管理生產環境中所有必須控制的組成元素, 併為其他相關流程(如事件管理等)提供資訊,使這些流程更有效地執行,從而確保應用系統環境的完整性和穩定性,其主要流程內容如下。

①識別和維護配置元素:確定需要進行配置管理的元素及所有必需的配置屬性,並指明與生產環境中其他配置元素之間的關係。 對配置管理資料庫提供日常維護。

②配置狀態彙總:根據需要定期產生配置管理報表,並能使相關人員進行相關配置的提取、查詢,定期產生配置項的狀態報告,並能反映配置項的版本和變動歷史。

③審計和確認:定期稽核全部或部分配置資料庫中的配置項,確認其和物理環境的一致性,從而確保配置資訊的完整性。

④計劃、回顧和改進:定期制定計劃(如半年),以明確下階段配置管理工作;定期回顧流程和稽核結果,找出需要改進的配置項。

⑤配置管理資料庫(CMDB):配置管理資料庫由配置識別活動來定義,配置識別活動不但要定義配置項,還需定義配置結構及配置項的相互關係。

4. 運維專案管理流程

專案管理模組主要管理 IT 專案整個生命週期從立項準備、立項、採購、實施、驗收、 收尾各個階段的任務和參與人。從功能上理解專案管理類似於釋出管理流程, 即總行部署的應用系統分行僅需要展開實施和驗收工作即可,而分行自建專案是一個完整的專案管理流程。

(1)系統開發。開發管理流程需要進一步完善和標準化,特別是文件管理、測試和版本管理方面需加強。同時,加強開發計劃管理,在《開發專案管理規範》中明確要求:根據立項內容進行系統、全面的需求調研,提出短期和長期的開發計劃,並編寫需求分析報告。根據需求分析報告對系統進行可行性分析,包括經濟可行性分析、技術可行性分析和操作可行性分析三個方面,並在此基礎上編寫可行性報告。 根據需求分析報告進行系統設計, 同時根據系統設計進行系統實施。

(2) 系統測試。 首先, 應制定出詳細的測試計劃和方案及測試資料和測試案例,並形成測試大綱。 其次, 根據測試大綱對系統反覆進行測試並做詳細的測試記錄。為確保系統的正確無誤,應對系統進行實地試執行,試執行應選擇多個環境且需求比較複雜的機構進行, 應比照設計方案對新應用軟體系統的功能和效能進行徹底測試和考核,並形成量化的執行報告。

(3) 外部資源管理。 外部資源的合理利用是推動分行資訊科技的發展重要因素,分行的外部資源主要包括裝置供應商、軟體供應商等。

5. 運維知識庫系統

運維知識經驗的總結、維護和共享是提高員工運維技能水平、增強單位凝聚力的重要手段,也是把寶貴的經驗教訓從支援人員頭腦逐步沉澱、固化的重要方式。知識維護既要鼓勵員工積極提交知識,防止知識庫變成“空庫”;同時又要及時進行稽核和維護,防止知識庫變為“垃圾庫”。

(1)知識來源主要有以下幾個方面:一是各級運維支援人員日常工作中積累的經驗;二是知識管理員總結、匯入的經驗。知識管理員研究、獲取外部的知識和經驗後,定期或隨時整理這些知識,匯入到知識庫中,供所有使用者共享。知識的獲取、維護是資訊網路管理員的重要職責之一。

(2)知識提交稽核。各個系統管理員提交知識到知識庫之後,需要經過知識管理員的審查、修正,才變為正式釋出狀態,以減少知識中的謬誤和差錯。知識管理員定期(每季度一次)檢查所有的正式知識,逐條進行核實、修正和優化。修正和維護操作與稽核新提交知識草案過程相同。

(3)知識檢索和使用。在知識變為正式的釋出狀態之後,可以供各類使用者隨時檢索引用。使用者可以研究學習這些知識,也可以在解決問題的過程中有目的地檢索。 知識記錄維護使用者閱讀次數和使用者引用解決問題次數的計數器,引用和閱讀次數越多,該知識的價值越大。

6. 執行維護隊伍建設

(1)隊伍組建。針對目前資訊系統 IT 資源現狀以及對技術支援的需求,組成各類別維護人員的專家隊伍,集中的開展執行維護工作。

(2)人員管理。對各級執行維護人員尤其是高階執行維護人員的管理,應制定一套切實可行的管理辦法,包括人員配置、職責劃分、人才庫建立、人員培訓、人員考核、人員待遇等。通過科學的管理辦法和有效的激勵機制,充分調動各級執行維護人員的工作積極性和責任心,為做好資訊系統執行維護工作打好基礎。

7. 執行維護制度建立

為確保執行維護工作正常、有序、高效地進行,必須針對執行維護的管理流程和內容,制定相應的執行維護管理制度,實現各項工作的規範化管理。執行維護管理制度可分為以下幾個方面。

(1)網路管理制度:包括網路的准入管理制度、網路的配置管理制度、網路的執行/監控管理制度等。

(2)系統和應用管理制度:包括對主機、資料庫、中介軟體、應用系統的配置管理制度、執行/監控管理制度、資料管理制度等。

(3)安全管理制度:包括網路、主機、資料庫、中介軟體、應用軟體、資料的安全管理制度及安全事故應急處理制度。

(4)儲存備份管理制度:包括備份資料的管理制度和備份裝置的管理制度。

(5)故障管理制度:包括對故障處理過程的管理制度、故障處理流程的變更管理制度、故障資訊利用的管理制度及重大故障的應急管理制度等。

(6)技術支援工具管理制度:包括對日常執行維護平臺、響應中心、運維流程管理平臺、執行維護知識庫、運維輔助分析系統等的使用、維護的有關制度。

(7)人員管理制度:包括對執行維護人員的能級管理制度、獎懲制度、考核制度、某銀行系統外部人力資源使用的管理制度等。

(8)質量考核制度:制定相關制度,對以上各類制度的執行情況進行考核。隨著整個資訊化應用內容的不斷髮展, 一些舊的執行管理制度勢必不能適應新發展的要求,必須進行不斷的改進,並制定相適應的新的管理制度,逐步完善管理機制。

相關文章