牛x的大甲方資訊系統為啥對自動化巡檢情有獨鍾

coreldraw2016發表於2017-07-17
   隨著智慧化的快速發展及資訊通訊技術的不斷創新,甲方企業資訊化運維工作的要求越來越高。如何保證資訊系統的安全穩定執行,及時發現和消除資訊系統隱患是對企業資訊系統運維人員的巨大挑戰。自動化巡檢的應用提升了資訊系統執行的可靠性,減輕了運維人員的工作壓力,對大型複雜資訊系統的工作模式具有重要示範意義。

  一、自動化巡檢的目標

  1、全面自動化巡檢

  對機房基礎環境裝置、網路裝置、主機裝置、資料庫及中介軟體系統等實現全面監控,形成完整的實時監控系統,自動收集各種監控指標,及時發現系統缺陷和故障,為不同角色的運維人員提供統一的工作平臺,對各種執行裝置巡檢實行量化、動態管理的現代化手段,促進資訊系統運維的科學化管理。

  2、全面綜合分析

  1)在全面監控的基礎上,建立資訊化建設和資訊化運維管理展現視窗,從整體業務角度,將各個管理物件有效組織起來,對每個運維環節可能出現的問題,及時發現,快速定位,提前發現潛在的風險。

  2)提供各種業務系統的執行狀態展現,讓運維人員和管理人員透過這些資料瞭解系統執行動態,透過建立科學的資料分析模型來提高系統在資料分併為資訊化建設規劃提供有效資料支撐。

  3)以運維部門日常管理為主線,根據巡檢器中記錄的資料對巡檢工作的完成情況進行管理,實現日常運維管理的資訊化,加強資訊系統運維管理的科學化、制度化,提高整體管理水平。

  二、自動化巡檢如何實現

  高度整合的易於擴充套件的標準化資訊系統自動巡檢平臺,可以對各種軟硬體裝置運維資料進行自動採集和分析,形成電子巡檢記錄,使資訊系統綜合執行質量得到有效提升。資訊系統正常執行所採用的技術方法和手段 ,涉及作業系統、叢集、網路、備份、中介軟體、數 據庫、應用系統、監控等相關的資訊科技,裝置狀態資訊採集工作的標準需要包括資訊採集的目標、範圍、原則和內容,明確資訊裝置狀態引數的基礎要素 。

  透過資訊系統自動巡檢平臺,可以將多種相關的功能整合在一個展現平臺上,使資訊系統自動巡檢平臺模組清,層次分明,各模組之間既相互獨立,又相互關聯,可以實現對被管裝置的集中監控和管理,透過 Web 方式對使用者進行集中展現。

  資訊系統的資料模型是在各種資料抽取的基礎上構建的,按照系統的資料管理需求和資料管理模式對系統後臺業務資料進行型別劃分和來源分析,透過建立科學的資料分析模型來提高系統在資料分析過程中的整體效率及資料可用性 。

  機房基礎環境透明化

  1)機房基礎環境包括機房溫度、溼度、精密空調狀態、UPS 電源、漏水、煙感、攝像頭、門禁等,資訊系統自動化巡檢平臺以三維立體方式,整合展現機房裝置物件,實時顯示各項關鍵引數,實現所見即所得的透明化管理。

  2)以機櫃為單位透過模擬方式,展現各種裝置在機房中的真實位置以及裝置實時執行狀況,並且可以透過點選裝置方式與裝置管理功能相關聯,實時檢視該裝置的背板、埠以及流量等。對於重要機房環境資料UPS、溫度、煙感等實時監測,如有異 常立即報警。

  資訊網路裝置統一集中管理及故障自動告警

  1)實現資訊網路裝置統一集中管理,主動對核心裝置的負載及故障情況進行實時監控,發現故障及時告警,並透過 IP 地址管理,配置實用的網路管理工具進行高效的核心網路管理,對資訊系統的核心裝置以及鏈路進行關鍵資料分析,為網路整體規劃提供科學的資料依據。

  2)自動發現、構建所有網路使用者的 IP、MAC、連線位置等實時資訊形成資訊網路拓撲圖,並提供基於該地址表的非法網路連線及使用監視告警,透過 IP/MAC 地址繫結,實時發現非法接入網路裝置及使用者私自更改 IP 地址的行為。透過在系統中設定不同的使用者,並賦予不同的許可權,管理者可以攔截與放行裝置,手動或者自動將非法裝置隔離出網路。

  硬體裝置統一集中管理及圖形化介面顯示

  1)實現企業全部資訊系統硬體裝置的統一集中管理,包括小型機伺服器、PC 伺服器、儲存裝置,可對不同作業系統的主機進行監控,如 AIX,Sun Solaris,Redhat Linux,Windows 等。

  2)透過一體化檢視的方式,同時以圖形化介面直觀地顯示出主機的系統和網路關聯資訊,技術上採用SSH2、SNMP 等多種協議。

  3)對於系統日誌,如小型機 ERRPT 系統錯誤日誌、審計日誌等採用原文字的方式傳輸到管理服 務器上,抽取關鍵字及相關資料等進行統計分析。

  4)抽取主機作業系統的執行狀態、關鍵程式、日誌資訊、負載情況等資訊,對主機裝置、儲存裝置硬體進行故障掃描並可以及時報警。如果主機空間、儲存裝置空間的使用超出閾值平臺可以及時報警,並對雙機環境的叢集執行狀態進行監測。

  資料庫及中介軟體系統執行狀態監控

  實現對多種型別資料庫系統進行自動巡檢管理,實時監控SQLServer,Oracle,Sybase,Mysql,DB2,Informix,SybaseIQ 等資料庫系統的執行狀態, 實時監控Weblogic,Domino,Tuxedo,WebSphere,Cognos,DSG,OGG 等中介軟體系統的執行狀態。

  運維指標抽取及偏離告警

  一般企業資訊系統執行要求有多項考核指標, 從資訊系統自動巡檢平臺裝置及軟體執行資料中抽取相應的資料,根據指標設定上下限閾值,在運維指標出現偏離前發出告警資訊,提醒管理人員和運維 人員分析指標偏離原因,及時採取運維措施,提高運維指標水平。

  高效率智慧自動巡檢及預警

  1)安全預警根據安全態勢的分析結果建立自適 應的閾值設定模型,實現危險狀態警報閾值的自適 應調整,並依據設定的閾值對系統的危險級別達到 一定程度的安全狀態進行預警,定期輸出安全態勢 評估報告,有效幫助相關領導掌控資訊系統自身和 外圍的安全態勢,準確、高效地進行安全決策。

  2)利用所有系統可自動採集的指標和物件,實現定時採集和自動判斷,並以最短15 s的巡檢頻率確保異常事件能被及時發現,不僅可以提供細化到某個應用程式某一列的值進行告警,而且支援更為先進的趨勢告警,準確地把握故障發生前的“異常”,真正做到“事前管理”。

  3)自動巡檢結果異常報警方式採用郵件、簡訊、 即時通軟體等多種形式,同時系統具有大屏視窗展 示功能,執行人員可以透過大屏視窗實時監控,及時 發現資訊系統執行動態問題。

  全網運維分析報表自動建立

  建立各種系統自動巡檢報告、缺陷故障報告、運 行分析報告和效能分析報告等,資訊運維人員和管理人員可以根據這些報告準確評估資訊系統整體運 行情況,及早發現故障隱患,為管理人員決策提供參 考依據。

  三、自動化巡檢應用效果

  1)較好的自動化巡檢平臺一般可具有50多種自動巡檢元件型別,近1000 多個巡檢指標,並且實現各類指標的閾值設定和故障告警,運維人員能在不同業務分析場下找到所涉及的關鍵指標,如主機程式、網路裝置埠流 量、資料庫及中介軟體執行狀態等。

  2)平臺以關鍵引數運轉圖方式,動態實時展現裝置及系統執行的關鍵引數,使運維人員能及時掌握各類裝置及系統的動態變化情況,並及時採取措施,避免產生裝置及資訊系統的執行風險。

      瞭解更多關於方面的內容或者工具,歡迎大家前往Service Hot進行了解。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31143585/viewspace-2142146/,如需轉載,請註明出處,否則將追究法律責任。

相關文章