IT運維淺見

thinkpada31p發表於2012-07-06

  一.大家來談談自己在IT運維中所遇見的倒黴事;

       半夜遇到公司的伺服器或是電腦故障,,然後遠端登陸也無法處理,叫車去公司,突然它自己好用了!

    有一臺LAMPP的伺服器在託管機房,不定期的dns就掛掉了,1年就那麼幾次,只能重新啟動network服務和httpd服務,最近那一次過五一時候還在外地玩呢,接到電話簡訊,
 幸好帶著ipad,找個無線訊號,遠端登陸處理一下。


  
 二.說說自己分析公司運維中遇見的問題;

   隨著集團各種應用擴大及業務部門對於IT服務要求提高

 我們現有的IT維護方式不能達到業務部門的需求,目前主要存在以下幾個實質問題:

    1.處理問題和答覆的及時性不夠,。
     2.因服務質量問題而轉發收到業務部門的投訴。
           3.缺乏運維問題的統計資訊,沒有統一的服務檯,電話/手工記錄。
        4.不能度量運維管理績效。
           5.  監控工具拓撲展現差,監控和流程沒有整合 。   


     通過如上分析,缺乏有效的故障預警機制、缺乏快速有效的故障分析處理方式、沒有清晰的業務服務影響模型、缺乏IT運維管理流程的支援。
      這些最多的問題,我們小組通過幾次電話會議及彙總資料進行一次分析。

   IT系統運維中的具體困難點


 1         出現故障後處理流程不清晰。
 2        看到IT運維的實際效果難,低水平的一些管理人員使用IT系統有困難。
 3.        各資料多而雜,變成運維決策資訊比較難。
 4.        IT運維過程中缺乏必需的培訓、知識轉移難,關鍵人員離職,找錯會變異常的困難。
 5.        各種系統沒有得到監控和預警,處理問題時期都是忙於救火。


 在2011年末的時候,我們在公司內部實施了IT運維管理簡易平臺,採用一個開源軟體,基於linux+mysql+php的架構,自己修改一一些欄位和流程,把人員、運維、流程都包含進去。伺服器監控方面: 目前使用Nagios 軟體監控各種網路服務。
 今年計劃把實時web網路監控和裝置配置變更融入運維繫統,當然希望公司預算增加套專業IT運維軟體來集中管理雲端計算伺服器、儲存裝置和網路等基礎架構。

 三:採用雲端計算對於IT運維的幫助。

     雲端計算緊密依託穩定的網路基礎,這點是讓IT運維人員最頭疼的,
     如果一旦有網路問題,這些雲啊,雨啊,都不行了。

 

     比如我們現在生產和研發部門是集團級別虛擬桌面來辦公做分散式的計算,
 (主要考慮安全性和實時的溝通)
    這個私有云的應用如果網路不通,就不能及時的做公司各種研發業務。
    這個應用使得研發部門的網路保障變得最高優先順序別。

 

 

 目前刀鋒伺服器上面虛擬3個系統+EMC儲存擴容,是我們2010年的一個新增裝置,出發點是減少功耗,減少運維負擔,可以根據系統實際的需求重新系統的配置。


 郵件,OA,ERP,研發等關鍵業務都已經移植到了雲端計算的平臺,實現了資料大集中,將來會逐漸的各分支公司網路基礎,IT都外包出去。管理軟體和硬體的傳統IT角色在新的雲環境世界將不再需要。

 

 

 

 

 我們的雲端計算時代改善之一

 統一運維Portal(門戶),設定公司運維管理服務平臺,這個平臺提供公司各IT服務的基礎(軟體硬體):

 1.        對於IT系統進行整體監控,事前分析、執行監控、事後恢復。
 2.        協調IT部門不同團隊(例如,不同廠家的儲存裝置,不同應用模組,各系統等團隊)緊密配合、順暢運轉。
 3.        支援IT和ERP知識庫、FAQ,積累運維經驗,降低解決大量重複問題的成本。
 4.        能夠對各種服務進行準確的KPI考核。
 5.        對各種業務需求、執行事故進行分類統計。

 改善之二,ITIL運維流程管理                    

       創業艱難,守成也不易。只有IT系統永續執行才能向使用者有效地證明IT的價值。
 1.        快速響應客戶服務申請及故障的定位和排除,提高IT服務的可用性和客戶滿意度。
 2.        那問題管理就是要達到“治本”的效果。問題管理是要找到故障的根本原因、排除隱患.
 3.        保持ERP與IT環境的執行穩定;

 改善之三,知識管理是IT運維重要基礎

 1.        專案組採用規範的文件管理,實施中做各種整理收集、歸類,問題解決的知識庫。
 2.        對於日常使用問題及變更業務需求,分類記錄並實時更新檔案知識庫。
 3.        吸收各種IT網站資料,作為外部資料進行管理歸檔。
 4.        強化我們公司內部關鍵使用者的知識培訓。


 2013年內部資料中心發展趨勢

 1、由低密度(50%機櫃,5KW)走向高密度,雲資料中心的裝置發展:由能夠休眠的IT硬體,走向智慧化、能休眠的機房硬體;2
 2、製冷:從空氣製冷到水冷。
 3、IT硬體由散熱到耐熱;
 4。伺服器無人及自動化管理;

轉帖一個IT運維價值理論


1. 確保IT流程有效地支援業務發展
 2. 提高企業業務運營的質量和生產率
 3. 有效地保障了業務的連續性
 4. 使IT資源得到集約型應用
 5. 避免資源重複使用和浪費

 雲端計算時代的到來,為這些價值實現提供了最佳實踐。

 


 因為我們公司為上市企業,每年境外事務所的安全審計在IT基礎運維中所佔的比重會越來越大,而且隨著行業技術的不斷積累和探索,用於審計的理念、模型、工具、軟體等產品也會越來越多。我們也很重視各種運維日誌的維護和制度建設,把雲端計算的安全作為優先考慮的管理目標。

 


 四:不好好學習體。


 晚上被研發部門投訴無法登陸公司的虛擬桌面系統,加班在公司排查網路原因,查完網路路由再查VPN伺服器,查完VPN伺服器再去查交換機,這一夜吃了2個方便麵,電影也不能去看了,女朋友也生氣啦,還好凌晨找到罪魁禍首,小時候不好好學習,長大就得幹這個IT運維。領導不知道你辛苦,還得挨收拾。

 五、總結

    標準化——基於ITIL流程框架,構建最佳的運維流程和管理平臺。 流程化——提供視覺化的流程及表單設計工具,將工單、表單、郵件、簡訊等與流程相繫結,確保IT和SAP運維工作流程均可99.99%可用,提升運維工作效率。


 最後引用史記典故大家共勉,“夫運籌帷幄之中,決勝千里之外”。
 為達成我們的企業快速成長之目標,各位運維小組成員攜手,共同與ITPUB創造優質IT運維服務。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/658077/viewspace-734768/,如需轉載,請註明出處,否則將追究法律責任。

相關文章