淺談IT運維

aceoracle發表於2014-02-07

 我們處在資訊爆炸的時代,每天都會發生許多新鮮的事物,產生寶貴的資料,因而時代需要一群維護資料的專業人才,主要包括SA和DBA;曾經有個同學告訴我,在未來運維將是最吃香的行業。我一直不以為然!從08年到現在,一直從事的都是運維方面的工作,曾經一度認為運維就是簡單的執行和維護,所以在運維方面我成長的比較慢,因為從覺悟上我領悟的就不夠!

 時下我和別人介紹自己的時候,一般都說自己是打雜的,也許是我的領悟不夠,也或許是我的級別不夠,但我的的確確做的都是雜事。下面就來談談我所知道的運維吧!

一:企業運維的工作職責

1:運維的首要職責是參與確定公司的整體IT框架,當然這也不完全是運維的事;框架這詞本身就比較籠統。框架大概包括伺服器的系統,程式使用何種語言,配合什麼資料庫,使用何種容器來發布內容,需要多少伺服器,如何分配資源等。

決定使用什麼作業系統也是件很重要的事,用windows,linux,aix還是freebSD,將來如何升級都對企業的運維產生著深遠的影響,一般來講運維人員會建議管理層使用自己所熟練的作業系統,筆者就一直力建RHEL。程式使用何種語言就和企業本身的業務息息相關,例如銀行都首推java,一般的入口網站,論壇都用php,asp.net等,程式語言對使用何種資料庫和web容器起著決定性的作用,如果是php,那一般是lamp,lnmp之類的經典模型,如果是java,那選擇面相對比較廣些,容器部分可以選擇weblogic,websphere,jboss,tomcat等等;資料庫可以選擇oracle,db2, sysbase等,在這個時候,企業的經濟實力也起著至關重要的作用!

2:保證應用能在伺服器上正常的執行

坦白說,這個標準更加的籠統,怎麼樣才能算正常的執行呢?筆者在工作中,經常遇到使用者抱怨說論壇卡,伺服器慢,網站打不開之類的問題,讓對方ping下伺服器,4個包丟了3個,不卡才怪呢。這個過程中出問題的有可能是伺服器,也可能是使用者端或者就是中間的網路傳輸問題,在中國最典型的就是南北互通的問題,曾有戲言:世界上最遠的距離是中國電信到中國聯通之間的距離!因為這種問題很難判斷,所以一般管理者會要求運維每年的故障時間不能超過一定的值,說7*24*365服務不間斷執行,那是扯淡!總會有各種各樣的問題,無論你用了什麼負載均衡,故障轉移技術,服務臨時中斷也是避免不了的,運維的價值在於在縮短服務中斷後的MTTR時間,可見運維的壓力是很大的!



3:根據業務需要,及時調整伺服器各項設定

這個工作是筆者工作中的重頭戲,程式今天需要部署個memcache,明天需要箇中文分詞系統,後天需要加個虛擬主機…… 這種事情一般是怎麼做都做不完的,只能來一樣做一樣。但這種工作最能讓你的運維水平得到提高。運維人員在做這類工作的時候不能像應付任務那樣,但求過關即可,否則日積月累下來,伺服器會出現意想不到的情況。在處理這類工作上運維人員應當做到規範和文件記錄,長期做下來,不但自己的運維專業水平會提高,對於後期的維護也會起到良性迴圈作用

4:備份關鍵資料,及時處理各種故障,保證伺服器安全

備份是為了恢復,一般想到或者用到備份的時候,都是出現麻煩的時候,所以平常工作中對備份一定要足夠的重視,尤其是資料庫,在某些時候,看起來N年前的備份可能會給你的恢復工作帶來意想不到的作用;伺服器的安全部分又是個拎不清的概念,因為安全本身就是相對的,而且安全和效能,使用者體驗之間是成反比的,運維在很多時候都是犧牲安全來換取效能和更好的使用者體驗,等將來安全上出現問題的時候再調整,例如關閉伺服器的selinux,關閉伺服器內網間的防火牆,允許任意IP進行FTP連線等等

5:記錄伺服器維護日誌和技術文件

這點都是在處理完問題後記錄下,方便加快日後處理同類問題的速度和效率;至於技術文件,身為運維人員一定要認真編寫,寫的很糟糕的文件會給人誤導作用,internet上這類文章不在少數,本身IT這個行業就是很浮躁的,如果不能靜下心來好好整理知識,總有一天會被淘汰的;對於過去整理的文件要定期的去溫習,有錯的要及時更正。所謂溫故而知新,孔夫子的教誨還是要聽的,否則等你有天在搜尋引擎搜到自己的文章的時候,怎麼想也想不明白當初為什麼要這樣做。筆者一直倡導和internet的朋友分享自己的知識,這樣有利於自己和他人的共同進步

二:企業運維的主要難題

1: IDC服務商的選擇

伺服器多了,自然要找好的IDC運營商;這點很重要,差的IDC會把你伺服器裝錯,會無緣無故把你的域名白名單取消,機櫃的頻寬流量無法實時監控,CDN效果不佳,伺服器出問題的不是先想著如何處理問題,而是找各種各樣的藉口,什麼機房網路被攻擊,電源跳閘之類的,各種悲劇!唯一的優勢可能是收費相對比較便宜,呵呵!

2:伺服器提供商和型號的選擇

這個也很重要,筆者先前遇到一批DELL R410韌體問題,每當伺服器高流量的時候,伺服器網路卡會自動斷流,需要手動重啟網路卡,這個問題悲劇了許久,到最後也未能完全解決;之前還遇到過記憶體,主機板故障等問題,伺服器的硬體一旦出現問題,就意味著停機檢修,服務自然要中斷。所以在伺服器的選擇上也要慎重,而不是隻考慮價格問題

3:負載均衡和故障轉移

流量大了,或者業務重要性高,就要求最大可能提供伺服器的高可用性和資料容災,自然要部署負載均衡和故障轉移;是採用硬體F5,cisco還是軟體lvs,keepalvie,heartbeat,nginx方式實現,效果如何?都需要去考量

4:運維團隊和人才的培養

千金易得,一將難求。對於企業來講,運維人才的流失是比較可惜的,如何去留住一批優秀的運維人才也是企業需要考慮的問題。其實不只運維,企業要想有長遠的發展都應當想方設法留住人才,控制公司的人員流失率,要讓員工有歸屬感和榮譽感,而不是隻有赤裸裸的僱傭關係;企業應該著重培養一支高素質,高凝聚力的運維團隊,而不是隻當運維是業務部門和程式部門間的夾心餅,裡外不是人,這樣的環境和團隊是留不住人才的。

三:運維人員的職業發展和出路

運維是個年輕人行業,做運維的需要夢想和激情,隨著歲月的增長和學習能力,熬夜能力的衰退;運維人員要面臨轉型的問題,一般可以選擇轉向做管理或者架構,或者專攻DBA,又或者自己創業,寫書,去培訓中心做教員,選擇的路還是很多的。離開運維崗位是每個運維人員遲早要面對的問題,如何在有限的運維時間內為自己和企業創造更多的價值是運維工作者需要考慮的問題,人的時間和精力都是有限的,利用更短的時間取的更高的效率就是一種成功,當成功來的太晚的時候,幸福感會蕩然無存,一切的問題都是時間問題!

廢話了許多,也差不多該收尾了,洗洗睡覺了!



謹以此文獻給曾經的運維組成員:陳東海同學,徐鴻鵠同學,胡雙峰同學,祝願他們工作順利,生活愉快! 

 本文轉自斬月部落格51CTO部落格,原文連結http://blog.51cto.com/ylw6006/652403如需轉載請自行聯絡原作者

ylw6006


相關文章