【摘要】運維要從過去的被動式運維向主動型運維轉變,從操作型向管理型轉變,從背鍋式運維向價值型運維轉變。當企業的規模發展到一定程度後,運維要向運營轉型,從技術支撐到價值輸出。【作者】劉建明,某銀行系統運維工程師,主要從事伺服器、作業系統、中介軟體、資料庫及虛擬化平臺等基礎設施的運維和管理工作。曾獲IBM CATE,Redhat RHCA,Oracle OCP,VMware VCP等證書,在系統運維管理方面擁有豐富的經驗。
近兩年,運維人需要面對不斷湧現的新興技術和架構轉型的要求,例如企業上雲、分散式、容器化、雙中心雙活等等。隨著傳統企業把更多的業務向線上化和數字化發展,IT運維也面臨著業務模式改變隨之而來的更多要求。做好運維,除了學好新技術,更需要從運維理念、運維方式和運維視角轉變等方面去適應變化。以下是我個人的一些思考。
一、企業傳統IT運維面臨的挑戰
我們的傳統IT運維人員在運維工作上應該能體會到了三個明顯的變化。第一,運維物件越來越多
隨著企業推進數字化轉型,新增的應用系統越來越多;隨著線上業務規模擴大,應用系統不斷地進行細化拆分,元件的數量越來越多;隨著微服務的推行,節點朝著小而多的方向迅速發展。現在,一套應用系統有幾百臺伺服器,幾百個容器已經是常見的事情。虛擬機器和容器的爆炸式擴大增長,已經不是危言聳聽,而是實實在在發生的現狀。這要求著運維人員投入更多的精力來保障和運維繫統。傳統的運維模式,例如操作文件手工運維,指令碼方式手工運維,按系統型別分類運維,大量個性化特殊化運維等等,隨著規模的擴大,管理的難道呈指數級增加,運維管理能力也會達到極限。這個時候,運維人員面對各種工單往往應接不暇,焦頭爛額,運維沒有成就感。然而要投入更多的運維人力,又加大了溝通、培訓和協調等的管理成本,堆人的路已經行不通。第二,運維要求越來越高
IT規模小的時候,傳統運維可能還可以停留在幾臺伺服器的搭建,基礎軟體的安裝,日常的變更維護等等,只要保證系統的安全穩定執行即可。但是,隨著企業的規模發展,對運維也會提出更高的要求,例如幾百臺伺服器規模化的部署,幾千臺大批次的操作,分鐘級甚至秒級的敏捷資源供給,自動化的資源擴縮等。今年疫情期間,企業為了滿足線上辦公的需求,要求馬上提供上百臺遠端桌面伺服器供員工線上辦公;企業頻繁地開展線上秒殺活動,在活動期間需要批次部署上線大量的應用伺服器,活動結束馬上回收;近段時間,基金開戶和銷售火爆,很多基金公司的應用系統幾近癱瘓,如何保證及時地提供資源。在這些場景下,依靠傳統的資源管理和人工操作方式已經無法滿足業務對運維服務的要求。第三,運維服務使用者越來越多
傳統企業環境下,運維僅服務於研發,研發服務於業務部門,服務使用者都比較單一。現在很多企業成立了多個研發中心和測試中心,還不斷地擴大分支機構,分支機構又有獨立的應用系統建設需求,同時也提供IT服務給第三方公司。在這種情況下,我們的運維人員需要面對各種各樣的使用者環境和多種多樣的使用者需求,首先溝通成本會非常高,其次也無法保證能夠提供一致的運維服務,第三運維質量也因為人員差異而參差不齊。以上的三個變化,對於還沒準備好的傳統運維人員而言,將是巨大的挑戰和壓力。一方面業務迅猛發展,領導不斷下要求給指標;另一方面,運維人手不足,工具跟不上,平臺不給力。除了上面三個因業務發展帶來的規模上的變化,我們的運維也面臨著如何化解新技術的壓力。例如自動化運維、視覺化運維、智慧化運維等各種平臺和工具的引入,運維人需要選擇,讓平臺能結合各種運維場景切實發揮作用;例如雲端計算、容器雲、大資料、分散式、區塊鏈和大量開源軟體的應用,運維需要了解原理、部署排障、融合創新;例如系統高可用技術、雙活中心技術等,運維需要將它們有效落地。這些技術,需要運維人員不斷地學習和跟進。傳統行業的運維人員,面對眼花繚亂的運維新技術,往往不知如何入手,陷入迷茫。二、傳統IT運維應該如何轉變
面對各種業務上和技術上的新變化,傳統的運維人員應該如何應對?運維工作充滿了大量的簡單重複勞動,運維工作如何突圍?運維人員每天忙碌,承受壓力,又不被認可,運維的價值在哪裡?面對以上的三個問題,我認為,運維要從過去的被動式運維向主動型運維轉變,從操作型向管理型轉變,從背鍋式運維向價值型運維轉變。當企業的規模發展到一定程度後,運維要向運營轉型,從技術支撐到價值輸出。要實現這三個運維轉變和向運營轉型,我個人認為我們應該從三個方面去做出改變,分別為改變運維理念,改變運維管理方式和改變運維知識體系。具體如下:第一、運維管理理念要改變。
業務在變,需求在變,運維也要對應著改變,最重要的是在運維理念上要首先做出改變。傳統的運維工作,只要做好運維支撐工作就可以了,從來不關心業務情況。現在做運維,要將對運維的認識提升到業務層面,把自己從傳統的支援中心向服務中心、價值中心轉變,提升IT服務供給能力,滿足企業業務的發展需求。運維部門過去一直認為是花錢堆硬體的部門,就是買買買,沒有什麼價值。但是,隨著上文提到的三個明顯變化的發生,光買硬體已經無法滿足業務的需求。運維不光要做到能用,還要做到好用;不光只買硬體,更要充分運用各種軟體和平臺來提升運維服務能力。我們的運維理念要以業務價值為導向進行轉變。那麼如何實現以業務價值為導向呢?怎麼做能夠滿足業務價值導向呢?我認為我們要改變過去被動接工單的運維模式,轉變為以標準服務目錄,場景化服務為介面呈現的主動對外方式。讓運維提供的服務,從後臺展現到前臺,以明確清晰的方式讓使用者主動進行各種選擇和使用。透過服務目錄,運維工作也能夠保證對外服務標準的一致性。同時,透過服務目錄,運維的質量和主動性也有了抓手。服務目錄好不好,使用者滿不滿意,也是評價和測量運維工作做得好壞的一個標準。服務目錄只是一個對外介面,其後臺所承載的運維流程、管理平臺、指令碼工具,積累的技術和經驗,是運維真正的內功。透過深入瞭解使用者的需求,設計梳理運維服務目錄;透過服務目錄,最佳化各種流程、建設各種平臺和選擇各種技術。這樣面對琳琅滿目的技術,我們的運維人員也有了學習技術的方向和目標。第二、運維管理方式要改變。
運維理念的轉變,必然帶來運維管理方式的改變,但是這個改變是需要至上而下進行,需要管理層主動推動。那麼,運維管理方式要改變什麼?我想,首先是要整合,把制度、流程和技術進行整合,把伺服器、作業系統、網路和儲存等進行整合;其次是建立服務治理機制,根據PDCA方法論形成運維管理閉環;第三是建立運維數字化,讓運維一目瞭然;第四是完善智慧監控分析體系;第五提升運維自動化和智慧化水平。傳統企業的運維我覺得有兩個維度,豎向的應用系統維度,如具體應用系統的架構設計、應用變更、監控分析、故障切換、容量管理等等,和橫向的專業平臺維度,如伺服器硬體、儲存裝置、作業系統、虛擬化平臺、中介軟體、資料庫、終端等等。運維管理方式,是採用豎向運維還是橫向運維,需要與企業的IT規模和發展階段相匹配的。這兩種不同的方式也是分久必合,合久必分。企業IT規模小,豎向較合適,幾個人共同承擔了應用系統、伺服器、網路、儲存和基礎軟體等所有的運維工作,溝通路徑短,效率高;然後,隨著IT規模變大,一個人無法兼顧所有技術棧的運維,於是根據技術領域進行了細化分離,讓專業的人做專業的事;現在,隨著新需求的產生,又需要各專業領域的運維團隊緊密合作,比如雲端計算,容器雲,動態擴縮,自動化和智慧化運維等,匯合了伺服器、網路、儲存和中介軟體等技術,需要各團隊通力合作。這種新運維方式下,需要相應的組織架構調整和改變來支撐,比如成立虛擬的雲團隊。第三,運維知識體系要改變。
以上兩點改變,更多的是從上而下的改變,做為運維人員也需要從自身出發進行改變,讓自己的知識體系適應新的運維模式。那麼運維人員要怎麼做?我想運維人員要從架構視角、開發視角看運維,提升自主運維的核心技術能力。在運維知識體系和新技術落地上,twt已經給我們提供了很多資料和做了大量介紹。隨著基礎平臺雲化,容器化,以及分散式架構的逐漸應用,運維人員需要掌握的技術不再是單一的領域,而是需要多領域的融合貫通,對虛擬化、作業系統、網路、儲存、監控、自動化工具和運維開發等都需要掌握。例如,我們的要求虛擬化團隊,不光管理好平臺,更要透過開發提升工作效率。運維人員的視角也要從更高的業務特性和開發人員需求出發,不侷限於我有什麼就用什麼,而是要使用者需要什麼我們提供什麼,並主動提升服務的質量和效率,主動地關注團隊提供的專業服務是否滿足使用者需求,是否讓使用者滿意和好用。例如,運維人如果去支撐和融入devops這個新的模式。三、傳統IT運維轉向運營
我們說運維要向運營轉變,為什麼是運營而不是運維呢?首先來看一下運營的概念,運營是對運營過程的計劃、組織、實施和控制,是與產品生產和服務創造密切相關的各項管理工作的總稱。從另一個角度來講,運營管理也可以指為對生產和提供公司主要的產品和服務的系統進行設計、執行、評價和改進的管理工作。從概念中,我們可以看到,運營是針對產品和服務,那麼IT運營的產品和服務是什麼呢?是的,就是運維,運營是對運維這個產品和服務的設計、執行、評價和管理。我們說金融科技的本質不是科技,而是服務,是從使用者的角度出發看待問題,一切以使用者滿意為前提。IT運營也是如此,它將運維這件事,從使用者的角度來思考,運維不是簡單的技術支撐,簡單的故障解決,簡單的背鍋任勞任怨,運維是要滿足使用者的需求,運維是運維人員提供的一個產品和服務。我們可以看到,如果給使用者足夠的便利,使用者自己能解決大部分的問題。比如網上購物,購買理財,購買基金等等,只要操作簡單便捷,老人也能輕易做到。運維也是如此,並不是運維非要做得苦逼,而是運維這個產品和服務不夠便利。我們現在慢慢地看到很多公有云廠商,提供了非常多的便利服務,哪怕不懂運維的人,也能輕鬆地搭建出一套套監管控一體化俱全的應用系統來。作為傳統IT運維人員,需要從這方面多多學習和轉變。四、最後
如果說過去的傳統運維像經營一家大排檔,客人看菜點菜,廚師依需求做菜。這種模式存在幾個問題,一是客人其實也不知道要吃什麼菜;二、不是每道菜,廚師都會做;三、菜做的好壞,客戶是否滿意,取決於每個廚師的手藝。所以,大排檔模式只適應小規模經營,而開不成連鎖店。到了一定的規模,我們的運維要像經營肯德基、海底撈等連鎖店一樣,無論面對多少客戶量,我們用標準的流程,提供一致的菜式,一致的服務。我們用心於菜式的品類和質量,用心於服務的滿意度。面對快節奏的變化,運維人員應該沉下心來,對外以做產品的心態做運維,追求使用者極致的體驗;對內建立標準的流程,打造高效的工具,讓運維變得簡單輕鬆。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994525/viewspace-2757414/,如需轉載,請註明出處,否則將追究法律責任。