智慧運維,雲資料中心運維的未來之路

Cloud_Architect發表於2017-07-06


在雲端計算時代,IT系統建設越來越成為企業發展至關重要的一環。業務系統,以及支撐業務系統執行的基礎設施通常是企業關注的首要目標;然而,保障業務健康執行的背後“功臣”——運維繫統同樣至關重要,因為每一次IT系統的轉型,運維繫統和業務保障都是最艱難的部分。在當前企業IT系統向雲架構轉型的時刻,運維繫統再一次面臨著新的挑戰。

雲架構對運維繫統的新需求和新挑戰

引入雲端計算和業務需求帶來運維壓力

隨著越來越多的企業擁抱雲端計算,為了支援業務系統的快速上線、靈活伸縮以及更高的SLA要求,再加上有限的IT運維成本,運維人員將面臨比以往更大的運維壓力。在運維擁有海量裝置且高度複雜的雲資料中心環境時,如何提供99.95%或以上的高質量IT服務,提升效率並降低成本,是運維團隊當前面臨的最大挑戰。

·        保障高運維質量:雲資料中心的裝置規模從幾十/幾百向幾萬/幾百萬數量級演進時,海量硬體裝置的使用對硬體故障的快速定位和隔離將帶來巨大挑戰;同時,採用虛擬化和分散式彈性技術也加劇了雲資料中心的複雜度。這些都會導致運維難度增加,小概率故障成為常態且影響加大,使用者級的99.95%或以上的服務質量承諾(SLA)很難保障。

·        提高運維效率:虛擬化技術和眾多開源技術的引入使得運維變得越來越複雜,傳統人工運維模式處理速度慢、出錯概率高。此外,傳統人均50100臺裝置的維護效率,在大規模雲化環境下,需要投入大量人力。

·        保持低運營成本:傳統IT的資源使用率通常小於20%,在雲化後資源使用率有所提升,但是個性化、按需彈性需求導致資源碎片化、負載不平衡以及擴容規劃不精準,可能會造成整體資源利用率並沒有達到規劃目標,運維成本居高不下。

雲架構使用者體驗保障和業務高可用帶來運維的“不可知性”

為了提升資源的利用率,雲架構下資源是共享的,而非獨佔,這與傳統IT完全不同。雲端計算通過自動的彈性伸縮策略來實現資源共享與使用者體驗及業務可用性之間的平衡,這是雲端計算的核心優勢之一。但這也帶來了運維的新需求和新挑戰,即運維人員往往並不知道業務系統具體執行在哪個硬體上,故障定位變得非常困難,解決這種不可知性要求運維繫統要做到“更加全面的系統監控”,從而實現“可知性”。

傳統IT系統和雲架構IT系統的混合IT架構的統一運維管理

企業IT向雲架構遷移不是一蹴而就的,而是一個長期共存的過程。兩種架構導致運維工具差異大,對運維人員也帶來了更大的挑戰。如何實現兩種IT架構統一、集中的維護管理,是運維繫統面臨的新課題。

全自動化要求運維人員的角色從“運維管理”轉變成“運維研發”

分散式架構的雲端計算系統,其資源排程、業務伸縮、故障隔離和故障修復等都是自動化的,不可能基於人工來完成,這已經完全顛覆了傳統IT的軟體安裝部署、業務使用和管理維護模式。因此,運維的工作不再是傳統的運維管理,而是構建自動化運維模型和運維工具,這不但對運維人員、更對運維繫統提出了新的要求。

智慧化運維支援IT系統的自動化執行

實現IT系統全自動化執行的核心在於智慧。系統具備完善的智慧,才能夠基於系統的狀態、使用者規模、業務體驗質量和策略規則等,實現系統的彈性伸縮、故障隔離和故障修復等等,這一切都要靠一個智慧的管理系統或者運維繫統來完成。系統的智慧運維包括3個方面的核心能力:全生命週期自動化管理;智慧化故障預防、發現與自愈;以及智慧化容量運營。

全生命週期自動化管理

雲資料中心的資源規模和業務規模都遠遠超過傳統資料中心。傳統的手工方式實現雲資源/雲服務的上線、監控、升級、變更、擴容、限流、降級與下線的生命週期管理時,效率低下、人員誤操作風險高,自動化手段勢在必行。通過變人工處理為自動化處理,提升運維的人均維護效率,滿足業務的敏捷要求,逐步向無人值守的自動化運維演進。

·        以工作流為中心的自動化作業平臺,複雜操作簡單化:自動化作業平臺提供了把日常運維經驗標準化和工具化的框架,有利於運維經驗的固化與共享。通過預先配置好使用頻度較高的變更操作場景,比如已知典型故障的修復操作、資源池的擴/減容、補丁安裝、健康檢查、合規審計與不合規項整改、軟體批量安裝、管理節點的配置備份、配置資訊提取,以及裝置批量上下電等,可以實現開箱即用,將原本很複雜的操作簡單化,從而大幅提升運維的效率,降低變更時人工誤操作的概率。通過設定分權分域與提供操作日誌,可以滿足安全與審計的需求,實現可控、高效的運維變更操作。


1 作業平臺業務流程

此外,利用平臺提供的通用框架能力,運維人員還可以按需定製自動化作業。運維人員完成原子指令碼開發後進行指令碼視覺化編排後提交,平臺可以自動排程和分發執行,完成各種場景複雜作業的線上管理和自動執行。

·        標準化與一致性運維是基礎:由於傳統資料中心裡的軟硬體“七國八制”,導致運維繫統需要進行大量的相容性配置,使整體建設的複雜度與難度倍增,難以落地。在雲時代,通過使用標準化計算、儲存和網路硬體,以及標準化軟體的安裝包、配置、許可權、灰度釋出策略、指令碼和健康狀態等,運維人員可以通過視覺化、可預期的方式管理整個雲環境,而且能夠按照預設狀態自行修正,解決傳統資料中心內因為環境狀態不一致所導致的頻繁變更和人為失誤等風險。

·        硬體即插即用,定期下線:隨著資料中心規模的增長,手工為主的硬體識別與安裝方案將無法支撐資源的快速上線、擴容與下線。通過即插即用技術,只需要使用低技能人員將裝置上架、上網和上電,運維繫統就會根據該硬體的預期狀態自動化完成端到端硬體系統的部署和上線;與此同時,通過雲化隔離技術,硬體出現故障時也不再需要立即解決,只需讓低技能人員定期替換即可。

·        軟體一鍵釋出,7×24永遠線上:隨著敏捷、分散式軟體開發部署模式的興起,相對於傳統資料中心,雲資料中心內的系統升級變得更加頻繁和複雜。通過一鍵式釋出工具,實現從申請資源→釋出部署→系統自檢→自動化業務測試→回退/灰度上線的端到端自動化部署,同時支援全球多資料中心百/千級例項的集中釋出。

·        移動運維:手機端的運維App軟體在手,專家可以隨時隨地移動運維,完成雲資源的全生命週期管理。

智慧化的故障預防、發現與自愈

傳統模式下,運維人員的工作模式是被動等待問題發生,然後再進行故障處理。根據有關資料統計,運維人員平均每天計劃內的工作只佔50%左右,剩下的時間都是在到處救火。隨著雲資料中心規模快速增長,運維人員需要處理的事件量越來越大,人工救火將力不從心。這就需要一個智慧的運維平臺,利用大資料關聯分析與機器學習技術為運維繫統賦予人工智慧,提供從故障預防到故障定位、再到故障閉環的智慧保障能力。

·        主動故障預防:故障處理再迅速也不如不產生故障,尤其是在大規模雲資料中心場景下,即便很低的故障率也會產生一定規模的故障,為了避免到處救火,最好的方法是做好防火工作。

關鍵措施1:減少人工操作引入故障

根據華為公司IT部門的統計,變更操作是故障的導火索,超過50%的故障是由變更中的人工操作引發的。大多數的一級事故都由變更引起,主要原因是變更操作複雜,人工處理容易產生誤操作。因此,通過變更自動化避免人工處理引發故障,是降低故障發生率的一個非常重要的舉措。

關鍵措施2:系統亞健康智慧分析,提前發現故障隱患

利用大資料技術,結合故障特徵庫進行跨資料領域關聯分析,提前發現隱患、預測故障。與自動化策略執行系統整合聯動,在使用者發覺問題前將問題解決,避免對業務造成影響。

·        及時故障發現:雲資料中心由於技術堆疊層次多、技術架構複雜,如何識別故障是個很大的難點。構建一個從資源到租戶體驗端到端的監控體系,全面掌握系統執行狀態資料,有助於準確識別出業務系統響應慢、查詢速度慢、產品質量差(問題多、交易失敗率高)和使用者數量少/資源利用率低等問題的根源,推動技術團隊不斷改進,達到持續優化的運維管理目的。

關鍵措施1:構建全鏈路、主動、智慧的全方位、多手段和多指標監控體系

運維繫統需要支援從機房設施、物理基礎設施、跨資料中心骨幹網路、虛擬化資源池到雲服務和應用的統一管理,實現多資料中心和多維度的集中監控。

當資料中心出現故障時,通過系統執行狀態視覺化,可以快速獲取每個資料中心中資源和雲服務的當前和歷史執行狀態,可以檢視的資訊包括效能容量、關聯物件與告警,以及拓撲與各類日誌資訊。

關鍵措施2:系統執行狀態視覺化

在重點業務的服務運營保障中,通過視覺化展示應用拓撲及其健康狀態,可以使雲基礎架構與業務應用的各項執行指標和變化趨勢一覽無餘。

通過提供各類運維物件的效能容量、告警統計與分析、資源利用率的報表,以及健康度和容量預測報告,IT運維人員與管理人員可以利用這些資訊來支撐月度/季度的運維質量分析和年度IT架構規劃。

·        智慧故障定位:雲時代由於分散式和微服務化軟體架構的流行,業務呼叫關係愈發複雜,出現故障後,對故障的快速定位形成了很大的挑戰。

關鍵措施1:利用業務流跟蹤系統快速故障定界

針對雲服務微服務化後呼叫關係複雜和故障定位難的問題,需要有輔助定位工具來提高故障定位效率。通過對服務呼叫各環節SLA的監控來快速定位故障點,可以將故障定位的時間從小時級縮短到分鐘級。

關鍵措施2:構建專家診斷系統,智慧根因定位、已知故障自動化恢復處理

例行進行故障總結分析與持續積累,通過專家診斷系統將專家經驗固化,可以實現故障定位的智慧化和已知典型故障的自動恢復操作。

·        自動故障修復:雲資料中心規模的擴大帶來了一個很大的問題——故障數量的提升。根據華為自己的資料中心運維經驗,一個較大規模的雲資料中心,如果不進行故障的自動化歸類和處理,每日各種級別的故障單可能超過上千個。因此,迫切需要運維繫統能夠識別常見的故障,並有相關的故障自愈策略進行匹配。當故障發生時自動執行閉環策略,對於常見故障無需人工干預即可自動閉環解決。

智慧化容量運營提升資源利用率

傳統資料中心中,各業務部門獨立部署的業務系統無法共享,伺服器的利用率小於20%。資料中心雲化後,雲資源能夠實現資源共享和動態調配,但同時也帶來了碎片化、負載不均衡和SLA保障困難等挑戰。

智慧化的容量管理結合了大資料分析預測技術,將雲資料中心內物理資源(如伺服器、儲存和網路等資源)和雲資源(如虛擬機器和塊儲存等)的實時容量檢視、容量快照、負載現狀和趨勢,以及容量碎片呈現出來。針對資源負載不均的問題,傳統運維平臺因無法進行遷移/彈性伸縮而導致無法調整。而在雲資料中心中,容量管理會向運維管理員提供低負載資源的分佈資訊,並提供縮減資源規格的建議;資源碎片化一般會導致2030%“資源不可用”的情況,容量碎片管理向運維管理員提供各種資源規格的物理分佈檢視,並提供資源調整建議,提升現有資源的利用率。

雲資源利用率達到一定閾值時,規劃人員就需要考慮未來擴容問題。傳統的容量預測主要依靠人的有限經驗與資料來進行不可預知的擴容,往往會造成資源閒置率超過2030%。而智慧化的容量管理將資源的容量資料、應用行為分析、實際效能資料以及財務資訊等相結合,對業務部門的關鍵應用對未來IT基礎架構的各種資源容量的訴求進行高度準確和可靠的智慧預測,向規劃人員提供未來資源容量的趨勢分析,供規劃人員制定有效的採購和擴容計劃,滿足使用者未來資源的高效利用。

智慧化的容量管理能夠實現現狀可視、問題可察、風險可辨、未來可測和調整可控,使雲資料中心內資源的利用率提升到70%以上的水平。


2 開放的華為雲運維平臺

雲資料中心運維的實踐效果

運維比較成功的雲資料中心,通過自動化和智慧化的運維體系,面對百萬級的伺服器規模,在保障使用者級99.95%甚至更高服務質量的前提下,實現了雲資料中心運維效率的結構性提升:人均維護效率從傳統人均50100臺提升至500010000臺,效率提升100倍以上;而總體資源利用率從傳統小於20%提升至6070%,效率提升3倍以上(見下表)。


比如,華為的研發採用雲服務,通過標準化、自動化與智慧化運維,目前已做到了11人維護10萬臺裝置,資源使用率從10%以下提升至4050%

同時,自動化、智慧化和視覺化運維平臺的引入,使傳統運維人員擺脫了以往機械式、重複性和低價值的日常工作,也最大限度地避免了人為錯誤的發生,間接保障了IT服務的質量,降低了運營成本。更重要的是,運維人員可以更多地投入到有價值和創造性的工作中,比如架構設計、開發以及新技術的評估和引入,以更好地支援企業的業務創新,更好地體現IT團隊及個人在企業中的價值。

另外,通過自動化和智慧化運維平臺的引入,能夠更好地通過工具的方式固化規範的IT運維管理流程。通過自動化流程的方式實現整體IT運維的規範性、標準化和合規性,以此保障對業務系統所承諾的服務質量(SLA),支援企業業務的健康發展。

華為雲資料中心運維解決方案最佳實踐

華為雲資料中心運維解決方案除了幫助企業構築一個自動化、智慧化和視覺化的運維平臺外,還引入了華為多年來的實踐經驗,以及在新技術上探索的成果。


3 客戶服務中心業務服務體系

運維經驗沉澱、運維能力產品化

華為內部的運維團隊負責維護著海量規模的華為企業雲與私有云,月度進行運維質量分析、運維故障統計分析與經驗總結,對於高危、重複度高的運維操作要求實現操作自動化。華為自營的企業雲採用DevOps模式來快速構建和完善運維能力,經過充分驗證後將運維能力進行產品化,納入到華為雲運維解決方案基線版本,保證華為內部運維的最佳實踐可以批量提供給客戶使用。比如前面提到的ECS服務呼叫鏈跟蹤工具,就是日常運維經驗沉澱的範例之一,通過整合到運維平臺來不斷提升運維能力。

能力開放構建雲運維生態

華為提供了雲運維的開發者社群,通過對外開放多層次API滿足各類場景的應用開發需求,支援合作伙伴在雲運維平臺上持續積累、豐富運維的元件和工具,打造雲運維的生態。

·        服務層的開放:所有服務Console使用的介面都對外開放,第三方可定製符合各行業場景的介面和Portal

·        後臺服務層的開放:所有運維服務通過統一的API GateWay對外開放,第三方可以基於介面開發新的運維工具,或對接第三方運維工具或系統。比如,基於開放的告警服務和資源管理服務開發本領域特有的業務拓撲檢視,並實現業務節點狀態的視覺化;在混合IT架構下,效能容量、配置資訊與日誌都可以通過API GateWay對接客戶自有的集中運維管理平臺,實現全域性共享一套運維體系。

·        裝置接入層開放:提供南向驅動外掛框架,第三方可以自行開發裝置驅動,通過驅動管理服務動態接入新的裝置物件,比如ZOHO開發的驅動已實現了非華為裝置的監控上報管理。

微服務架構與容器化部署

華為雲運維繫統採用微服務架構支援容器化部署,具備良好的敏捷交付和可擴充套件能力。其中敏捷交付是指每個微服務都獨立開發、釋出和演進,可以快速迭代;易擴充套件是指每個微服務都可以獨立部署並彈性擴充套件,保證了整個運維繫統具備很強的擴充套件性,在小規模時可最小化部署,然後隨著規模增長按需增加資源;而支援容器化部署,則大大削減了管理節點的成本開銷。

全球化的技術支援體系

華為在運營商領域(CT)持續耕耘了28年,已在全球建立了完善的技術支援體系,全球設有2GTAC和多個RTAC,培養出了一批又一批技術過硬的專家,在IT領域可以複用這套全球化的技術支援體系。

華為提供多種運維模式供客戶選擇,包括客戶自運維、華為現場代維或遠端代維。客戶自運維過程中遇到故障時可拔打7×24小時客服熱線,同時也可選擇部署CloudService實現自動報障,以及eCare全流程監控確保客戶問題得到及時和有效的解決。


4 IT運維體系全景

支援全棧式管理

藉助在ICT基礎設施運維領域的深厚積累,並充分利用自身產品線齊全的優勢,華為提供了涵蓋伺服器、儲存、網路、虛擬資源池、雲服務和應用在內的完整的雲資料中心管理能力,全棧的管理範圍為端到端的業務監控、端到端的故障診斷定位,以及端到端的全生命週期自動化等能力的構建打下了基礎。

3年來,華為雲資料中心的規模實現了數倍增長,但依託這套運維解決方案,在運維人員增長不到10%的情況下,SLA卻達到了99.6%的水平,計算資源的平均利用率也達到50%以上,很好地支撐了研發業務的敏捷高速發展。比如,在2016年國慶假期的資料中心停電檢修與版本升級變更中,涉及了分佈在全國各地的11個機房、1.5萬臺物理伺服器和30萬個虛擬機器,如果按照傳統的運維能力計算,每位運維人員只能處理30004000個虛擬機器,此次變更共需要投入100人才能實施完成;而藉助智慧化運維平臺所具有的一鍵式上下電和批量版本升級操作能力,實際投入不到20人就完成了實施,每個機房上下電時長縮短了一倍(由10小時縮減至5個小時)。

雲運維作為雲端計算必不可少的組成部分,會越來越展示出其重要性,成為雲端計算的核心競爭力之一。下一步華為將加大人工智慧在雲運維的投入與實踐,讓資料中心機器人融入更多的運維業務場景,替代傳統的手工操作,提供高度自動化和智慧化的“無人值守”式雲資料中心運維解決方案。

馬力/

相關文章