電信運營商網路運維方案

北京智和信通發表於2023-04-27

隨著新一代資訊科技加快普及應用,5G、雲和人工智慧正加速智慧社會的到來,三大技術正在重構網路。隨著我國5G產業快速推進,中國移動、中國聯通、中國電信加快步伐,全業務運營時代已經到來。全業務運營時代的特點是:網路規模大;業務種類將越來越多。越來越多的人開始進入資訊通訊網路且使用各種娛樂、商務、貿易等資訊通訊服務,一旦網路安全出現問題,必將帶來十分嚴重的後果。因此,IT運維繫統在逐步升級的過程中,除了要支撐多業務、融合計費等需求之外,還要提供高等級的安全保障。

電信運營商網路運維痛點

5G時代的到來,為運營商帶來了全新的商業模式,隨著運營商業務發展,業務支撐網路和業務系統越來越複雜。網路線路、網路裝置、雲資源等基礎設施的不斷增加,使得整個網路結構變得非常龐大而且複雜;同時隨著業務系統的增加,業務場景越來越多,業務複雜度越也越來越高。在傳統運維管理手段下,對於多段網路、多層架構的應用,在問題發生時,分析定位、排障的速度相對較慢。

具體表現為如下:

  1. 各電信運營商網路中都存在大量的 IT 基礎架構設施、雲、虛擬化等,各種裝置型別和裝置廠家眾多,難以統一管理;

  2. 裝置多分佈在大大小小很多個機房,運維管理效率低下,且各系統的分散建設,造成重複建設、重複投資,造成資源浪費、能耗無謂增加;
  3. 隨著業務系統逐步上雲,電信運營商對雲的監控提出更高要求,目前對雲環境、容器環境的管控覆蓋面及手段尚有不足;
  4. 電信運營商網路中業務系統眾多、網路結構複雜,其中的網路裝置、伺服器、資料庫、中介軟體、分流裝置、交換機、儲存、雲、虛擬化、應用等發生問題時定位困難;
  5. 分層、多廠家、異構等多種場景下,問題診斷和分析的複雜度高,故障定位和根因分析困難,排障費時費力;
  6. 運維監控產品能力參差不齊、運維資料分散,缺乏全面的資料統計和分析,分析問題故障時無法形成有效聯動;
  7. 缺乏對IP地址等網路資產生命週期管理;
  8. 運維人力外包形式普遍,手工運維+零散工具導致工作量居高不下,缺乏靈活定製和使用的能力,且對運維人員經驗依賴較重;


智和信通電信運營商IT運維方案

當前,電信運營商面臨著5G、虛擬化、物聯網等技術衝擊的壓力,為推進自身業務數字化,電信運營商建設了大量的IT系統,系統規模呈幾何級增長,加之虛擬化微服務架構複雜多變,同時也急需提升效率、最佳化成本。北京智和信通電信運營商IT運維方案,透過對各類網路場景下的跨域資源整合、資料深度挖掘、異常監測、自動化運維等能力,實現電信運營商IT運維從標準化向自動化、智慧化、數字化轉型。


多網融合架構視覺化

運營商多采用多網融合架構,一般來講,運營商網路包括省際和省內骨幹網路,各省內又包含許多都會網路,都會網路下又有許多使用者駐地網透過接入網連線進來。網路架構中軟硬體環境涉及的技術複雜,廠商眾多。北京智和信通透過網路架構拓撲視覺化能力,將網路資料從離線表格轉移至平臺內,從靜態的網路架構資料轉化為動態智慧拓撲,實現全網裝置、資源、連結關係、IP等實時更新、快速定位。


核心網路架構視覺化

在動態拓撲上展現裝置實時狀態,透過樹形、平面結構聯動展示裝置間連結關係,按片區、按地域、按層級等多種佈局方式劃分網路,使用不同顏色、粗細、圖示表示被管物件的狀態資訊,助力運維人員實時瞭解網路架構及全網執行狀態,快速感知資源、鏈路、流量等異常資訊。


基站、機房架構視覺化

以2.5D管理檢視對不同品牌、型別、版本的網路裝置、安全裝置、儲存、主機、中介軟體、資料庫、虛擬化、應用服務、影片監控、動力裝置、環境裝置等進行統一、全方位、多層次的綜合管理,實時分析資源當前效能和執行狀態,直觀反映資源的動態變化對支撐業務的影響。


端到端全鏈路視覺化

從整體維度到區域性維度全面展示電信運營商網路內裝置鏈路各項指標,整體可觀測、可告警、可分析、可統計,透過實時監控各個埠以及每條線路的通斷情況和效能指標,結合專業的流量監控分析能力,對鏈路容量進行即時監控,並生成流量分析報告,為容量規劃提供依據。

全網資源監控視覺化

本方案實現網路裝置資訊高頻採集,並結合智慧演算法,實現對整體網路架構、裝置執行狀態、業務可用狀態的實時資訊採集和感知。針對電信運營商網路內各類裝置、業務系統構建統一、智慧監控體系,對業務系統、作業系統、基礎設施、主機儲存、資料庫、中介軟體、虛擬化、雲、資料中心機房等全方位監管。遮蔽廠商、型號差異,全面掌握電信運營商網路整體執行情況和執行效能,能高效、快速、精準進行故障定位診斷。

影片裝置集中監控

本方案可對不同品牌、不同型號的攝像頭進行統一運維,融合網路高畫質、智慧分析、多級管控為一體。支援監管影片監控體系涉及的影片前端裝置(攝像頭、卡口、編解碼器)、傳輸裝置(光纖收發器、EPON 等)、內場裝置(網路與安全裝置、主機/虛擬機器、儲存裝置)、機房動力環境等統一接入、集中管理。

精細化私有云監控

方案基於對私有云中的系統資源、租戶資源的監控,實現雲資源的生命週期管理,透過視覺化運維編排,進行雲管理策略預設配置、雲策略批次/定時執行、智慧監控巡檢。支援多雲納管、持續監控,對雲的容量進行智慧化分析,為容量最佳化提供依據。

裝置模型庫監管無限制

方案採取使用者自定義裝置型別及其裝置資源的方式,賦予使用者自定義適配裝置的能力,地支援對不同裝置型別的支援。透過自定義裝置型別及其裝置資源,大限度上提高了智和網管平臺的管理範圍,真正實現了對裝置及其資源的全面化管理,達到管控萬物的目標。

實時故障預警,及時洞察異常資訊

方案透過統一的故障管理平臺,將各個模組中的監控資訊統一採集、分析,實現整個電信運營商網路中各種事件資訊、裝置故障、網路異常、流量異常等告警,以智慧化手段進行標準化的分析、壓縮、並歸關聯等,透過多種方式實時傳達告警資訊,保證落實到指定人員進行處理,為電信運營商提供主動式的故障解決方案。

全面採集電信運營商所有聯網裝置,如儲存、伺服器、路由器、交換機、防火牆、虛擬化、雲、PTN等裝置、資源、應用、服務等狀態資訊,透過對告警機制以及閾值的設定,第一時間獲取準確的告警資訊,快速定位告警裝置,提升告警處理效率,降低因裝置故障帶來的損失。


人工運維與故障自愈結合

將人工運維與故障自愈結合,無需針對告警進行手動處置,只需預編排告警處理流程,平臺根據場景自動觸發,實現故障自愈。

透過實時發現告警,進行預診斷分析,判斷告警型別和級別,如果是一般告警,平臺進行自動恢復,如果是嚴重複雜告警則透過告警通知、運維工單等形式通知運維管理人員,進行人工處理。同時,將只能有專家處理的各類操作和判斷轉化為可存在於平臺內的流程,形成可保留可複用的運維知識。

IP地址全生命週期監管

對於電信運營商的網路IP資產,採取統一資料標準,對整體網路中的IP和MAC進行梳理和管理,記錄MCA和IP的對應關係、IP使用單位並關聯合同附件,IP/合同到期後進行提醒。

建立健全IP資產臺賬,透過自定義多級資產分類,細化資產類別,實現資產分類管控,提高資產精細管理程度。從IP分配、呼叫、回收等,每一步操作均實現完整記錄,支援追溯,透過平臺實現IP資產整個生命週期的全流程閉環管理,使得IP資產每一次生命週期變更,都有流程可依、都有跡可循,從而實現全面的IP監管。

子網及IP地址資訊檢視

方案支援端到端規劃、部署、管理和監控IP 地址。透過智慧IP掃描能力,定義多層次子網,然後掃描其範圍內每個IP地址的當前狀態,包括IP地址,MAC地址等資訊,也可以檢視IP段內地址使用詳情,便於IP地址分配管理等。

IP地址分配與使用

支援透過埠檢視及列表檢視的形式,展示當前IP地址的使用情況,可檢視某個子網的IP現網詳情資訊,如IP、掩碼、主機名、裝置型別、現網MAC、現網接入裝置、現網接入埠、規劃MAC、規劃接入裝置、使用人等,可批次分配IP地址。


IP地址異常追蹤

方案支援透過追蹤IP地址的歷史關聯MAC、接入裝置/埠變更記錄等與規劃繫結MAC、規劃接入裝置/埠進行對比分析,當與規劃不一致時生成一條異常記錄,從而稽核IP/MAC是否正確使用。


IP-MAC繫結

對全網MAC和IP進行配對繫結,並週期性對MAC-IP進行檢測。自動將規劃表中的IP-MAC設定為繫結關係,自動掃描線上終端,當MAC-IP的繫結關係發生衝突時產生告警,保證入網終端安全可信。


全覆蓋IT資源自動巡檢

傳統的人工巡檢,尤其是應用巡檢,缺乏統一的規範、標準,導致巡檢的範圍和深度都存在一定的侷限性,並且是基於人工的手工統計,工作效率比較低,同時耗費較大的人力資源。

本方案依託平臺將以前依賴手工進行的日常巡檢轉換為自動化、定時執行的巡檢策略。制定統一的巡檢指標、巡檢方式、巡檢頻度等,保證巡檢標準化、巡檢範圍、巡檢深度;透過設計巡檢作業、資料採集方式、自動化作業排程等實現日常巡檢的自動化,代替手工工作,提高效率的同時,解放管理人員,釋放管理人員更多的精力,使更多的精力處理更重要的事項。

業務可用性管理

電信運營商業務系統流程從終端使用者側的櫃面、手機APP、官網、CRM系統、線上客服系統,到線上計費系統,再到後端核心系統,每個環節互相關聯影響。本方案以保障業務可用性為基礎,透過對承載業務的IT基礎設施構建真實的業務模型。直觀呈現面向服務的業務系統體系架構;準確反映裝置異常對核心業務、使用者造成的影響和威脅,快速查明導致業務中斷的故障源,幫助運維人員做出及時響應,保障業務連續性。

業務可用性撥測分析

針對業務應用效能與使用者體驗進行檢測分析,無需安裝外掛即可提供開箱即用的主動撥測試業務監測。直觀、便捷地幫助運維人員對電信運營商內辦公系統、支付系統、線上客服系統、線上計費系統、CRM系統、官網、手機APP系統等進行監控,掌握業務的執行狀態和健康水平,瞭解業務動態變化趨勢,快速定位故障源,降低運營風險。

業務依賴關係可視展示

方案透過構建包含各業務整體流程的呼叫依賴關係圖譜,展示業務部署中網路裝置間多維度關係拓撲。對從業務的前臺受理到真正完成的整個業務流程所依賴的業務應用、伺服器、中介軟體、資料庫、作業系統等進行實時監控分析,透過視覺化的方式呈現業務健康狀況,聯動裝置監控,快速定位導致業務健康指數波動的原因,保障核心業務流程穩定、高效。


全網頻寬、流量監控與回溯分析

方案基於海量流量資料的儲存挖掘,實現對網路流量的偵測分析。透過網路流量分析技術,採集、分析、儲存所有網路流量,回溯分析資料包特徵、異常網路行為,以多維資料分析和深度挖掘為手段,實現資料包層面的流量追蹤,發現潛伏於網路中的未知攻擊。


提供裝置、介面、IP、服務、應用、會話等層級的頻寬監控,實時監控頻寬使用趨勢與頻寬佔用分佈,並透過圖表展示,快速識別網路頻寬濫用,分析高頻寬使用情況,識別頻寬消耗較大的應用程式、服務、協議或 IP 地址,避免網路容量過載,並提升終端使用者網路體驗。


無人值守的裝置遠端配置

網路承載的業務經常發生變更,面對業務的變更運維工程師往往要對大量裝置進行操作,此時如果依靠工程師逐一登入裝置進行命令下發、策略配置,將產生大量重複性的工作,不但導致運維效率低下,也不可避免地產生人為配置錯誤。

透過批次作業並行處理能力,實現多裝置併發批處理操作。透過自動化流程,將簡單的裝置控制操作在大批次裝置進行執行,並對執行過程進行監督,對執行結果進行檢查。在安全合規的前提下,將運維人員從整體的變更流程及變更內容的準備中解脫出來,實現網路變更、裝置配置自動化。

針對不同型別的裝置,支援進行各種控制、配置操作。

  1. 對伺服器/主機/虛擬化,支援一鍵開關機、程式管理、應用管理、容量管理等
  2. 對交換機/路由器,支援ACL、QoS、流量策略、埠策略等
  3. 對安全裝置,支援防護管理、認證管理、NAT管理、VPN管理、內容控制等
  4. 對資料庫/中介軟體,支援空間管理、池管理、會話管理、連線控制等
  5. 對傳輸裝置,支援終端管理、鏈路管理、訊號控制、功率配置等
  6. 對其他裝置,支援結合使用者實際場景,透過拖拽流程的方式實現自定義管控策略

支援不同廠商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、華為、H3C、銳捷、中興等多家廠商的網路裝置。


全場景自動化運維

方案將電信運營商網路運維中涉及的服務、命令、操作、執行元件化、策略化,將需要進行的運維服務、操作等以元件、策略的形式託管至平臺中進行維護和管理,透過簡單靈活地編排能力,使用者可以選擇業務場景所需地測,透過視覺化拖拽的編排方式進行組合,即可完成應用場景端到端的圖形化編排,最後以多種方式觸發執行即可完成期望的運維變更任務,從而實現高效、穩定、安全的智慧運維。


視覺化資料分析

利用圖形、圖表、圖表等易於理解的形式,提取和分析大量複雜的電信運營商網路中各類運維資料,呈現分析結果,從而幫助運維人員在短時間內更好地理解和獲得更多的資訊,幫助運維部門能夠實時瞭解業務和其所依賴IT資源的執行狀況,以及提供系統運維和最佳化的指示和依據。

適配各種應用場景,二十四小時不間斷監控,細粒度可達網路中每個裝置、資源和鏈路。所有的網路故障都一目瞭然地呈現,大大降低了管理成本,同時也提高了運維人員處理故障的能力,節省的故障處理時間,為運維人員管理網路提供了可靠的保證。


快速建設運維工單體系

透過方案實現運維工單“無紙化”,支援於裝置和故障管理頁面快速建立工單,把控故障處理進度,透過工單平臺簡化故障處理流程,形成自動化故障處理機制,並在每個處理流程的節點上責任到人,實現在快速響應故障的同時,實現兼顧運維流程管控。

結合電信運營商銷戶、彩鈴、如裝機、 拆機、 加三方通話、減增新業務等業務需求場景,自定義工單模板內的欄位,並對欄位排序進行調整,使工單根據業務的不同更加貼合使用者實際使用情況,提供為不同工單模板設定不同狀態的能力。


自主研發安全可控 全面適配國產信創環境

信創產業包含了從IT底層的基礎軟硬體到上層應用軟體的全產業鏈的安全可控,涵蓋了應用軟體、資訊保安、IT基礎設定、基礎軟體四個領域。其中,基礎軟體是資訊系統最核心的部件,是保障資訊系統安全的重要陣地和最後一道防線,其創新應用與自主可控關係到國家安全和利益,也是產業自主發展的基礎。

本方案支援部署執行在中標麒麟、銀河麒麟、紅旗Linux等國產作業系統,支援在達夢、金倉、神州等國產資料庫進行資料儲存,透過東方通等國產中介軟體提供對外服務[8],支援龍芯、申威等國產CPU架構,並實現對國產化CPU、伺服器、資料庫、中介軟體等IT軟硬體裝置的綜合監控與運維管理。


方案應用價值

透過部署智和信通電信運營商IT運維方案,構建了自動、自優、自愈、自治的智慧運維模式,助力運營商達到統一標準、統一運營、統一管控、統一規劃管理。

實現對所有IT設施不同層次、不同維度的拓撲視覺化及效能指標智慧分析;建立面向宿主機、虛擬機器、容器、5G網元的多維度網路監測檢視,透過跨硬體層、虛擬層、網元層的統一視覺化監控運維能力,降低各技術專業運維難度;實現跨層的視覺化,解決了故障快速定界、定責的難題,快速定位故障源,提升排障時效。


標杆案例

智和信通電信運營商IT運維方案成果,其可靠性在電信運營商大規模、高複雜的網環境下得到了驗證,並得到使用者的充分認可。


中國移動集中統一運維

專案背景

中國移動是我國三大移動運營商之一,公司主要經營行動通訊業務,國內、國際固定電話網路與設施,語音、資料、影像及多媒體通訊與資訊服務,電信增值業務,IP電話業務等國家批准的其他業務,以及與通訊及資訊業務相關的系統整合等業務。

2010年中國行動通訊集團在全國建設了不良資訊過濾系統,此係統由不良資訊過濾軟體、Windows 伺服器、Linux 伺服器、資料庫、分流裝置、交換機、儲存伺服器等構成。

核心需求

中國移動需要一套集中的OMC(操作維護中心)監控軟體,對不良資訊過濾系統的所有的設施進行監控,包括過濾軟體、Windows 伺服器、Linux 伺服器、資料庫、分流裝置、交換機、儲存伺服器等。具體需求如下:

  1. 集中部署OMC,分域管理:各省市管理人員從Internet登入到OMC系統,對本省的裝置進行監控;

  2. 穿透私網:要管理的裝置分散在各省公司下不同城市的機房中, 網管伺服器無法直接訪問各省裝置;在北京的中心機房,可以監控到其他機房的裝置執行情況;

  3. 嚴格的故障處理機制:故障發生、故障通知、故障清除、故障確認、故障恢復,需要符合中國移動的運維管理規定;

  4. 時效性要高:發現故障的時間,平均不能低於30秒,最大不能超過1分鐘;每臺裝置 10—20個需要監控的故障/效能指標,監控週期為10秒鐘;

  5. 統一監控:所有的伺服器、網路裝置、軟體系統在同一介面中統一監控;

  6. 7*24 小時的監控畫面:主監控螢幕需要7*24小時不間斷展示告警和警報。

智和信通解決方案

智和網管平臺已實現包括裝置拓撲、故障管理、效能管理、配置管理以及安全管理等在內的超過1000種基礎網管功能,且支援功能擴充套件。針對中國移動的具體需求,智和信通提出以下解決方案:

  1. 智和網管平臺利用WebService技術採用集中式部署運維平臺,分散式部署的網管採集代理,實現中心、片區的層級監測,片區獨立執行,中心可以集中管理分部的監測資料;
  2. 配置代理伺服器的IP和埠,做到採集服務端的代理模式,可以做到監控私有網段下的裝置;
  3. 具備主動的故障監控功能,能從眾多的事件和狀態中,系統將零散的狀態資訊,總結成為當前工作狀態,併產生告警,可以用聲音、郵件、簡訊及時提醒網管人員;
  4. 採用JAVA多執行緒任務併發技術,把監測頻率提升到秒級,以保證監測資料的實時性,監控週期最低可以設定為5秒;
  5. 智和網管平臺採用了裝置統一模型,可以統一管理Windows 伺服器、Linux 伺服器、資料庫、分流裝置、交換機等各種裝置型別;
  6. 客戶端與服務端之間網路故障恢復後,網管客戶端無需重啟,自動恢復,資料庫停機/故障恢復後,網管系統客戶端、服務端無需重啟,自動恢復,支援雙機熱備功能。

方案成果

智和運維平臺憑藉著優秀的秒級故障監控能力、直觀的拓撲圖介面展示、特有的分省Proxy SNMP閘道器技術、穩固的故障提示和警報提示,最終在中國移動不良資訊過濾系統的北方區域:北京、天津、黑龍江、吉林、遼寧、山東、山西、甘肅、青海、西藏、河南、寧夏共13個省公司 全面上線使用,並透過了極為嚴格的功能驗收和效能驗收。

北京聯通IPTV網路運維

專案背景

中國聯通是我國三大移動運營商之一,公司主要經營行動通訊業務,國內、國際固定電話網路與設施,語音、資料、影像及多媒體通訊與資訊服務,電信增值業務,IP電話業務等國家批准的其他業務,以及與通訊及資訊業務相關的系統整合等業務。

IPTV業務管理平臺提供統一業務監控模組,實現對華為能力平臺(華為S9306、S5352、S930、華為E1000防火牆)、中興能力平臺(中興2826、4507、8905交換機)、播控閘道器、IPTV盒端管理平臺、IPTV業務管理平臺等平臺的統一業務監控,監控內容包括網路、主機、儲存、應用、業務資料等。

核心需求

終端使用者IPTV統一網管負責對IPTV系統涉及的所有網元(包括伺服器、交換機、防火牆、儲存裝置)及系統和應用的故障告警、日誌、效能、拓撲、歷史資料(保留一年的歷史資料)等資訊進行集中管理和展現,並能夠按時、日、月進行統計和輸出報表。

  1. 網後設資料要求

對於網路中的節點要求獲取的資訊包括但不侷限於裝置基本資訊(IP、型別、名稱等)、裝置網路卡、網路卡流量、CPU記憶體、CDN資訊、儲存資訊、裝置效能等引數。

  1. 故障告警的要求

提供多種告警通知(聲音、簡訊、郵件等),多種告警分類,登入失敗應產生告警通知管理員,告警閾值可調節,可以分權分割槽域進行告警。

  1. 日誌管理的要求

除了記錄基本的操作外,系統中的各裝置都需要建立自己的日誌檔案,定期傳遞給系統的日誌管理,進行集中收集、分析和故障告警。

  1. 效能管理的要求

實時監控裝置和網路的狀態,獲取有關CDN 網路執行的資訊及統計資料;並能在所收集的資料的基礎上,提供網路的效能統計。

  1. 集中展現管理

對所管理區域CDN 及EPG全網裝置提供網路拓撲結構,提供分級的網路拓撲影像及其相關資訊,並根據實際執行情況展現維護和管理網路資源,包括各網元裝置。支援資源的查詢以及統計功能,並且可以實現資源的自動更新。

智和信通解決方案

針對北京聯通IPTV專案的實際需求,智和信通提出了基於智和網管平臺定製開發的解決方案。透過開發擴充套件,讓智和網管平臺支援各平臺透過SNMP、SNMP Trap、FTP、WebServer等協議介面方式進行資料上報的採集監控的採集方式,使平臺監控模組可直接採集被監控裝置資訊。

  1. 支援SSH協議監控主機、CLI、SMI協議監控儲存,JDBC協議監控資料庫、HTTP/JMX協議監控中介軟體;
  2. 透過SNMP協議,自動發現裝置上的資源,如網路介面、記憶體、CPU與磁碟等資訊,透過TCP可以發現裝置上存在的軟體服務;
  3. 平臺透過SNMP 、SNMP Trap、FTP、WebServer等協議介面方式進行資料上報,平臺監控模組直接採集被監控裝置資訊;
  4. 智和網管平臺具備主動的故障監控功能,能從眾多的事件和狀態中,系統將零散的狀態資訊,總結成為當前工作狀態,併產生告警,可以用聲音、郵件、簡訊及時提醒網管人員;
  5. 提供了多項已定義好的資料物件,用於從裝置上採集系統資訊、網路資訊、交換資訊、軟體資訊、磁碟CPU資源、流量資訊,可以透過曲線圖、趨勢圖等展示效能指標,可以按天、星期、月 、任意時間段檢視效能指標變化。

方案成果

聯通IPTV網管部署上線後,管理員可以透過IPTV網管對網路下的所有網元裝置(包括伺服器、交換機、防火牆、儲存裝置)及系統和應用的故障告警、日誌、效能、拓撲、歷史資料等資訊進行集中管理和展現,並能夠按時、日、月進行統計和輸出報表,方便了管理員對系統的管理,提高了管理的效率。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70011401/viewspace-2949166/,如需轉載,請註明出處,否則將追究法律責任。

相關文章