HUAWEI交換機如何判斷環路故障

上古南城發表於2022-02-09

定義

乙太網交換網路中為了提高網路可靠性,通常會採用冗餘裝置和冗餘鏈路,然而現網中由於組網調整、配置修改、升級割接等原因,經常會造成資料或協議報文環形轉發,不可避免的形成環路。如圖1所示,三臺裝置兩兩相連就會形成環路。當裝置未部署環路保護協議或者組網配置發生變更時,環形組網中就可能會產生廣播風暴。

圖1 乙太網交換網路冗餘鏈路組網圖

二層環路最大的危害就是會產生廣播風暴,乙太網是一個支援廣播的網路,在沒有環路的環境中,廣播包在網路中以泛洪的形式被送達到網路的每一個角落,以保證每個裝置都能夠接受到它。在頻寬允許的情況下,每個網橋在接收到廣播報文以後,都會向除接收埠以外的其他所有介面轉發這個廣播包,一旦網路中有環路,這種簡單的廣播機制就會引發災難性後果。

環路中一個廣播報文被反覆轉發了千萬次,產生了廣播風暴並且很快達到或接近埠線速,並迅速消耗鏈路頻寬。根據轉發規則,這些廣播報文不僅僅只是在環路上無限轉發,環路裝置還會向其他埠轉發一份,這樣整個網路中都充斥著大量重複廣播報文。如果全網路都採用千兆埠互連,那麼幾乎每一條鏈路上都充斥著1000M/s的廣播報文,正常的資料包文將很難再獲得轉發的機會。

二層網路裝置處於同一個廣播域下,廣播報文在環路中會反覆持續傳送,無限迴圈,形成廣播風暴,引發MAC地址表不穩定等故障現象,進而影響正常業務,導致使用者通訊質量較差,甚至通訊中斷。

為防止環路出現,並保證網路的可靠性,交換機裝置上通常會部署一些破環協議。目前S系列交換機支援的二層環路破環協議主要有:

  • STP/RSTP/MSTP
  • RRPP
  • SEP
  • Smart Link
  • ERPS

除了二層環路破環協議,S系列交換機同時支援環路檢測技術,主要的環路檢測技術有:

  • Loop Detection
  • Loopback Detection

總體思路

所有故障皆“事出有因”,故障的發生一定是在一個穩定的正常執行的網路中,某一網路環節發生了變化而引起的,這些誘發網路產品生故障的變化包括:

  • 網路調整:包括但不限於組網調整、配置修改、升級割接等操作;
  • 網路環境發生變化:包括但不限於網路風暴、特定節日/促銷活動/智慧終端導致使用者行為變化,網路裝置電源/溫度環境發生變化、傳輸光纜被切斷、夏令時跳變、微波受大雨/大霧等其後影響、洪水/火災/地震/雷擊等外界不可抗力;
  • 網路裝置發生故障:包括但不限於軟體發生缺陷、硬體老化故障(單板異常、光纖光模組故障)等。

所有這些誘發故障的內在因素絕大多數都有其“外在異常表現”,具體會反映在特定網元的告警、日誌、流量統計、埠狀態等資訊中。因此故障快速定位的關鍵在於,如何有效而快速的通過事發時間、影響範圍、所做操作及故障網路範圍的網元基本資訊的檢視,快速發現這些“外在異常表現”所在的點,進而鎖定故障網元節點,找出問題根因。

如下圖所示,網路中出現二層環路通常會有如下現象,如果分析現網問題發現存在以下異常表現中的一個或者多個,則網路中存在二層環路可能性較大。

圖2 二層環路常見異常表現

環路故障診斷步驟

判斷網路中是否存在二層環路,一般可以使用檢視介面頻寬流量、檢視MAC漂移告警、部署環路檢測、檢視CPU佔用率四種方法進行確認。這四種方法沒有嚴格的操作順序,為更加準確判斷故障屬性,可以使用其中的一種或多種方法來進行問題定位。

圖3 環路故障診斷步驟

 如何快速破環

乙太網環路會在短時間內形成資料風暴,當埠的流量達到頻寬的最大負荷,會形成鏈路擁塞,影響網路業務。因此,在確認現網存在資料環路後,您需要第一時間按照如下步驟處理,儘快恢復資料業務。

  • 1、梳理網路拓撲並識別環路。

  環形網路拓撲一般較為複雜,可以尋求到網路拓撲結構全圖,具體到網路的VLAN規劃資訊,每臺裝置名稱、系統MAC、管理IP,本端埠名稱、對端埠名稱。

  完整的拓撲資訊是解決環路問題的首要條件,如果沒有拓撲圖,需要從發現環路的裝置,通過逐跳登入,記錄裝置資訊、埠資訊和VLAN資訊,手動繪製完整的拓撲。

  • 2、緊急破環。

  緊急破環的操作前提是不要影響遠端登入裝置所涉及的中間裝置、埠和VLAN等,避免引入其他問題,出現裝置脫管、無法遠端登入的現象。

  緊急破環又稱手動破環,當網路風暴嚴重影響正常的業務時,需要使用此方法儘快恢復業務。您可以通過如下三個方法緊急破環。

    • 埠退出已成環的VLAN

      在已經成環的網路上,將其中一個埠退出成環VLAN,屬於影響面最小的破環方法。根據埠型別可執行如下表所示相關命令。

注意:緊急破環的操作前提是不要影響遠端登入裝置所涉及的中間裝置、埠和VLAN等,避免引入其他問題,出現裝置脫管、無法遠端登入的現象。

表1 埠退出已成環VLAN的執行命令表

埠型別

命令列

備註

Access

undo port default vlan

執行此命令後,可能會影響下游裝置業務,請謹慎操作。

Trunk

undo port trunk allow-pass vlan id

Hybrid

undo port hybrid vlan id

執行此命令後,該埠將不區分tagged和untagged報文。

    • Shutdown已經成環的埠
      • Shutdown已經成環的物理埠,也可以達到破環的效果。
      • 執行此動作之前,您需要確保在介面檢視下執行命令shutdown關閉介面後,不會影響正常資料業務,即埠兩端裝置在所有VLAN內仍能通訊。
    • 拔出成環光纖破環
      • 通過拔出成環的埠的連線光纖,也可以緊急破環。
      • 該方法可以使用Shutdown埠代替,只有在裝置無法遠端登入時才使用。
  • 3、確認業務已經恢復。
    • 通過Ping等操作測證網路通訊質量,並觀察現網業務是否已經恢復。
    • 環路拓撲存在冗餘鏈路和配置,因此環路破除後業務一般會自行恢復。

 

相關文章