定義
乙太網交換網路中為了提高網路可靠性,通常會採用冗餘裝置和冗餘鏈路,然而現網中由於組網調整、配置修改、升級割接等原因,經常會造成資料或協議報文環形轉發,不可避免的形成環路。如圖1所示,三臺裝置兩兩相連就會形成環路。當裝置未部署環路保護協議或者組網配置發生變更時,環形組網中就可能會產生廣播風暴。
圖1 乙太網交換網路冗餘鏈路組網圖
二層環路最大的危害就是會產生廣播風暴,乙太網是一個支援廣播的網路,在沒有環路的環境中,廣播包在網路中以泛洪的形式被送達到網路的每一個角落,以保證每個裝置都能夠接受到它。在頻寬允許的情況下,每個網橋在接收到廣播報文以後,都會向除接收埠以外的其他所有介面轉發這個廣播包,一旦網路中有環路,這種簡單的廣播機制就會引發災難性後果。
環路中一個廣播報文被反覆轉發了千萬次,產生了廣播風暴並且很快達到或接近埠線速,並迅速消耗鏈路頻寬。根據轉發規則,這些廣播報文不僅僅只是在環路上無限轉發,環路裝置還會向其他埠轉發一份,這樣整個網路中都充斥著大量重複廣播報文。如果全網路都採用千兆埠互連,那麼幾乎每一條鏈路上都充斥著1000M/s的廣播報文,正常的資料包文將很難再獲得轉發的機會。
二層網路裝置處於同一個廣播域下,廣播報文在環路中會反覆持續傳送,無限迴圈,形成廣播風暴,引發MAC地址表不穩定等故障現象,進而影響正常業務,導致使用者通訊質量較差,甚至通訊中斷。
為防止環路出現,並保證網路的可靠性,交換機裝置上通常會部署一些破環協議。目前S系列交換機支援的二層環路破環協議主要有:
- STP/RSTP/MSTP
- RRPP
- SEP
- Smart Link
- ERPS
除了二層環路破環協議,S系列交換機同時支援環路檢測技術,主要的環路檢測技術有:
- Loop Detection
- Loopback Detection
總體思路
所有故障皆“事出有因”,故障的發生一定是在一個穩定的正常執行的網路中,某一網路環節發生了變化而引起的,這些誘發網路產品生故障的變化包括:
- 網路調整:包括但不限於組網調整、配置修改、升級割接等操作;
- 網路環境發生變化:包括但不限於網路風暴、特定節日/促銷活動/智慧終端導致使用者行為變化,網路裝置電源/溫度環境發生變化、傳輸光纜被切斷、夏令時跳變、微波受大雨/大霧等其後影響、洪水/火災/地震/雷擊等外界不可抗力;
- 網路裝置發生故障:包括但不限於軟體發生缺陷、硬體老化故障(單板異常、光纖光模組故障)等。
所有這些誘發故障的內在因素絕大多數都有其“外在異常表現”,具體會反映在特定網元的告警、日誌、流量統計、埠狀態等資訊中。因此故障快速定位的關鍵在於,如何有效而快速的通過事發時間、影響範圍、所做操作及故障網路範圍的網元基本資訊的檢視,快速發現這些“外在異常表現”所在的點,進而鎖定故障網元節點,找出問題根因。
如下圖所示,網路中出現二層環路通常會有如下現象,如果分析現網問題發現存在以下異常表現中的一個或者多個,則網路中存在二層環路可能性較大。
圖2 二層環路常見異常表現
環路故障診斷步驟
判斷網路中是否存在二層環路,一般可以使用檢視介面頻寬流量、檢視MAC漂移告警、部署環路檢測、檢視CPU佔用率四種方法進行確認。這四種方法沒有嚴格的操作順序,為更加準確判斷故障屬性,可以使用其中的一種或多種方法來進行問題定位。
如何快速破環
乙太網環路會在短時間內形成資料風暴,當埠的流量達到頻寬的最大負荷,會形成鏈路擁塞,影響網路業務。因此,在確認現網存在資料環路後,您需要第一時間按照如下步驟處理,儘快恢復資料業務。
- 1、梳理網路拓撲並識別環路。
環形網路拓撲一般較為複雜,可以尋求到網路拓撲結構全圖,具體到網路的VLAN規劃資訊,每臺裝置名稱、系統MAC、管理IP,本端埠名稱、對端埠名稱。
完整的拓撲資訊是解決環路問題的首要條件,如果沒有拓撲圖,需要從發現環路的裝置,通過逐跳登入,記錄裝置資訊、埠資訊和VLAN資訊,手動繪製完整的拓撲。
- 2、緊急破環。
緊急破環的操作前提是不要影響遠端登入裝置所涉及的中間裝置、埠和VLAN等,避免引入其他問題,出現裝置脫管、無法遠端登入的現象。
緊急破環又稱手動破環,當網路風暴嚴重影響正常的業務時,需要使用此方法儘快恢復業務。您可以通過如下三個方法緊急破環。
-
- 埠退出已成環的VLAN
在已經成環的網路上,將其中一個埠退出成環VLAN,屬於影響面最小的破環方法。根據埠型別可執行如下表所示相關命令。
注意:緊急破環的操作前提是不要影響遠端登入裝置所涉及的中間裝置、埠和VLAN等,避免引入其他問題,出現裝置脫管、無法遠端登入的現象。
埠型別 |
命令列 |
備註 |
---|---|---|
Access |
undo port default vlan |
執行此命令後,可能會影響下游裝置業務,請謹慎操作。 |
Trunk |
undo port trunk allow-pass vlan id |
無 |
Hybrid |
undo port hybrid vlan id |
執行此命令後,該埠將不區分tagged和untagged報文。 |
-
- Shutdown已經成環的埠
- Shutdown已經成環的物理埠,也可以達到破環的效果。
- 執行此動作之前,您需要確保在介面檢視下執行命令shutdown關閉介面後,不會影響正常資料業務,即埠兩端裝置在所有VLAN內仍能通訊。
- 拔出成環光纖破環
- 通過拔出成環的埠的連線光纖,也可以緊急破環。
- 該方法可以使用Shutdown埠代替,只有在裝置無法遠端登入時才使用。
- Shutdown已經成環的埠
- 3、確認業務已經恢復。
- 通過Ping等操作測證網路通訊質量,並觀察現網業務是否已經恢復。
- 環路拓撲存在冗餘鏈路和配置,因此環路破除後業務一般會自行恢復。