監控 WebSphere DataPower SOA Appliances

CloudSpace發表於2010-05-31

轉自http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1003_rasmussen/1003_rasmussen.html

簡介

IBM® WebSphere® DataPower® SOA Appliance(以下簡稱 DataPower)是為簡化、保護、加速 XML、Web 服務和 Enterprise Service Bus 部署而特別設計的硬體平臺。

和其他網路裝置一樣,監控 DataPower 裝置的健康狀況和容量可以確保它們能完成預先配置好的功能。監控不僅能將異常情況通知管理員,還能提供長期的裝置管理和容量利用的趨勢分析,從而使組織實現投資回報最大化,獲得有關網路容量增長和潛在容量問題的警告。

本文描述了各種 DataPower 狀態查詢方法,並提供瞭解讀這些資訊的策略和最佳實踐。本文基於 DataPower Firmware Revision 3.8.0。韌體增強可能會影響對狀態提供程式的監控,因此請參閱最新的韌體文件,瞭解有關元件監視的新內容。

為什麼要實施監控?

DataPower Appliance 家族包含 1U 機架式網路裝置。最新一代裝置(9235/9004 級)包含四個千兆乙太網介面、一個 DB-9 串列埠、熱交換電源和風扇組、電池、八千兆 RAM、基於快閃記憶體的檔案系統,以及由其他多個部件組成的一個防干擾機箱。可選特性包括內建硬碟驅動器、硬加密模組,以及更多的快閃記憶體架(flash bay)。

每個元件都幫助確保裝置得到正確配置,適合其接收的網路資料量。瞭解裝置是否執行正常可確保它們是可用的並能夠處理此流量。例如,如果提前收到裝置風扇的工作異常警報,就可避免因意外服務導致裝置離線。瞭解網路流量的級別並瞭解增長變化就可以避免流量隨時間增加帶來的瓶頸。

DataPower 監控基礎知識

DataPower 提供了大量關於一般系統健康狀況以及資源與服務消耗的資訊。物理引數包括 CPU 溫度、記憶體與檔案系統利用情況、介面利用、電壓讀數,以及其他物理值。此外,還有一些公式化指標,如 System Usage,它將計算系統容量。

DataPower 通過很多方式公開這些狀態值。可以使用 Web GUI 或 Command Line Interface(CLI) show 命令檢視狀態值列表。或者可以使用 XML Management Interface (XMI) 向裝置傳送包含 dp:get-status 請求的 SOAP 訊息,裝置將使用 SOAP 響應中包含的狀態資訊進行響應。DataPower 還支援 Simple Network Management Protocol(SNMP) 並充當 SNMP 代理,提供狀態資訊來響應 SNMP 操作以及警報建立(通過 SNMP 通知機制)。

圖 1 在 Web GUI 中顯示了 CPU 使用資訊。這是通過 Status Menu => System => CPU Usage 導航獲得。表中顯示的是從最近 10 秒到最近 24 小時的資料。


圖 1. Web GUI CPU 使用資訊顯示
Java Beans 檢視

CLI show 命令用於顯示狀態資訊,清單 1 顯示的是 show cpu 命令,它將會提供與 Web GUI 中一樣的資料表格:


清單 1. CLI Show CPU 命令
				
xi50# show cpu
                    10 sec    1 min   10 min   1 hour    1 day
cpu usage (%):        1        1        7        7        7   
						

雖然 Web GUI 和 CLI 都可以通過互動的方式方便地獲取狀態資訊,而 XMI 則可通過程式設計方式整合到更復雜的解決方案中。例如,Java™ 類可以執行 dp:get-status 請求或者根據響應進行配置修改。清單 2 中的 SOAP 請求顯示的是用於獲取 CPU 使用資訊的 dp:get-status 請求:


清單 2. 獲得狀態的示例 XMI 請求
				

    
        
            
        
    

						

響應在 SOAP 有效負荷中返回,如以下的清單 3 所示。再次返回 CPU 狀態,它包含在一個子樹中,其中包含與 Web GUI 和 CLI 相同的資料表格:


清單 3. XMI dp:get-status 響應
				


    
        
            2009-09-24T11:56:22-04:00
            
                
                    1
                    1
                    1
                    1
                    1
                
            
        
    

						

可以通過 dp:get-status 請求獲得大量狀態資料。更多資訊,包括自定義 dp:get-status 和其他 XMI 操作的模式和 WSDL 細節,請參閱 IBM 紅皮書 WebSphere DataPower SOA Appliances: The XML Management Interface

很多組織使用 SNMP 協議以及諸如 IBM Tivoli Monitoring (ITM) 和 Tivoli Composite Application Manager (ITCAM) 之類的產品系列中的工具來查詢網路裝置的健康狀況和容量。這些工具通過 UDP 使用 SNMP 來為 SNMP 代理輪詢裝置和應用程式指標。管理軟體還會收到來自代理的通知警告,以響應裝置中發生的特定事件。DataPower 裝置還會被配置為充當一個 SNMP 代理,對進入的輪詢請求進行響應併發出警告以響應預配置的事件。

SNMP 狀態變數被組織為層次結構,這在 Management Information Base (MIB) 文件中有所描述。每個可被輪詢的指標都通過 Object Identifier (OID) 編址。有些指標是描述單個資料點的標量物件,如裝置的當前韌體版本。其他指標可能是列表值,如之前例子中提供的 CPU 狀態。當知道特定的 OID 後,SNMP 管理器可用 GET OID 獲得特定的指標。如果需要某一個層次結構的所有指標,可用 Get Subtree 獲得該層次結構中的所有值。DataPower 裝置提供了三個 Enterprise MIB 文件,分別針對配置、狀態和通知。這就是我們感興趣的狀態 MIB。

雖然狀態查詢直接明瞭,但警報是通過幾個 DataPower 物件完成的。裝置有四個內建的通知警報:authenticationFailure、linkDown、coldStart 和 linkUp。其他要預先設定,如下所示。正確配置的 SNMP 監視器會在裝置重啟、啟用或禁用其介面或對裝置的訪問失敗時接收到警報。除了這些內建警報,還可以通過訂閱錯誤條件列表或配合使用日誌系統來生成定製警報。

僅僅依賴警報並不是一項全面的監視策略。例如,如果產生警報的事件影響了裝置通過網路傳送訊息的能力,SNMP 監視器可能收不到通知。因此明智的做法是將警報訊息的訂閱與狀態資訊輪詢相結合,提供一個健壯的與監控工具通訊的機制。

如何監控

很多狀態提供程式(或監控代理)都內建在 DataPower 韌體中來獲得狀態資料。很多提供程式都是裝置特定的。這些提供程式(如環境元件、風扇、溫度、或電池健康狀態),都包含在預設域中,一般是啟用的。其他狀態資料(如 DataPower 服務的事務率)是按應用程式域劃分的,並且可進一步通過 XML-Manager 或 DataPower 服務劃分。

裝置級資料是自動啟用的,而事務資料(如事務率或事務時間)只有在對裝置啟用了 Statistics 時才有效。但也有例外 —— 例如,CPU 狀態需要統計資訊支援,而 System Load 卻不需要。每個域都有自己的 Statistics 設定,用來提供與域有關的狀態。

這一節將演示如何從 SNMP 工具中啟用 DataPower 監視,以及如何從 DataPower 中產生 SNMP 警報。您將看到如何進行 Logging Target 配置來產生基於系統事件的警報,以及如何訂閱 Out of Memory 或 Power Supply 故障之類的事件來生成警報。將使用一個 Power Supply 故障示例來演示這些規則。

首先要配置 DataPower 裝置上的 SNMP 設定。該配置在預設域中可訪問,並通過 DataPower Web GUI 左邊的導航選單訪問,首先選擇 Administration 選單,然後選擇 Access 標題下的 SNMP Settings。

該配置包含多個選項卡。在主選項卡中要將 Admin State 設定為 Enabled。通常,將 Local IP Address 設定為預設域中定義的 Host Alias,它對映到 Management Interface IP,後者將 SNMP 輪詢請求限制到這個 IP,而不是任何客戶端流量介面(eth0、eth1 或 eth2)。圖 2 顯示預設 Local Port 161 上啟用的 SNMP 設定。出站輪詢響應和陷阱(trap)將通過具有正確路由的任何裝置介面傳送出去。為了使出站流量流向相同的 IP,向裝置的 mgt0 配置新增一個靜態路由。


圖 2. 啟用 SNMP 設定
啟用 SNMP 設定

DataPower MIB 可以從裝置下載,並被任何 SNMP 管理工具所使用。MIB 允許這些工具將已命名的物件(諸如 dpStatusMemoryStatusUsage)轉換成一個 OID,用來請求指標。所有的裝置狀態 OID 都在 drStatusMIB.txt MIB 檔案中。圖 3 顯示的是 SNMP Settings 螢幕中的 Enterprise MIB 選項卡,以及下載 MIB 的方法:


圖 3. SNMP MIB 下載選項卡
SNMP MIB 下載選項卡

Trap Event Subscription 選項卡包含可作為警報傳送給管理軟體的事件程式碼列表。示例包括面向 “內部冷卻風扇已停止” 或 “電源錯誤” 的程式碼。以下的圖 4 顯示的是一些預設的預先下載的訂閱。要新增另外的事件,單擊 Select Code。如果特定的程式碼未在列表中顯示,可手動新增。例如,新增程式碼 0x806000e2 將會增加監視事件,表示證照何時會過期。可以從預設日誌中的相關日誌記錄中獲得這些事件程式碼。還可以從您的韌體版本的 Message Reference 文件中獲得事件程式碼。


圖 4. SNMP Trap Event Subscription
SNMP Trap Event Sub.ion

SNMPV1/V2c Communities 選項卡使用 SNMP V1 和 V2 定義了管理軟體的訪問策略。社群名用作訪問裝置上的 SNMP 資料的憑證。對於只讀訪問的通用社群名是 public。一個 DataPower 域,無論是預設的還是應用程式域,都可與配置的社群相關聯。

如果將要對應用程式資料輪詢,需指定應用程式域;否則就使用預設域。指定應用程式域並不能防止管理軟體輪詢裝置級指標,如裝置載入、CPU 利用、記憶體指標以及環境統計資料。另外,它允許對應用程式指標輪詢,如事務率和時間、MQ 佇列管理器狀態、訊息計數器或 SLM 指標。

社群模式應當配置為對裝置狀態指標進行只讀訪問。最後,遠端主機訪問 0.0.0.0/0 讓任何 SNMP 管理器都可以訪問該社群。如果需要,可以限制 IP 範圍。要配置額外的社群,單擊 Add。圖 5 顯示的是指定 SNMP V1/V2c 社群名為 public,可用於 swlinn-poc 域內的應用程式域狀態的只讀訪問。


圖 5. SNMP Community Settings 指定和應用程式域
SNMP Community Settings 指定和應用程式域

Trap and Notification Targets 選項卡可以讓您指定接收 SNMP 警報和通知的 IP 和 SNMP 管理器埠。預設是 UDP 埠 162。必須指定社群名和 SNMP 版本(1、2c 或 3)。如果使用版本 3,DataPower 使用者名稱在 Security Name 欄位提供。該使用者將用 SNMP V3 憑證進行配置。需要發出警報的特定事件在 SNMP Trap Event Subscription 選項卡或 SNMP 日誌目標的訂閱配置中設定。SNMP Trap Event Subscription 選項卡中預設預配置的事件是重要的裝置相關事件,如記憶體用盡,或如電源、電池、風扇的硬體問題。要配置額外的通知目標,單擊 Add。圖 6 顯示的是對 SNMP 警報的接收者的配置,使用的是 SNMP Version 2c,社群名為 public:


圖 6. SNMP Trap and Notification Targets
SNMP Trap and Notification Targets

最後,SNMPV3 Contexts 選項卡讓 SNMPV3 管理器能訪問非預設的應用程式域。要想只允許 SNMP 查詢,只需啟用 SNMP 設定並提供 SNMPV1/V2c 社群。陷阱和通知目標以及事件訂閱在向 SNMP 管理器傳送事件警報中是必需的。

如前所述,有些狀態資料如風扇速度、CPU 使用都是與裝置相關的。其他狀態資料(如事務率)是根據應用程式域劃分的,並只有在統計資訊設定被啟用時才會累計,如下圖 7 所示。啟用統計資訊對系統利用率只有很小的影響。調整 Load Interval(SNMP 輪詢的頻率)將進一步限制這種影響。


圖 7. 每個域啟用的統計資訊
每個域啟用的統計資訊

以下是一個輪詢裝置指標的例子:SNMP 管理器傳送一個 SNMP GET 命令用於獲取 dpStatusMemoryStatusUsage 指標,它將返回一個記憶體使用百分數的標量值。很多 SNMP 管理器,當用 DataPower MIB 配置後,會提供一個狀態 MIB 的樹形分層結構,其中可以選擇合適的指標、對指標進行輪詢並顯示值。

如果在 DataPower SNMP 配置中指定了應用程式域,也可以對應用程式監視進行輪詢。根據應用程式配置,可以輪詢特定的指標來提供健康狀況資料或應用程式吞吐量。這些與應用程式相關的表條目與系統級指標不同,因為它們是動態的,並基於這些表的關鍵欄位。以應用程式指標的輪詢為例,考慮一下 dpStatusHTTPTransactions2Table 表,它包含一個域中各時間間隔的所有服務的事務率。該表中的指標基於服務類,例如 XMLFirewallService,以及服務名,如 Loopback_FW。

除了在 SNMP 設定中指定事件訂閱,還可配置 DataPower 日誌目標來產生 SNMP 日誌事件,它將允許 DataPower 針對感興趣的特定事件傳送警報。從 DataPower Web GUI 左側導航欄的 Miscellaneous 標題下的 Administration 選單中選擇 Manage Logging Targets。單擊 Add 生成新的日誌目標,並指定 Target Type 為 SNMP。圖 8 顯示的是 SNMP Target Type 型別的日誌目標:


圖 8. SNMP 日誌目標
SNMP 日誌目標

SNMP 日誌目標可以訂閱和過濾事件,就像其他 DataPower 日誌目標一樣。SNMP 的陷阱和通知事件程式碼列表中指定了大多數重要事件。在預設域中訂閱所有緊急或以上級別事件的 SNMP 日誌目標都是用同樣方式產生警報。儘管如此,在應用程式域中的日誌目標訂閱 則更多是程式相關的。例如,可以在錯誤或以上級別用 MQ 或 SSL 日誌類別來指定日誌。還可以使用定製日誌類別指定由定製樣式表生成的日誌訊息。圖 9 顯示了針對這個 SNMP 型別日誌目標的所有緊急事件的訂閱:


圖 9. Logging Target Subscriptions
Logging Target Sub.ions

現在已講解了設定和啟用 SNMP 警報的步驟,以下是電源警報的示例。使用以上配置,一個或兩個電源插頭已被拔掉。圖 10 顯示的是電源失敗相關的日誌條目:


圖 10. System Log Entries
System Log Entries

SNMP 配置對可接收來自裝置公共社群的警報的 SNMP Manager 未指定任何限制。任何在裝置 162 埠監聽警報的 SNMP 管理器將收到有關電源錯誤事件的陷阱。

這節將向您演示如何配置 DataPower 以從 SNMP 工具啟用對裝置和應用程式的監控,以及如何生成應用程式內部的警報。日誌目標配置用於根據日誌事件生成警報。SNMP 配置被配置為通過訂閱系統事件(諸如 “記憶體耗盡” 或 “電源錯誤”)以及應用程式事件(SSL 認證過期)來生成警報。還演示了在應用程式級別啟用統計資訊。展示了對記憶體指標的輪詢來演示裝置指標監控,通過對事務率表格的輪詢來演示對特定於應用程式的指標的監控。最後,通過電源故障的例子來演示 SNMP 警報。

監控的物件

監控可以實現多個目標。裝置及其各個物理部件的一般健康狀況可以通過環境狀態資訊(如溫度、風扇速度以及電池和電源狀態)確定。系統負載可以通過特定的狀態值如 System Usage 查出,另外還有一些更熟悉的測量,如 CPU、記憶體以及檔案系統利用率。由裝置處理的資料量可以通過分析網路介面消耗來確定。下節討論幾個有用的狀態值。每節都演示如何從 Web GUI 確定資料,XMI 響應的元素,執行 CLI 命令以顯示狀態,以及來自 SNMP Enterprise MIB(包含值)的物件。

一般裝置健康狀況和活動監控

一般健康狀況和活動監控將確保 DataPower 裝置執行在預先配置的系統引數下。可以通過系統載入和 CPU 利用率來分析系統容量。可以評估正常執行時間來確保裝置不會遇到意外重啟。可以檢查風扇和溫度來避免溫度過高,它會使裝置無法正常執行。以下的監控就包含在這些任務中:

System Usage

Web GUI System => System Usage XMI SystemUsage/Load
CLI Show Load Status MIB dpStatusSystemUsageLoad

System Usage 用於測量裝置接受額外工作的能力。它根據系統負載的各個組成使用公式進行計算。System Usage 通常被認為是總體系統容量的最佳單一指標。儘管有時它會達到 100%,但通常它的值小於 75%。次要的工作列表值是計算佇列任務,通常在監控中不太重要。


圖 11. System Usage Status
System Usage Status

CPU Usage

Web GUI System => CPU Usage XMI CPUUsage
CLI Show cpu Status MIB dpStatusCPUUsage

CPU Usage 統計資訊分五個時間段提供。很多使用者習慣於監控 CPU 利用率,但 DataPower 中的這個指標在確定裝置容量方面不如 System Usage 那麼可靠。DataPower 會自我優化,當裝置執行後臺活動時,會出現與流量無關的 CPU 峰值。CPU 使用率有時會一直達到 100%,但這種情況一般不用擔心,除非多個連續輪詢都是如此。


圖 12. CPU Usage Status
CPU Usage Status

Memory usage

Web GUI System => System => Memory Usage XMI MemoryStatus
CLI Show memory Status MIB dpStatusMemoryStatus

Memory Usage 統計資訊用於各類裝置的快閃記憶體。統計資訊中包括總的記憶體利用百分比;全部、已使用的和空閒的記憶體位元組數;以及一些不太重要的監控資料,包括請求、XG4 和佔用記憶體。已使用記憶體的百分比取決於應用程式、請求和響應訊息的大小,以及請求的數量和延時。通常的利用率小於 80%,當統計資訊超過這個限制時,需要保持警惕。可以使用裝置的 Throttle Settings 來暫時減緩請求處理或執行熱重啟,將在這種情況下重新取回記憶體。

以下的系統錯誤程式碼與這些感測器相關,可用來觸發 SNMP Trap Event Subscription 配置中的警報:

0x01a40001 Throttling connections due to low memory
0x01a30002 Restart due to low memory 
0x01a30003 Memory usage recovered above threshold
						


圖 13. Memory Usage Status
Memory Usage Status

檔案系統資訊

Web GUI System => System => File system Information XMI FilesystemStatus
CLI Show Filesystem Status MIB dpStatusFilesystemStatus

檔案系統統計資訊用來提供加密、臨時、內部檔案系統的空閒和總的空間資訊。監控所有空閒空間指標 —— 當低於總空間的 20% 時應引起注意。可以使用裝置的 Throttle Settings 來暫時減緩請求處理或執行熱重啟,這將在空閒空間減少的情況下重新取回檔案系統空間。

以下的系統錯誤程式碼與這些感測器相關,可用來觸發 SNMP Trap Event Subscription 配置中的警報:

0x01a40005 Throttling connections due to low temporary file space 
0x01a30006 Restart due to low temporary file space 
0x01a50007 Temporary file space recovered above threshold
						


圖 14. File system Usage Status
System Usage Status

系統執行時間

Web GUI Main => Date and Time XMI DateTimeStatus/uptime
CLI DateTimeStatus/ uptime Status MIB dpStatusDateTimeStatusuptime

系統執行時間表示自裝置最近一次重啟後經過的時間,包括受控制的韌體重新載入和所有意外的裝置重啟。DataPower 裝置在重啟時會自動進行節流(throttle)設定,如記憶體或檔案系統限制。當使用 SNMP 通知發出警告時,通過輪詢來監控執行時間可確保所有的通知發生故障不會影響這些事件。


圖 15. 日期和時間狀態
日期和時間狀態

溫度感測器

Web GUI System => Temperature Sensors XMI TemperatureSensors/{various name values}
CLI Show Sensors-Temperature Status MIB dpStatusTemperatureSensorsTable

各種溫度讀數可用於 CPU、記憶體和系統。每個元件都有相關的警告和危險溫度,狀態值為 OK 或 FAIL。監控這些狀態值能確保裝置在特定溫度範圍內執行。通過檢查風扇速度、周邊氣流可以確定溫度是否超出正常範圍,如果必要,還要聯絡 DataPower 技術支援。


圖 16. 溫度感測器狀態
溫度感測器狀態

風扇感測器

Web GUI System => Fan Sensors XMI EnvironmentalFanSensors/{various fan-id values}
CLI Show Sensors-Fan Status MIB dpStatusEnvironmentalFanSensorsTable

裝置風扇的正常運轉對裝置的正常執行至關重要。有兩個可熱交換的風扇組。如果裝置包含可選硬碟驅動器,將會有額外兩個風扇。每個值都與一個最低範圍和狀態指示器關聯。監控狀態值將確保風扇正常運轉。以下的系統錯誤程式碼與這些感測器相關,可用來觸發 SNMP Trap Event Subscription 配置中的警報:

0x02240002 Internal cooling fan has slowed
0x02220003 Internal cooling fan has stopped
						


圖 17. 風扇感測器狀態
風扇感測器狀態

其他感測器

Web GUI System => Other Sensors XMI EthernetInterfaceStatus/{various name values}
CLI Show Sensors-Other Status MIB dpStatusOtherSensorsTable

在 Other 類別中還有另外幾個感測器,包括電池、硬碟和電源指示器。入侵檢測感測器也在此列表中,當檢測到物理裝置被干擾時將觸發該感測器。所有這些變數都包含狀態值。監控這些狀態值可確保風扇及其他部件正常執行。

以下的系統錯誤程式碼與這些感測器相關,可用來觸發 SNMP Trap Event Subscription 配置中的警報:

0x02220001 Power supply failure
0x02220004 System battery missing
0x02220005 System battery failed
						

每兩年更換一次電池 —— 否則會出現臨界級別的日誌記錄。


圖 18. 其他感測器狀態
其他感測器狀態

介面利用率統計資訊

介面利用率監視器提供了 DataPower 裝置接收和傳送的資料量的分析。每個裝置包含四個千兆介面。監控這種利用率能幫助瞭解傳輸率以及它們隨時間的變化。如果某項服務每月增長 10%,那麼可以用這個資料來預估額外支援資源,如 DataPower 或後臺服務。

乙太網介面

Web GUI System => Ethernet Interfaces XMI EthernetInterfaceStatus/{various name values}
CLI Show Ethernet Status MIB dpStatusEthernetInterfaceStatusTable

圖 19. 乙太網介面狀態
乙太網介面狀態

接收和傳送吞吐量

Web GUI IP-Network => RX Throughput XMI ReceiveKbpsThroughput/{various time values}
CLI Show receive-kbps Status MIB dpStatusReceiveKbpsThroughputTable
Web GUI IP-Network => TX Throughput XMI TransmitKbpsThroughput/{various time values}
CLI Show transmit-kbps Status MIB dpStatusTransmitKbpsThroughputTable

接收和傳送吞吐量資訊能幫助您瞭解裝置正在處理的資料量。可針對從 10 秒到最近 24 小時的 5 個時間值提供統計資訊。獲得這個資料值對於瞭解裝置承載的網路負載很重要。其中包含流量管理。如果未將流量管理(如 Web GUI、CLI 和 XMI)劃分到獨立的介面,那麼該資料將包含在所有應用程式流量中。

每個 DataPower 配置(或應用程式)在處理各自訊息方面都有很大不同。有些情況下,小的訊息會觸發重要的處理,可能從機下(off box)終端請求額外資料,執行處理器密集型加密操作,或者以其他方式產生大量系統負載。其他一些情況下,大的訊息也許只需要路由或需要較少的處理。雖然沒有一種嚴格的規律,但是隨著時間推移,資料的增長將對應於 DataPower 資源利用率的增長。在出現瓶頸之前瞭解這個資訊,並使用更多的 DataPower 裝置來緩解它,從而使您避免系統中斷。


圖 20. Rx 吞吐量狀態
Rx 吞吐量狀態

HTTP 連線

Web GUI Connection => HTTP Connection Statistics XMI EthernetInterfaceStatus/{various name values}
CLI Show http connection Status MIB HTTPConnections

HTTP 連線在域級別生成。必須對每個域啟用統計資訊以生成 HTTP 連線資料。其中一個特性就是在迴路(loopback)模式中,不會對服務累積 HTTP 連線資料。狀態資料由 XML-Manager 劃分,包含 HTTP 連線資訊,如請求和重用。 這項資料能幫助您瞭解連線級別,並用於判斷其隨時間變化的利用率。


圖 21. HTTP 連線狀態
HTTP 連線狀態

事務率和時間

每個服務的事務率和執行時間都在域中累加,幷包含在域服務級別。除非對每個域啟用了統計資訊,才會提供事務率和時間。這項資料能幫助您瞭解已處理的事務數以及一些時間間隔內用於某個特殊服務的事務的平均響應時間。

Web GUI Connection => Transaction Rate XMI HTTPTransactions /{various time values}
CLI Show http Status MIB dpStatusHTTPTransactionsTable
Web GUI Connection => Traction Time XMI HTTPMeanTransactionTime/{various time values}
CLI Show http Status MIB dpStatusHTTPMeanTransactionTimeTable

圖 22. 事務率狀態
Transaction rate status

其他網路狀態提供程式

除了已討論的 HTTP 例子,DataPower 還支援很多其他協議,包括 FTP、IMS、MQ、NFS、NTP、SQL、Tibco 和 WebSphere JMS。這些協議都通過狀態提供程式來表示,並且在前面的例子中,都可由 Web GUI、CLI、XMI 和 SNMP 支援。單個的配置也許不會使用這些額外協議,並且很少會使用全部這些協議。儘管如此,在使用其中一個或多個協議的配置中,監控相關的狀態提供程式是明智的。

最佳實踐

成功的 DataPower 裝置監控將利用積極主動的狀態資訊查詢。SNMP 工具配置需要監聽裝置發出的陷阱以及定期輪詢裝置的 MIB 狀態資料。這些活動需要在輪詢中結合使用 DataPower SNMP Trap Event Subscription 配置和 SNMP 監控代理配置,並且很可能基於返回的狀態值。

除了裝置監控,應用程式監控也是有用的實踐。對於應用程式監控,訊息可能從自動化(robotic)客戶端通過 DataPower 服務傳送,以確保所有網路連線(包括負載平衡器)都是可操作的。有些情況下,還會將訊息傳送給後臺服務提供者應用程式,以確保前臺和後臺連線都能夠正常使用。DataPower 和後臺資源都必須進行配置以正確地響應測試訊息。

DataPower SMMP 陷阱訂閱功能是利用 DataPower 內的事件的 SNMP 通知的有效方法。以下是推薦訂閱的錯誤程式碼列表。在發生錯誤時,DataPower 上的 SNMP 代理將會向 SNMP 監控器傳送 Alert/Trap。

推薦的錯誤程式碼訂閱

0x02220001 environmental critical 電源故障。
0x02240002 environmental warning 內部冷卻風扇減速
0x02220003 environmental critical 內部冷卻風扇停止。
0x02220004 environmental critical 系統電池丟失。
0x02220005 environmental critical 系統電池故障。
0x00330002 mgmt error 記憶體變滿
0x01a40001 system warning 低記憶體導致節流連線
0x01a30002 system error 低記憶體導致重啟
0x01a30003 system error 資源不足超時導致重啟
0x01a50004 system notice 記憶體使用率恢復到閾值以上
0x01a50005 system warning 臨時檔案空間減少導致節流連線
0x01a30006 system error 臨時檔案空間減少導致重啟
0x01a50007 system notice 臨時檔案空間恢復到閾值以上
0x01a40008 system warning 空閒埠減少導致節流連線
0x01a30009 system error 埠不足導致重啟
0x01a3000b system error 字首 qcode 不足導致重啟
0x01a3000c system error 名稱空間 qcode 不足導致重啟
0x01a3000d system error 本地 qcode 不足導致重啟
0x01a2000e system critical 安裝的電池快要用盡
0x01a30011 system error 無效的虛擬檔案系統
0x01a30012 system error 檔案未找到
0x01a30013 system error 緩衝太小
0x01a30014 system error I/O 錯誤
0x01a30015 system error 記憶體不足
0x01a10016 system alert 空閒 qcode 的數量太少
0x01a30017 system error 檔案描述符太小導致重啟
0x01a40018 system warning 可用檔案描述符數量太少導致節流

需要監控的 MIB 狀態值

建議將 SNMP 監控器配置為在以下情況中獲取並報告狀態值:

dpStatusSystemUsageLoad >80%,10 分鐘或 10 分鐘以上的時間間隔
dpStatusCPUUsagetenMinutes >90%(10 分鐘時間間隔)
dpStatusFilesystemStatusFreeTemporary <20%,根據錯誤程式碼訂閱,可能不需要監視
dpStatusFilesystemStatusFreeUnencrypted <20%,根據錯誤程式碼訂閱,可能不需要監視
dpStatusFilesystemStatusFreeEncrypted <20%,根據錯誤程式碼訂閱,可能不需要監視
dpStatusMemoryStatusFreeMemory <20%,根據錯誤程式碼訂閱,可能不需要監視
dpStatusTemperatureSensorsReadingStatus 各種溫度感測器讀數(表格)
dpStatusEthernetInterfaceStatusStatus 用於已配置的介面

監視介面利用率的 MIB 狀態值

除了輪詢和查詢資料,需要確定應用程式在一段時間內的正常的流量模式。最好的方法是獲取並監控裝置正在處理的網路流量。以下的傳送和接收資料將幫助您預測裝置什麼時候會出現流量飽和。提前知道這些資訊能幫助您避免服務中斷。

dpStatusNetworkTransmitDataThroughputTenMinutesBits 在更長的時間內獲取值
dpStatusNetworkReceiveDataThroughputTenMinutesBits 在更長的時間內獲取值

結束語

監控 DataPower 的最佳實踐從三個方面入手:

  • 通過輪詢狀態資料和訂閱 SNMP 陷阱,不斷檢查 DataPower 環境的狀態。
  • 通過分析系統使用率資料和解讀 Ethernet 活動,監控裝置利用情況和容量。
  • 通過 DataPower 服務配置傳送測試訊息(可能達到後臺資源),執行完整的應用程式路徑驗證。

執行這三項活動將確保服務可用並且 DataPower 裝置在正常範圍內執行。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/14789789/viewspace-664054/,如需轉載,請註明出處,否則將追究法律責任。

相關文章