1個工具，助你提升K8S故障排查效率！

RancherLabs發表於2020-04-21

原文網址 : https://www.cnblogs.com/rancherlabs/p/12742804.html

Kubernetes的故障排查一直困擾眾多運維團隊或DevOps，除了Kubernetes本身的複雜性之外，還有Kubernetes的工作負載是動態的原因。本文將介紹1個工具可以幫助你視覺化K8S的網路和流量，以提升你的故障排查效率。

作為領先的多叢集Kubernetes管理平臺，Rancher使運維團隊可以部署、管理和保護企業的Kubernetes叢集。Rancher還為使用者提供了一系列容器網路介面（CNI）選項可供選擇，包括開源專案Calico（https://www.projectcalico.org/）。Calico為Kubernetes Pod提供了原生Layer3路由功能，從而簡化了網路架構，提高了網路效能，並提供了豐富的網路策略模型，可以輕鬆地阻止通訊。因此，只有你指定的流量才能流動。

在部署Kubernetes過程一個常見的問題是獲取對叢集環境的可見性，以有效監控網路和安全問題並進行故障排除。可見性和故障排查（https://www.tigera.io/tigera-products/visibility-and-troubleshooting/ ）是我們在Tigera上看到的3大Kubernetes用例之一。這在生產部署中尤其重要，因為當機時間十分寶貴並且分散式應用很難進行故障排查。如果你是平臺團隊的一員，你還需要承受SLA的壓力。如果你是DevOps團隊的一員，則需要啟動生產工作負載。對於兩個團隊來說，共同的目標都是儘快解決問題。

為什麼K8S故障排查如此具有挑戰性？

由於Kubernetes工作負載是動態的，因此連線問題十分難以解決。而常規的網路監控工具是為靜態環境設計的。它們無法理解Kubernetes上下文並且當應用到Kubernetes時並不高效。如果沒有特定的Kubernetes診斷工具，對於平臺團隊而言，進行故障排除會令人沮喪。例如，當pod-to-pod的連線被拒絕時，幾乎無法確定哪個網路安全策略拒絕了流量。當然，你可以手動登入到節點並檢視系統日誌，但這並不可行也無法擴充套件到多個節點。

基於此，你十分需要一種方法來快速查明任何連線或安全問題的根源。或者更好的是，能夠有一些具備預見性的工具，從而避免出現問題。隨著Kubernetes部署規模的擴大，圍繞可見性、監控和日誌記錄的限制可能導致無法診斷的系統故障，從而導致服務中斷並影響客戶滿意度和你的業務。

流量日誌以及流量可見性

對在生產上執行Rancher的使用者，Calico Enterprise（https://www.tigera.io/tigera-products/calico-enterprise/ ）網路流量日誌可以為解決Kubernetes網路和安全問題提供了堅實的基礎。例如，流量日誌可用於執行queries以分析來自既定名稱空間或工作負載標籤的所有流量。但是，要有效地對Kubernetes環境進行故障排查，你需要帶有Kubernetes特定資料的流量日誌，例如pod、標籤和名稱空間，以及哪些策略接受或拒絕了連線。

Calico Enterprise Flow Visualizer

Rancher使用者中有很大一部分屬於DevOps團隊。儘管傳統的ITOps具有管理網路和安全策略，但我們看到DevOps團隊正在尋找能夠實現自給自足並加快CI/CD流程的解決方案。對於在生產環境中執行的Rancher使用者，Calico Enterprise包含Flow Visualizer，這是一個功能強大的工具，可簡化連線故障排查。這種方法可以直觀地與網路流量進行互動並對其進行深入研究。DevOps可以使用此工具進行故障排查和策略建立，而ITOps可以使用RBAC建立策略層次結構以實施保護，因此DevOps團隊不會覆蓋任何企業範圍的策略。

防火牆可以為安全團隊建立可見空間

Kubernetes工作負載大量使用網路併產生大量東西流量。如果你在Kubernetes架構中部署常規的防火牆，則將無法視覺化流量以及故障排查。防火牆並不瞭解Kubernetes流量所需的上下文（名稱空間、Pod、標籤、container id等）。這樣就無法對網路問題進行故障排除，進行取證分析或報告安全控制措施是否合規。

為了獲得所需的可見性，Rancher使用者可以部署Calico Enterprise，將基於區域的防火牆規則轉換為Kubernetes網路策略，該策略將叢集劃分為各個區域並應用正確的防火牆規則。然後，可以使用現有的防火牆和防火牆管理器來定義區域並在Kubernetes中建立規則，就像建立所有其他規則一樣。可以將流量穿越區域傳送到安全團隊的安全資訊和事件管理平臺（SIEM），從而為它們提供與常規防火牆相同的可見性，以進行故障排除。

其他Kubernetes故障排除注意事項

對於使用Rancher平臺的平臺、網路、DevOps和安全團隊，Tigera提供了其他可見性和監控工具，可幫助你更快地進行故障排除：

可以向所有監控的資料新增閾值和警報。例如，拒絕的流量激增會向你的DevOps團隊或安全運維中心（SOC）發出警報，以進行進一步調查。
Filter使你能夠按名稱空間、pod和檢視狀態（例如允許或拒絕的流量）進行深入分析。
能夠將日誌儲存在EFK（Elasticsearch、Fluentd和Kibana）堆疊中以供將來訪問。

無論你是剛剛接觸Kubernetes，還是僅僅想簡單瞭解叢集意外行為的“原因”，亦或是處於生產環境中部署了大規模的工作負載狀態，使用正確的工具進行有效的故障排除將有助於你避免出現當機和服務中斷的情況。

2019年助你提升效率的 5 個日曆 APP
2019-01-02
APP
這 16 個 CSS 偽類，助你提升佈局效率！
2022-03-23
CSS
小胖親測，分享3個實用建議，幫助你提升工作效率
2019-07-22
818好物節，電商RPA助你提升運營效率
2022-07-22
故障排查工具-strace,tcpdump的簡單使用
2020-08-17
TCP
提升前端開發效率的工具
2019-05-08
前端
rsync 故障排查整理
2018-12-09
應用故障排查
2020-12-24
實在智慧RPA助你提升電商運營效率，快速起爆店鋪
2021-11-17
光纖故障診斷和故障排查
2020-02-25
5個方法，幫助你快速提高團隊管理效率
2023-04-21
27個機器學習的小抄，助你效率翻倍
2018-04-20
機器學習
聊聊開發日常的效率提升工具（全）
2021-10-18
MogDB openGauss故障排查流程
2024-03-14
推薦5款免費且無廣告的軟體，助你提升效率
2023-02-21
k8s附加元件CoreDNS v1.11.3部署及故障排查
2024-12-04
K8S元件DNS
分享一個能讓你的研發效率提升超過20%的工具
2024-03-06
達觀電網故障知識圖譜，三大功能全面提升電網故障處置效率
2022-01-11
提升工作效率的軟體推薦（1）
2020-04-20
6個最佳化策略，助你降低K8S成本
2023-04-27
K8S
幫助你駕馭 Kubernetes 的 4 個工具
2019-07-15
一次“不負責任”的 K8s 網路故障排查經驗分享
2021-06-23
K8S
004.OpenShift命令及故障排查
2020-06-20
linux出現故障字符集亂碼故障排查思路
2021-11-19
Linux
10個大大提升MySQL效率的使用技巧
2023-11-28
MySql
Flutter提升開發效率的一些方法和工具
2018-11-29
Flutter
Redis Desktop Manager for Mac：提升Redis管理效率的絕佳工具
2023-12-04
RedisMac
提升前端開發效率的首選工具——WebStorm for Mac/win
2024-01-20
前端WebORMMac
提升效率的利器——Rocket Typist Pro 文字快速輸入工具
2023-11-08
Tungsten Fabric入門寶典丨8個典型故障及排查Tips
2020-05-18
程式設計師入門，7個方法幫助你提高學習效率!
2019-02-23
程式設計師
記IPSec VPN對接故障的排查
2019-12-25
伺服器網路故障如何排查
2022-03-03
伺服器
提升碼農90%學習效率的8大學習工具
2019-01-11
蘋果效率提升工具：Alfred 5 for Mac 中文免啟用版
2023-11-23
蘋果AlfredMac
免費API介面分享，提升開發效率的必備工具
2024-01-15
API
外鏈最佳化工具：智慧助力，提升外鏈管理效率
2024-06-03
分享5款讓你提升工作效率的小工具
2023-02-16

1個工具，助你提升K8S故障排查效率！

為什麼K8S故障排查如此具有挑戰性？

流量日誌以及流量可見性

防火牆可以為安全團隊建立可見空間

其他Kubernetes故障排除注意事項

相關文章