Kubernetes的故障問題 | SRCco.de

banq發表於2019-01-21

我開始編制一份與Kubernetes有關的公共故障/恐怖故事清單。它應該能使負責運維的人員更容易找到相應的中斷問題。
自2016年我們在Zalando開始使用Kubernetes以來，我們收集了許多內部故障問題。Docker的bug（守護程式沒有響應，程式陷入管道等待，......）在一開始就是一個主要的痛點，但Docker本身已經變得更加成熟並且最近沒有讓我們煩惱。最大的問題可歸因於分散式系統的性質和“級聯故障”，例如Kubernetes API伺服器中斷不應影響正在執行的工作負載，但事實上確實如此，或者看到我們最近的CoreDNS事件。
我們在演講中分享了一些事件和Kubernetes失敗：

我對失敗進行此類討論的主要動機是我希望自己能夠聽到更多這些內容！Nordstrom 在KubeCon 2017上的演講“101種方式崩潰你的群集”是我的靈感（因為你甚至可以從談話標題的相似性中看出來;-)）。我希望看到更多的人分享他們的事後記錄並給出失敗的談話。Monzo的透明度和公共屍檢是對社群的一項偉大服務，應該是我們所有人都努力的方向。

編制Kubernetes失敗故事列表
在我尋找更多公共Kubernetes失敗故事的過程中，我發現它要麼很難找到它們（或者我的網路搜尋技能缺乏），要麼只發布很少。搜尋條件我在DuckDuckGo和Google 上試過：

我還嘗試了各種組合和“k8s”，“kube-dns”和“kube-proxy”而不是“kubernetes”。這並沒有產生很多結果，我發現的大多數頁面都是某種更“成功”的故事，並強調如何防止中斷髮生。那很無聊！

到目前為止我發現的Kubernetes Failure Stories的編譯列表可以在GitHub上找到。我希望從社群中看到許多對該列表的貢獻，但我想很難鼓勵人們釋出他們的中斷報告。請透過開啟問題，建立公關或在Twitter上與我聯絡，為列表做出貢獻！

故障分析 | Kubernetes 故障診斷流程
2021-11-04
故障分析 | show processlist 引起的效能問題
2022-07-18
【故障公告】取代 memcached 的 redis 出現問題造成網站故障
2022-06-23
Redis網站
Kubernetes 初學部署遇到的問題
2024-08-21
Kubernetes 問題排查全景圖
2022-07-12
【故障處理】TNS-04610問題
2019-02-22
如何處理HTTP 503故障問題？
2023-04-11
HTTP
故障排除提示：5 個最常見的 Linux 問題
2022-11-27
Linux
Kubernetes故障排除的直觀指南 - Daniele Polencic
2019-12-06
Kubernetes 常見問題總結
2021-04-07
企業落地Kubernetes的問題與對策
2018-11-30
Kubernetes EKS 叢集中的 IP 地址分配問題
2023-04-01
掌握 Kubernetes 故障排除技巧：kubectl命令的基本指南
2024-03-15
Kubernetes 叢集中 Ingress 故障的根因診斷
2022-06-18
現階段Kubernetes架構的8個問題
2020-09-04
架構
掌握運維必備技能--問題故障定位
2018-11-23
運維
Oracle Rman多通道故障轉移問題分析
2021-05-09
Oracle
開機出現故障的15段英文所代表的問題
2021-01-24
故障解析丨一次死鎖問題的解決
2024-03-18
再分享兩個小問題變成大故障的案例
2023-01-17
【故障公告】K8s CofigMap 掛載問題引發網站故障
2021-01-27
K8S網站
利用 Tmux 和 kubectl 解決 Kubernetes 故障
2020-02-25
UX
kubernetes實踐之五十三：Service中的故障排查
2018-06-10
Kubernetes是否存在“殺敵一千，自損八百”的問題？
2019-02-09
Kubernetes：CPU 配置、Linux CFS、程式語言的效能問題
2024-12-11
Linux
weblogic多資料來源故障轉移問題
2020-09-22
Web
Docker啟動故障問題 no such file or directory解決方法
2022-09-23
Docker
記一次儲存問題導致的rac故障案例
2022-10-09
【故障公告】Kubernetes 叢集節點當機造成部落格站點故障
2023-03-03
無處不在的 Kubernetes，難用的問題解決了嗎？
2021-11-14
50個你必須瞭解的Kubernetes面試問題
2020-10-10
面試
5種常見的 DNS 故障診斷及問題處理方法
2022-11-22
DNS
故障分析 | 租戶 memstore 記憶體滿問題排查
2023-04-30
記憶體
Visual Studio 2022 Typescript 程式碼錯誤提示故障問題
2024-06-19
TypeScript
RabbitMQ真實生產故障問題還原與分析
2023-03-05
MQ
Juniper-故障排查“Framing-error-計數增加問題
2020-12-01
Error
企業擴大容器和Kubernetes應用的5大問題
2020-11-05
深度解密｜基於 eBPF 的 Kubernetes 問題排查全景圖釋出
2022-03-23
解密eBPF

Kubernetes的故障問題 | SRCco.de

相關文章