Kubernetes的故障問題 | SRCco.de
我開始編制一份與Kubernetes有關的公共故障/恐怖故事清單。它應該能使負責運維的人員更容易找到相應的中斷問題。
自2016年我們在Zalando開始使用Kubernetes以來,我們收集了許多內部故障問題。Docker的bug(守護程式沒有響應,程式陷入管道等待,......)在一開始就是一個主要的痛點,但Docker本身已經變得更加成熟並且最近沒有讓我們煩惱。最大的問題可歸因於分散式系統的性質和“級聯故障”,例如Kubernetes API伺服器中斷不應影響正在執行的工作負載,但事實上確實如此,或者看到我們最近的CoreDNS事件。
我們在演講中分享了一些事件和Kubernetes失敗:
- 在生產中執行Kubernetes:百萬種方式崩潰你的叢集 - DevOpsCon慕尼黑2018
- 在生產中執行Kubernetes:百萬種方式崩潰你的叢集 - 2018年英國集裝箱營地
- Zalando在AWS上的Kubernetes:失敗與學習 - DevOps NRW 2018年見面會
我對失敗進行此類討論的主要動機是我希望自己能夠聽到更多這些內容!Nordstrom 在KubeCon 2017上的演講“101種方式崩潰你的群集”是我的靈感(因為你甚至可以從談話標題的相似性中看出來;-))。我希望看到更多的人分享他們的事後記錄並給出失敗的談話。Monzo的透明度和公共屍檢是對社群的一項偉大服務,應該是我們所有人都努力的方向。
編制Kubernetes失敗故事列表
在我尋找更多公共Kubernetes失敗故事的過程中,我發現它要麼很難找到它們(或者我的網路搜尋技能缺乏),要麼只發布很少。搜尋條件我在DuckDuckGo和Google 上試過:
我還嘗試了各種組合和“k8s”,“kube-dns”和“kube-proxy”而不是“kubernetes”。這並沒有產生很多結果,我發現的大多數頁面都是某種更“成功”的故事,並強調如何防止中斷髮生。那很無聊!
到目前為止我發現的Kubernetes Failure Stories的編譯列表可以在GitHub上找到。我希望從社群中看到許多對該列表的貢獻,但我想很難鼓勵人們釋出他們的中斷報告。 請透過開啟問題,建立公關或在Twitter上與我聯絡,為列表做出貢獻!
相關文章
- 故障分析 | Kubernetes 故障診斷流程
- 故障分析 | show processlist 引起的效能問題
- 【故障公告】取代 memcached 的 redis 出現問題造成網站故障Redis網站
- Kubernetes 初學部署遇到的問題
- Kubernetes 問題排查全景圖
- 如何處理HTTP 503故障問題?HTTP
- 【故障處理】TNS-04610問題
- 故障排除提示:5 個最常見的 Linux 問題Linux
- Kubernetes故障排除的直觀指南 - Daniele Polencic
- Kubernetes 常見問題總結
- Kubernetes EKS 叢集中的 IP 地址分配問題
- 企業落地Kubernetes的問題與對策
- 掌握 Kubernetes 故障排除技巧:kubectl命令的基本指南
- Kubernetes 叢集中 Ingress 故障的根因診斷
- 現階段Kubernetes架構的8個問題架構
- Oracle Rman多通道故障轉移問題分析Oracle
- 掌握運維必備技能--問題故障定位運維
- 開機出現故障的15段英文所代表的問題
- 故障解析丨一次死鎖問題的解決
- 再分享兩個小問題變成大故障的案例
- 【故障公告】K8s CofigMap 掛載問題引發網站故障K8S網站
- 利用 Tmux 和 kubectl 解決 Kubernetes 故障UX
- kubernetes實踐之五十三:Service中的故障排查
- Kubernetes是否存在“殺敵一千,自損八百”的問題?
- Docker啟動故障問題 no such file or directory解決方法Docker
- weblogic多資料來源故障轉移問題Web
- 記一次儲存問題導致的rac故障案例
- 【故障公告】Kubernetes 叢集節點當機造成部落格站點故障
- 無處不在的 Kubernetes,難用的問題解決了嗎?
- 50個你必須瞭解的Kubernetes面試問題面試
- 5種常見的 DNS 故障診斷及問題處理方法DNS
- Visual Studio 2022 Typescript 程式碼錯誤提示故障問題TypeScript
- 故障分析 | 租戶 memstore 記憶體滿問題排查記憶體
- RabbitMQ真實生產故障問題還原與分析MQ
- Juniper-故障排查“Framing-error-計數增加問題Error
- 企業擴大容器和Kubernetes應用的5大問題
- 深度解密|基於 eBPF 的 Kubernetes 問題排查全景圖釋出解密eBPF
- Kubernetes-應用部署問題定位和處理