Kubernetes的故障問題 | SRCco.de

banq發表於2019-01-21

我開始編制一份與Kubernetes有關的公共故障/恐怖故事清單。它應該能使負責運維的人員更容易找到相應的中斷問題。
自2016年我們在Zalando開始使用Kubernetes以來,我們收集了許多內部故障問題。Docker的bug(守護程式沒有響應,程式陷入管道等待,......)在一開始就是一個主要的痛點,但Docker本身已經變得更加成熟並且最近沒有讓我們煩惱。最大的問題可歸因於分散式系統的性質和“級聯故障”,例如Kubernetes API伺服器中斷不應影響正在執行的工作負載,但事實上確實如此,或者看到我們最近的CoreDNS事件
我們在演講中分享了一些事件和Kubernetes失敗:

我對失敗進行此類討論的主要動機是我希望自己能夠聽到更多這些內容!Nordstrom 在KubeCon 2017上演講“101種方式崩潰你的群集”是我的靈感(因為你甚至可以從談話標題的相似性中看出來;-))。我希望看到更多的人分享他們的事後記錄並給出失敗的談話。Monzo的透明度和公共屍檢是對社群的一項偉大服務,應該是我們所有人都努力的方向。

編制Kubernetes失敗故事列表
在我尋找更多公共Kubernetes失敗故事的過程中,我發現它要麼很難找到它們(或者我的網路搜尋技能缺乏),要麼只發布很少。搜尋條件我在DuckDuckGo和Google 上試過:


我還嘗試了各種組合和“k8s”,“kube-dns”和“kube-proxy”而不是“kubernetes”。這並沒有產生很多結果,我發現的大多數頁面都是某種更“成功”的故事,並強調如何防止中斷髮生。那很無聊!

到目前為止我發現的Kubernetes Failure Stories編譯列表可以在GitHub上找到。我希望從社群中看到許多對該列表的貢獻,但我想很難鼓勵人們釋出他們的中斷報告。 請透過開啟問題,建立公關或在Twitter上與我聯絡,為列表做出貢獻!

相關文章