GitHub 近期頻繁當機?官方解釋:MySQL 負載過重

snakesss發表於2022-03-31

在過去的幾周裡,由於資料庫的問題,GitHub經歷了多起當機事件,導致平臺的服務降級,影響了許多使用者的使用。

GitHub 對當機事件非常重視,在解決問題的同時,也於本月 23 日公佈了這些事件的詳細情況。

時間線

  • 3 月 16 日 14:09 UTC(持續 5 小時 36 分鐘)
  • 3 月 17 日 13:46 UTC(持續 2 小時 28 分鐘)
  • 3 月 22 日 15:53 UTC(持續 2 小時 53 分鐘)
  • 3 月 23 日 14:49 UTC(持續 2 小時 51 分鐘)

據瞭解,過去幾周導致GitHub 頻繁當機的主要原因是其 mysql1 叢集的資源爭奪,這在負載高峰期間影響了 GitHub 的大量服務和功能效能。

在過去的幾年裡,GitHub 已經進行了許多優化,例如新增叢集以支援平臺的增長、對主資料庫進行分割槽等,但這些改進工作並不能一勞永逸,一直到現在他們仍在積極地解決這個問題。

為了防止將來發生此類事件,GitHub已開始在高峰時段對該特定資料庫的負載模式進行審計,並根據這些審計進行一系列效能修復。作為其中的一部分,他們正在將流量轉移到其他資料庫,以減少負載並加快故障轉移時間,並審查其變更管理程式,特別是與生產中高負載期間相關的監控和變更。

隨著平臺的不斷髮展,GitHub 將一直努力擴充套件基礎設施,包括對資料庫進行分片和擴充套件硬體。

相關文章