恆訊科技:谷歌和甲骨文的伺服器當機怎麼處理?

恆訊科技發表於2022-07-21

由於創紀錄的高溫繼續使歐洲升溫,谷歌和甲骨文在英國的資料中被“熱”崩了,由於資料中心無法承受熱量,選擇的機器被

關閉以防止長期損壞,導致一些資源、服務和虛擬機器變得不可用,不幸的網站被關閉等等。


目前還不清楚谷歌和甲骨文的伺服器當機會影響到多少使用者,但當機肯定會給使用甲骨文和谷歌雲服務託管網站的使用者帶來問

題。下面,小編就給大家分析一下伺服器當機怎麼處理?


一、監控和警報系統

防止伺服器當機的最重要步驟之一是始終了解基礎架構的情況。能夠在問題發生之前發現和識別問題或可能會中斷您的網站的

訪問能力是至關重要的。為此,您需要監控基礎架構的效能和威脅檢測。

存在大量軟體包和服務(例如Grafana、Munin 或 Pingdom),可讓您深入瞭解基礎架構和站點的執行情況。這些服務將幫

助您監控伺服器執行狀況,例如:

伺服器負載。

磁碟空間。

硬體健康。

頁面載入時間。

軟體狀態。


二、高可用性

防止伺服器當機,需要確保您使用高可用性設定。高可用性可以透過使用一臺伺服器(我們可以稱之為主伺服器)來處理所有

流量,但另外一臺伺服器(稱為輔助伺服器)等待事件發生,例如流量高峰。此附加伺服器不斷與主伺服器同步資料和檔案。 

當主伺服器遇到問題時,輔助伺服器幾乎會立即接管並繼續為您的站點提供服務。這種特定型別的關係可以稱為自動故障轉移

或主動/被動,並且非常常見,尤其是對於資料庫伺服器。


三、 地理冗餘

防止伺服器當機,需要擁有的基礎設施將相隔足夠大的距離,不會影響兩個位置。 

當位置 A 發生中斷時,位置 B 的伺服器會檢測到問題並準備好接收流量。雖然貴了一倍,但這是確保您的網站保持線上的最

有效方法之一。

地理冗餘解決方案非常複雜,通常需要大量服務和監控解決方案才能有效地執行從位置 A 到 B 的切換。資料同步(以確保訪

問者訪問的任何位置都是另一個位置的映象)、DNS 更改(需要當站點離線時將客戶端瀏覽器定向到適當的位置)和多項健

康檢查(以確保簡單的失敗 ping 不會對整個站點進行故障轉移)只是有效和安全地執行基礎架構所需的部分內容以地理冗餘

的方式。


四、程式碼版本控制和恢復

雖然不可能 100% 防止伺服器當機問題,但我們能夠採取預防措施將影響和風險降至最低。 確保員工(甚至您自己)所做的

任何更改都得到另一個人的審查,這是驗證程式碼或更改是否安全、健全且不會引入重大更改的絕佳步驟。此程式碼審查或同行審

查是大型組織為確保不會遺漏意外拼寫錯誤或衝突而採取的關鍵步驟。


目前,谷歌和甲骨文正在努力將受影響的基礎設施恢復到健康狀態。希望以上四點能幫助到大家預防伺服器當機的措施,以

防止進一步的硬體故障。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69983369/viewspace-2907008/,如需轉載,請註明出處,否則將追究法律責任。

相關文章