B站伺服器故障?淺析其中原因及解決方案

youbingke發表於2021-07-14

7月13日23時許,B站客戶端和網頁端均出現訪問故障,無法開啟,頁面提示“正在玩命載入資料”。不久後,“B站崩了”話題也迅速登上微博熱搜。

約在23時45分,B站網頁端和APP才恢復正常。14日凌晨,B站微博釋出致歉宣告,稱部分伺服器機房發生故障,造成無法訪問。外界猜測,本次事故可能是由於伺服器當機所致。

什麼是伺服器當機?

伺服器當機指的是由於某些原因導致伺服器無法正常運轉,造成網路無法使用。對於網站來說,伺服器當機帶來的影響很大,不但影響使用者對網站的正常訪問,還會影響網站在搜尋引擎上的排名以及對外的品牌形象。

伺服器發生當機的原因

1.伺服器環境的客觀原因

如機房突然斷電,或者是溫度過高,伺服器就會出現當機、關機的情況,不過這種情況發生的機率較小,正規的IDC廠商都會做好預防措施,備用電路和發電機以及智慧恆溫系統都可有效預防這種情況的發生。

2.伺服器不堪負重

這是一種比較常見的情況,由於網站的流量突然大量增加,或者是受攻擊、程式中毒等,導致伺服器壓力驟增,資源耗盡,造成當機的情況。

3.不合理的應用

如公司為了減少成本的投入,租用一些配置和效能較低的伺服器,若在這種伺服器上安裝一些大型軟體,很容易造成伺服器超負荷運轉,發生當機情況。

除此之外,還有很多的細節也能導致伺服器當機,比如環境配置、錯誤程式、資料庫丟失等也是常見原因。

伺服器當機解決方案

1.共享儲存叢集

在單機單櫃的基礎上,增加1臺備用主機,即可構建基於共享儲存的熱備叢集。增加1臺物理伺服器作為伺服器的備機,並在備機部署業務系統,透過共享儲存熱備叢集產品,實現對應用的高可用保護。如主機上執行的系統出現異常故障導致當機,比如應用服務異常、硬體裝置故障,可將系統切換至備用主機,以保證網站連續運營和可訪問性。

2.資料映象叢集

部署兩臺伺服器,將其中1臺伺服器作為主機,透過活動IP對外提供服務,主機產生的資料會直接寫入主機的本地磁碟,透過網路實時傳輸到備機,從而保證兩臺伺服器資料的一致性。在此基礎上,如果主機出現故障(伺服器當機,應用系統故障,網路故障等情況),主機會在保證資料一致性前提下,將資料庫切換到備機執行,繼續對外提供服務,確保生產管理系統持續運營工作。

3. 解析當機切換

將解析指向多個IP,實現當機切換,保障網站可繼續訪問。中科三方智慧雲解析系統具備當機監測與切換功能當發現其中的目標伺服器當機時,可以將解析快速切換到預先配置的備用伺服器上,以維持網站的可用性,保證使用者可以繼續透過原域名訪問到正常工作的備用伺服器。

4.遠端容災

根據系統環境、網路環境,結合容災需求等情況,構建遠端容災方案。將管理系統生產伺服器的資料實時複製到容災伺服器上,確保兩臺機器資料一致性。當主伺服器出現故障時,可透過備用伺服器快速恢復業務系統;當本地機房完全癱瘓時,可透過容災機房公網IP將服務對映出去,對外提供服務。

5.雲容災

將生產中心的資料和業務實時災備至雲端,如生產中心出現事故,可迅速利用雲端的容災系統及時接管業務。不同區域的雲之間,構建資料和業務災備,最大化保障業務系統和資料的安全。

6.雙機雙櫃

採用多機雙櫃解決方案,為使用者構建高容錯、高安全、高效能的叢集容災平臺,以實現多個功能模組之間相互協作和伺服器、磁碟陣列、儲存通道等軟硬體的完全容錯,可有效解決了傳統高可用方案的單點故障,為使用者構建零資料丟失和應用高可用保護的高階叢集容災方案。

雖然B站在較短時間內解決了故障,恢復了網站的正常訪問,然而此次事故還是對B站造成了嚴重影響,不但影響了使用者正常訪問,還導致B站股價短線走低。因此,做好伺服器當機防範預案,對於政企單位維護網路安全,保障業務系統持續性、可訪問性至關重要。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69996004/viewspace-2781229/,如需轉載,請註明出處,否則將追究法律責任。

相關文章