Facebook運維內幕曝光：一人管理2萬臺伺服器

iteye發表於2013-11-23

原文網址 : http://www.admin10000.com/document/3356.html

　　目前，Facebook 已經憑藉它在網路基礎建設上的可擴充套件能力成為了行業的領軍者。Facebook 資料中心運維主管 Delfina Eberly（下圖人物）在“7x24 Exchange 2013 秋季會議”上的演講中為我們透露了 Facebook 部分內部運維資料，下面我們來具體瞭解下。

Facebook 資料中心運維主管 Delfina Eberly

　　伺服器數量驚人，一人管理 2 萬臺

　　Facebook 伺服器數量驚人，其硬體方面的工作重點主要放在“可服務性”上，內容也涉及伺服器的初期設計，一系列工作的目標就是為了保證資料機房的裝置維修最簡單、最省時。她介紹說，每個 Facebook 資料中心的運維工作人員管理了至少 20,000 臺伺服器，其中部分員工會管理數量高達 26,000 多個的系統。

　　近期 Facebook 的伺服器與管理人數比又創下了新高，目前已經超過 10000:1，可以檢視文章高擴充套件性對此進行更加詳細的瞭解。

　　大資料洶湧，運維工作不輕鬆

　　在 Facebook 資料中心做運維工作並不輕鬆，對工作人員的能力要求很高。他們每天面對的是海量資料。

　　據統計，Facebook 目前擁有 11.5 億使用者，日常登入使用者約 7.2 億。每天 Facebook 使用者分享的內容達到 47.5 億條，“贊”按鈕點選次數近 45 億次。Facebook 目前儲存了 2400 億張照片，每月照片儲存容量約增加 7 PB（注，單位換算：1PB=1024TB）。

　　自動故障診斷系統：原為留住人才

　　為了管理運維工作，Facebook 已經開發了相應軟體來自動化處理日常運維任務，如 CYBORG 可自動檢測伺服器問題並進行修復。如果 CYBORG 無法自動修復檢查出的問題，系統將自動給訂單系統傳送警告，並分派給資料中心工作人員，以對相應問題進行詳細追蹤與分析。

　　Eberly 提到，自動化工作的目標是儘量避免將技術人員派往現場解決問題，除非必須對伺服器進行現場處理。強調自動化不是因為 Facebook 對打造無人資料中心感興趣，原因在於 Facebook 重視自己的員工。

　　Eberly 解釋說：我們要留住人才，因為大家更喜歡高水平的任務，公司希望讓他們留下來與我們一起進步成長，這對 Facebook 來說至關重要。

　　“可服務性”主導伺服器設計：節時 54%

　　在 Facebook，運維團隊的時間與工作量是根據 Facebook 硬體設計來安排的。比方說，全部伺服器從頭開始就堅持“可服務性”這一原則來進行設計，那麼資料中心的工作人員就沒有必要老鑽機房了；伺服器被設計成無需工具就可以對磁碟和元件進行替換。這樣做的結果就是：Facebook 用來修理伺服器的時間減少了 54%。

　　Eberly 介紹說，Facebook 運維團隊會仔細跟蹤裝置故障率，這一資料會為公司的採購提供參考。公司的財產管理和訂單系統用序列號來跟蹤硬碟和其他元件，這方便完整了解每個硬體的生命週期。

　　Eberly 還提到，雖然這些系統很複雜，但並不需要太多開發者。Facebook 的運維團隊僅有 3 名軟體工程師，但他們對資料中心的工作來講至關重要。

　　最後

　　從 Eberly 的介紹中，我們可以看到 Facebook 在可擴充套件性網路建設上的實力。同時，這也為行業提供了一些可參考的經驗，如：開發自動故障系統，根據“可服務性”設計基礎架構。同時，運維也是一個系統工程，需要得到其他部門的配合支援才行。

　　Via Datacenterknowledge

多伺服器運維管理運維管理不再頭疼
2020-03-03
伺服器運維
多伺服器運維管理集中監控與管理平臺
2020-03-03
伺服器運維
運維人員如何高效管理千臺伺服器
2019-12-31
運維伺服器
LED螢幕監控運維管理方案
2020-08-11
運維
win 伺服器批次管理伺服器運維利器
2020-02-20
伺服器運維
多伺服器運維管理皮膚工具
2020-03-03
伺服器運維
【盤點】Linux運維管理伺服器常用的工具!
2022-05-11
Linux運維伺服器
伺服器安全運維規範-安全運維
2019-12-12
伺服器運維
運維人員春節放假如何管理伺服器？
2020-01-15
運維伺服器
內幕揭祕：Facebook硬體之夢為何破滅
2019-08-04
運維人必備的伺服器管理皮膚推薦
2020-01-19
運維伺服器
國內 Linux 伺服器叢集管理的平臺
2019-05-17
Linux伺服器
【伺服器運維】伺服器用類似寶塔等管理軟體可以嗎？
2021-07-15
伺服器運維
Facebook資料再洩露 5.4億資料曝光於AWS伺服器
2019-04-04
伺服器
GitLab 安裝、管理、運維
2019-09-08
Gitlab運維
Linux運維之程式管理①
2020-11-07
Linux運維
IT管理運維工單系統如何賦能新運維
2020-04-15
運維
基於裝置監控運維管理平臺實現預測性維護
2024-03-15
運維
深度解析大快DKadoop大資料運維管理平臺功能
2019-01-11
OOP大資料運維
一個運維人員能同時管理100+伺服器嗎？
2020-02-19
運維伺服器
5-23安全運維管理
2024-05-23
運維
運維中的接入管理梳理
2018-04-21
運維
Git分支管理，運維知道嗎？
2022-11-11
Git運維
浪潮資訊物理基礎設施管理平臺解決大型資料中心伺服器運維難題
2022-04-27
伺服器運維
運維管理平臺OEM定製整合開發，激發IT價值
2022-12-31
運維
IT統一運維平臺案例
2024-08-25
運維
用行雲管家實現IT統一運維管理，提高運維效率
2023-11-29
運維
運維實戰：兩臺伺服器http方式共享yum軟體倉庫
2020-08-21
運維伺服器HTTP
【運維】nginx伺服器基本配置指南
2019-01-19
運維Nginx伺服器
怎樣做好伺服器運維工作
2022-06-11
伺服器運維
能源物聯網雲平臺助力電力裝置智慧管理運維
2024-01-04
運維
mongos分片叢集管理和運維
2018-05-23
Go運維
企業如何做好運維管理？
2023-12-25
運維
什麼是IT運維管理服務
2022-12-09
運維
Docker 運維高階應用管理
2020-12-11
Docker運維
資料庫運維管理規範
2021-03-29
資料庫運維
Liunx運維(九)-Liunx程式管理命令
2021-01-03
運維
二維碼管理平臺生成二維碼
2019-05-11
立足信創國產化運維，打造安全可控IT運維管理系統
2022-12-29
運維

Facebook運維內幕曝光：一人管理2萬臺伺服器

相關文章