Facebook技術總監：如何管理10億使用者的資料？

DinK發表於2013-01-28

2012年1月28日訊息，Facebook使用者數量，已經突破10億大關。Facebook在發展期間，所實現的技術成就，成為了IT行業工程師關注的話題。究竟Facebook取得了哪些技術成就呢？Facebook前工程部門總監，在問答網站Quora上，對這一問題作出回答。無論對於IT行業的投資者還是使用者，這些回答都有著指導意義。

以下是文章全文：

我在Facebook的基礎架構軟體開發團隊，工作了5年，並且參與了多數專案的開發。我認為在Facebook時，最偉大的成就是Memcache/MySQL叢集。一年前，我離開Facebook的時候，這個叢集中已經擁有超過1萬億物件（沒錯是萬億），每秒請求數量超過10億，處理時間通常不超過1毫秒。這一叢集，在多個資料中心之間，保持了良好的一致性，並且很少出現停機的情況。

實際上，我們取得的真正成就，與Memcache和MySQL並沒有多大的關係——隨著時間的推移，這些都將會被新的“技術”所取代，但是這裡真正重要的技術，是讓數量如此龐大的機器，快速、可靠的協同工作。這並不同於通常意義上，人們在詢問“你用的是什麼樣的技術？”時，所指代的東西，但是這一方面確實會出現很多有趣的創新。

這包括演算法方面的技巧，如分片（Shard）、分割槽（Partition）、快取資料，以及保持分散式資料的一致等。雖然像“部署和監控”這樣的事情，聽上去似乎有些很普通，但是當一切到了Facebook這樣大的規模，就變的不再簡單。

以下是我們面臨的一些具體的挑戰：

1. 資料中心間的一致性

Facebook是一個實時的應用程式，這也就意味著，無論世界哪一個角落的資料發生改變，都需要立即顯示到所有其他的地方。因此這對一致性有著令人驚訝的高要求。

常常有人說，“哦，Facebook只是一個讓人覺得挺有趣的社交網站，一致性並沒有那麼重要。”但是如果資訊出現的時間順序有問題，或者有的訊息會憑空消失，那麼這些情況就很容易惹惱使用者。以下是我們在2007年，建立首個地理分佈資料中心時的老部落格：《Scaling Out Facebook》

現在回頭看，雖然這個方案聽起來有些嚴格，但是它真的很有用，而且幫助讓我們達到了現在這個巨大得規模。而現在的設定顯然已經變得更為複雜。

2. 網路流

Facebook的頁面，需要很多小塊的資料，而這些往往並不容易聚集。所以我們經常看到的一個模式，是一臺伺服器，會從大量其他的伺服器處，要求大量小的物件。而這裡的問題在於，如果所有的伺服器都在同時進行回覆，你就會通過請求伺服器的rack switch和網路介面卡（NIC）突然獲得大量的資料包，然後就會有資料包被丟棄。這就是學術文獻中所謂的“TCP incast”，而我們解決這個的方法，是對機器上傳送的請求進行截流。

而當故障（failure）出現的時候，網路問題往往會變得更加糟糕。大多數軟體在沒有從另一個伺服器獲得回應時，都會重新傳送另外一個資料包。不幸的是，大多數時候，沒有獲得回覆的原因，恰恰是另外一個伺服器已經過載。因此，當一個伺服器過載嚴重，而無法作出及時回覆時由於大量請求會重新傳送，它的資料流量會瞬時增長一倍。

我們投入了大量的時間用於演算法研究，並希望無縫處理“重試”（retry）可以解決的小問題，但是也需要確保不會在出現大故障的時候失去控制，因為那時候重試只會讓事情變得更糟。

3. 快取記憶體配置

這裡有很多東西需要平衡——如果你有大的物件，你希望通過機器進行傳遞開，這樣你就可以進行並行處理；但是如果是小的物件，你則希望它們可以同時出現，這樣在RPC呼叫會給你帶來多個物件。而Facebook需要的往往是後者，因此我們在改善“每RPC物件數量”方面，使用了很多的技巧。

很多情況都需要分離不同工作負載的物件，進行不同的調整。我們還花了大量的的時間，搞清楚是什麼記憶體之中最具有成本效益的東西，以及何時非規範化能有用（實踐中的大多數時候，非規範化並沒有什麼實質性的幫助）。

4. 失敗處理

正如前面網路部分所提到的，有的時候一些方法能夠解決小問題，但往往會讓大問題變得更糟。例如，我有一個演算法，給隨機伺服器傳送請求，如果它沒有得到答覆，就會把請求重新傳送到另一個不同的隨機伺服器上，直到它得到一個答覆才會停止。如果你只有一兩個機器出現問題的時候，這種方法顯然會表現很好。但是如果你一半的機器都出現問題，那麼就成了一場災難。

這時，所有其他的機器的負荷都會突然加倍，而如果一半的機器都出現問題，很有可能意味著有著負載已經過高。這時候，你需要做的事情，是檢測過載情況，並且減少負載。重要的是，要記住電腦科學意義上的實時系統，意味著：一個遲到的回應，就是一個錯誤的回應。

放棄一個請求的時候，人們往往會感覺不好，不過這往往是最好的處理方式——在出現問題的時候，最大化正確答案的數量才是最正確的。

另一種常見的模式是，當有些東西變慢的時候，就建立一個較大的佇列（queue），然後讓所有事情慢下來，減少負載。這可以是一個很棘手的演算法，因為你可能在正常操作中也需要一個深佇列，來處理瞬間突發流量。

5. 提升Memcache和MySQL

我們討論到資料庫／快取叢集的時候，人們總會想到Memecache和MySQL。我們在Memcache方面做了大量的工作，以提升吞吐量——大量的分析和解決方法，這大多數都是在網路棧中。因此很多這樣的工作，實際上是在Linux核心中發生的。

在MySQL中，則是關於以一種合理的方式，獲得磁碟上的資料，並且把記憶體中最有用的東西放到快取裡。馬克·卡拉漢（Mark Callaghan）的部落格中，有著大量的資訊：《高可用性MySQL》（ http://mysqlha.blogspot.com/）。

6. Meta

在這篇文章中，我記錄了我們所遵循的原則：《讓Facebook的使用者超過5億》

技術管理進階——技術總監的第一要務
2021-06-21
技術總監
2013-11-30
技術管理之新晉總監生存指南
2021-05-24
Facebook技術總監調任區塊鏈團隊任相同職位
2018-07-09
區塊鏈
Facebook前工程總監黃易山：為什麼需要技術型領導？
2011-07-07
空降領導（CTO/技術總監）如何安全落地
2017-07-09
技術管理進階——如何覆盤總結
2022-02-08
大資料技術 - 監控預警
2023-01-03
大資料
馬化騰談 Facebook Libra 幣：不看技術看監管
2022-12-06
資料探勘中的資料歸約技術總結
2007-08-05
PG技術大講堂 - Part 10：PostgreSQL資料庫管理
2023-03-09
SQL資料庫
就聊聊不少小IT公司的技術總監
2022-12-30
技術總監和CTO的區別（一）
2008-09-02
“我是技術總監，你幹嘛總問我技術細節？”
2019-05-16
技術管理進階——總監以上一定要會經濟學
2022-03-08
技術管理者的困惑——技術與管理應該如何平衡？
2022-06-07
Facebook平臺洩露5.33億使用者資料，Meta被罰款2.65 億歐元
2022-11-30
Facebook使用者日分享應用超過10億次
2013-03-11
Facebook官方資料：使用者每月使用Facebook登入應用程式超過8.5億次–資訊圖
2013-08-27
產品資料管理（PDM）技術概述
2018-11-02
CTO、技術總監和技術經理有啥區別？
2016-08-28
CTO，技術總監和技術經理有啥區別？
2016-09-10
戴爾技術總監:虛擬技術將解放Linux(轉)
2007-08-12
Linux
Oracle中的資料字典技術及常用資料字典總結
2015-12-18
Oracle
Facebook任命新的區塊鏈工程總監
2018-07-10
區塊鏈
如何快速成長為技術大牛？阿里資深技術專家的總結亮了
2018-03-29
阿里
Facebook：獲得最初5億使用者的策略
2013-01-22
Android技術總監應該乾的那些事
2018-03-19
Android
CTO、技術總監、首席架構師的區別
2017-09-08
架構
Web技術與PDM產品資料管理
2019-01-09
Web
《大型資料庫技術》MySQL管理維護
2020-10-22
資料庫MySql
Win10系統如何更改工作管理員監測資料更新速度
2019-09-17
Win10
Facebook是如何管理程式碼的
2011-07-12
10個最熱門的大資料技術
2019-06-28
大資料
Facebook：2016年7月 Facebook Messenger月活躍使用者突破10億
2016-07-21
Messenger
如何理解資料安全隔離技術
2021-12-03
【同行說技術】前端開發的技術資料和雞湯美文彙總（一）
2016-01-20
前端
技術管理進階——為什麼要多總結，如何做總結？
2022-04-14

Facebook技術總監：如何管理10億使用者的資料？

相關文章