50PB海量資料排序，谷歌是這麼做的

DinK發表於2016-02-23

用於大規模資料集並行運算的MapReduce誕生之後，谷歌工程師對其進行了大規模隨機資料的排序測試。最近，他們向外界披露了過去幾年的測試資料和經驗總結，特別是50PB海量資料的排序，對於關注資料處理的技術人員來說很有借鑑意義。

為什麼谷歌工程師喜歡測試排序？因為很容易產生任意規模的資料，也很容易驗證排序的輸出是否正確。

最初的MapReduce論文就報導了一個TeraSort排序的結果。工程師在一定的規則基礎上對1TB或10TB的資料進行排序測試，因為細小的錯誤更容易在大規模資料執行的時候被發現。

GraySort是大型排序基準的選擇。在GraySort基準下，你必須按照儘快對至少100TB的資料(每100B資料用最前面的10B資料作為鍵)進行字典序排序。Storbenchmark.org這個網站追蹤報導了這個基準的官方優勝者。而谷歌從未正式參加過比賽。

MapReduce是解決這個問題的不錯選擇，因為它實現reduce的方法是通過對鍵進行排序。結合適當的(字典)分割槽功能，MapReduce的輸出是一組包含了最終排序資料的檔案序列。

有時，當一個新的cluster在一個資料中心出現時(通常被搜尋索引團隊所使用)，谷歌MapReduce團隊就得到一個機會在真正的工作到來之前執行若干星期。這時他們有機會去“燃燒”這個cluster，延伸硬體的限制，放棄一些硬碟，而使用一些真正昂貴的裝置，瞭解系統的效能，並贏得(非正式)排序基準測試。

谷歌這次披露了從2007年到2012年的測試資料：

2007

1PB, 12.13小時，1.37TB/min，2.9MB/s/worker

2007年執行了第一個Petasort。在那個時候，測試者最高興的是這個程式最終完成了排序，儘管對排序的結果有一些疑問(當時沒有驗證排序結果的正確性)。如果不是測試者取消了一定要某一個輸出分割槽與備份完全相同的驗證機制，這個排序便不會結束。

測試者懷疑這是因為用來儲存輸入和輸出的檔案是GFS格式(谷歌檔案系統)的緣故。GFS檔案沒有足夠校驗和保護，有時會返回被汙染的資料。不幸的是，這個基準所使用的檔案格式沒有嵌入任何校驗供MapReduce使用(谷歌使用的典型MapReduce的檔案是有嵌入校驗的)。

2008

1PB, 6.03小時，2.76TB/min，11.5MB/s/worker

2008年測試者第一次把注意力集中於調優。花費幾天的時間來調整分割槽數量、緩衝區大小、預讀/預寫策略、頁面快取使用等。最終的瓶頸是寫三路複製的GFS輸出檔案，這是當時在谷歌使用的標準。任何事情的缺失都會造成資料丟失的高風險。

2010

1PB, 2.95小時, 5.65 TB/min, 11.8 MB/s/worker

在這個測試中，工程師使用了一種新的不可壓縮資料的GraySort基準版本。在前幾年，當我們讀/寫1PB GFS檔案時，實際上混排的資料只有300TB，因為前幾年的資料是用ASCII格式壓縮好的。

這也是谷歌使用Colossus的一年，新一代的分散式儲存方式取代了GFS。不再有之前遇到過的GFS檔案汙染的問題。還使用了Reed-Solomon編碼(Colossus新特徵)作為輸出，這種編碼允許測試者減少資料的總量，三路複製資料從3位元組減少到了大約1.6位元組。這也是第一次，谷歌驗證了輸出的結果是正確的。

為了減少straggler的影響，測試者採用了一種叫做減少殘餘碎片的動態分割槽技術。這也是資料流採用全動態分割槽的先兆。

2011

1PB, 0.55小時, 30.3 TB/min, 63.1 MB/s/worker

這一年，有了更快的網路，並開始更加註重每臺機器的效率，特別是I/O的效率。測試者確保所有的I/O操作都在大於2MB的空間內進行，而以前有時候會小到64kB。

對於部分資料，工程師使用固態硬碟。這是第一個在一小時之內完成Petasort。真的非常接近(兩倍) 給定MapReduce’s體系結構的硬體極限：輸入/輸出分散式儲存，為容錯保留中間資料(容錯是非常重要的，因為這個試驗中一些磁碟甚至整個機器都可能會失敗)。

他們還執行了更大的資料，10PB資料在6小時27分鐘(26TB/min)。

2012

50PB, 23小時, 36.2 TB/min, 50 MB/s/worker

對於這個測試，工程師將注意力轉移到更大規模的資料。在測試團隊控制的最大cluster之下，執行了其認為是最大MapReduce工作。不幸的是，這個cluster沒有足夠的磁碟空間來排序100PB的資料，因而限制測試的排序“只有”50PB。

這個測試只執行了一次，並沒有進行專門的調整，只是使用了之前10PB實驗時候的設定。這次實驗在23小時5分鐘之後執行結束。

需要注意的是，這次排序的規模是GraySort大規模的要求的500倍，計算速率是2015年GraySort官方優勝者的兩倍。

經驗總結

這些實驗教會了谷歌工程師很多關於執行超過10000臺機器的挑戰，以及如何調整使得執行速度接近於硬體的極限。

雖然這些排序實驗很有趣，但還是有幾個缺點：

沒有人真的想要一個巨大的全域性範圍內的排序輸出，測試者還沒有找到這個問題的需求用例。
這些實驗顯示這個系統是可以良好執行的，但是需要強調的是谷歌花費了很多努力。
MapReduce需要大量的除錯確保它順利執行。如果看到很多MapReduce執行很差，其原因可能是設定不當。

最近，谷歌工程師已經把注意力集中在構建系統上，目的是使得大部分調優都不再必要。例如，採用資料流自動計算出分割槽的數量(必要時採用動態再分割槽)，而不是人為的經驗性分割槽。

50PB的大資料到底是什麼概念？–資料資訊圖
2012-06-15
大資料
海量資料監控如何選擇儲存方案？看轉轉、得物這些企業是怎麼做的
2023-03-31
滴滴處理海量資料的祕訣是什麼？
2018-01-17
Google 怎麼樣做 50 PB 資料排序的？
2016-06-13
Go排序
什麼是大資料?大資料開發是做什麼的?
2019-12-04
大資料
什麼是資料運營？資料運營是做什麼的？
2021-12-28
IM系統海量訊息資料是怎麼儲存的？
2019-03-26
海量資料的分頁怎麼破？
2019-07-26
topthink 這樣的小組是怎麼做的
2019-05-11
視覺化資料用什麼軟體做，大資料視覺化是用什麼做的
2023-02-20
視覺化大資料
資料探勘（5）：使用mahout做海量資料關聯規則挖掘
2015-08-29
知識圖譜資料開發是做什麼的
2024-03-15
MySQL 是如何實現資料的排序的？
2024-08-05
MySql排序
大資料這麼火，大資料到底可以用來做什麼？
2019-06-04
大資料
海量資料搜尋---demo展示百度、谷歌搜尋引擎的實現
2019-09-06
谷歌
訓練資料也外包？這家公司“承包”了不少註釋訓練資料，原來是這樣做的……
2020-03-17
商場分佈圖是怎麼做，地圖資料分佈圖怎麼做
2021-07-23
地圖
你的資料是如何洩露的？企業和個人應該這樣做……
2022-08-11
大資料與海量資料的區別
2013-09-09
大資料
“大資料”與“海量資料”的區別
2011-11-11
大資料
IO優化是怎麼做的，使用 SharedPreferences為什麼這麼卡，mmkv原理是什麼
2020-11-18
優化
海量資料找缺失的值
2015-04-16
老闆今天問我為什麼公司的資料庫這麼爛，我是這樣回答的......
2018-09-14
資料庫
海量資料處理
2018-03-08
Java是什麼_Java是做什麼的？
2021-07-02
Java
這是什麼這是什麼
2024-05-09
JavaEE是做什麼的？
2021-03-30
Java
資料是什麼——更多的資料
2014-02-14
讀取海量資料到檔案並拆分排序
2016-09-04
排序
關於海量資料常用的資料結構
2014-07-17
資料結構
全鏈路灰度在資料庫上我們是怎麼做的？
2022-07-28
資料庫
從零學起到成功轉行資料分析，我是怎麼做的？
2018-06-26
用VR做資料視覺化的正確姿勢是什麼？
2016-12-14
VR視覺化
Python培訓分享：如何做資料分析，資料分析流程是什麼?
2021-11-15
Python
海量資料的併發處理
2018-03-14
客戶案例 | 築牢資料安全“防線”，綠盟科技這麼做
2020-08-07
做一個這樣的程式要多少錢？比如像谷歌搜尋那麼簡單的
2015-11-10
谷歌
谷歌釋出的Translatotron是什麼？
2019-05-18
谷歌

50PB海量資料排序，谷歌是這麼做的

相關文章