史上最深入解析hadoop調優，沒有之一！

逸卿發表於2014-05-06

hadoop作業調優引數整理及原理

1 Map side tuning引數

1.1 MapTask執行內部原理

當map task開始運算，併產生中間資料時，其產生的中間結果並非直接就簡單的寫入磁碟。這中間的過程比較複雜，並且利用到了記憶體buffer來進行已經產生的部分結果的快取，並在記憶體buffer中進行一些預排序來優化整個map的效能。如上圖所示，每一個map都會對應存在一個記憶體buffer（MapOutputBuffer，即上圖的buffer in memory），map會將已經產生的部分結果先寫入到該buffer中，這個buffer預設是100MB大小，但是這個大小是可以根據job提交時的引數設定來調整的，該引數即為：io.sort.mb。當map的產生資料非常大時，並且把io.sort.mb調大，那麼map在整個計算過程中spill的次數就勢必會降低，map task對磁碟的操作就會變少，如果map tasks的瓶頸在磁碟上，這樣調整就會大大提高map的計算效能。map做sort和spill的記憶體結構如下如所示：

map在執行過程中，不停的向該buffer中寫入已有的計算結果，但是該buffer並不一定能將全部的map輸出快取下來，當map輸出超出一定閾值（比如100M），那麼map就必須將該buffer中的資料寫入到磁碟中去，這個過程在mapreduce中叫做spill。map並不是要等到將該buffer全部寫滿時才進行spill，因為如果全部寫滿了再去寫spill，勢必會造成map的計算部分等待buffer釋放空間的情況。所以，map其實是當buffer被寫滿到一定程度（比如80%）時，就開始進行spill。這個閾值也是由一個job的配置引數來控制，即io.sort.spill.percent，預設為0.80或80%。這個引數同樣也是影響spill頻繁程度，進而影響map task執行週期對磁碟的讀寫頻率的。但非特殊情況下，通常不需要人為的調整。調整io.sort.mb對使用者來說更加方便。

當map task的計算部分全部完成後，如果map有輸出，就會生成一個或者多個spill檔案，這些檔案就是map的輸出結果。map在正常退出之前，需要將這些spill合併（merge）成一個，所以map在結束之前還有一個merge的過程。merge的過程中，有一個引數可以調整這個過程的行為，該引數為：io.sort.factor。該引數預設為10。它表示當merge spill檔案時，最多能有多少並行的stream向merge檔案中寫入。比如如果map產生的資料非常的大，產生的spill檔案大於10，而io.sort.factor使用的是預設的10，那麼當map計算完成做merge時，就沒有辦法一次將所有的spill檔案merge成一個，而是會分多次，每次最多10個stream。這也就是說，當map的中間結果非常大，調大io.sort.factor，有利於減少merge次數，進而減少map對磁碟的讀寫頻率，有可能達到優化作業的目的。

當job指定了combiner的時候，我們都知道map介紹後會在map端根據combiner定義的函式將map結果進行合併。執行combiner函式的時機有可能會是merge完成之前，或者之後，這個時機可以由一個引數控制，即min.num.spill.for.combine（default 3），當job中設定了combiner，並且spill數最少有3個的時候，那麼combiner函式就會在merge產生結果檔案之前執行。通過這樣的方式，就可以在spill非常多需要merge，並且很多資料需要做conbine的時候，減少寫入到磁碟檔案的資料數量，同樣是為了減少對磁碟的讀寫頻率，有可能達到優化作業的目的。

減少中間結果讀寫進出磁碟的方法不止這些，還有就是壓縮。也就是說map的中間，無論是spill的時候，還是最後merge產生的結果檔案，都是可以壓縮的。壓縮的好處在於，通過壓縮減少寫入讀出磁碟的資料量。對中間結果非常大，磁碟速度成為map執行瓶頸的job，尤其有用。控制map中間結果是否使用壓縮的引數為：mapred.compress.map.output(true/false)。將這個引數設定為true時，那麼map在寫中間結果時，就會將資料壓縮後再寫入磁碟，讀結果時也會採用先解壓後讀取資料。這樣做的後果就是：寫入磁碟的中間結果資料量會變少，但是cpu會消耗一些用來壓縮和解壓。所以這種方式通常適合job中間結果非常大，瓶頸不在cpu，而是在磁碟的讀寫的情況。說的直白一些就是用cpu換IO。根據觀察，通常大部分的作業cpu都不是瓶頸，除非運算邏輯異常複雜。所以對中間結果採用壓縮通常來說是有收益的。以下是一個wordcount中間結果採用壓縮和不採用壓縮產生的map中間結果本地磁碟讀寫的資料量對比：

map中間結果不壓縮：

map中間結果壓縮：

可以看出，同樣的job，同樣的資料，在採用壓縮的情況下，map中間結果能縮小將近10倍，如果map的瓶頸在磁碟，那麼job的效能提升將會非常可觀。

當採用map中間結果壓縮的情況下，使用者還可以選擇壓縮時採用哪種壓縮格式進行壓縮，現在hadoop支援的壓縮格式有：GzipCodec，LzoCodec，BZip2Codec，LzmaCodec等壓縮格式。通常來說，想要達到比較平衡的cpu和磁碟壓縮比，LzoCodec比較適合。但也要取決於job的具體情況。使用者若想要自行選擇中間結果的壓縮演算法，可以設定配置引數：mapred.map.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec或者其他使用者自行選擇的壓縮方式。

1.2 Map side相關引數調優

選項	型別	預設值	描述
io.sort.mb	int	100	快取map中間結果的buffer大小(in MB)
io.sort.record.percent	float	0.05	io.sort.mb中用來儲存map output記錄邊界的百分比，其他快取用來儲存資料
io.sort.spill.percent	float	0.80	map開始做spill操作的閾值
io.sort.factor	int	10	做merge操作時同時操作的stream數上限。
min.num.spill.for.combine	int	3	combiner函式執行的最小spill數
mapred.compress.map.output	boolean	false	map中間結果是否採用壓縮
mapred.map.output.compression.codec	class name	org.apache.hadoop.io. compress.DefaultCodec	map中間結果的壓縮格式

2 Reduce side tuning引數

2.1 ReduceTask執行內部原理

reduce的執行是分成三個階段的。分別為copy->sort->reduce。由於job的每一個map都會根據reduce(n)數將資料分成map 輸出結果分成n個partition，所以map的中間結果中是有可能包含每一個reduce需要處理的部分資料的。所以，為了優化reduce的執行時間，hadoop中是等job的第一個map結束後，所有的reduce就開始嘗試從完成的map中下載該reduce對應的partition部分資料。這個過程就是通常所說的shuffle，也就是copy過程。

Reduce task在做shuffle時，實際上就是從不同的已經完成的map上去下載屬於自己這個reduce的部分資料，由於map通常有許多個，所以對一個reduce來說，下載也可以是並行的從多個map下載，這個並行度是可以調整的，調整引數為：mapred.reduce.parallel.copies（default 5）。預設情況下，每個只會有5個並行的下載執行緒在從map下資料，如果一個時間段內job完成的map有100個或者更多，那麼reduce也最多隻能同時下載5個map的資料，所以這個引數比較適合map很多並且完成的比較快的job的情況下調大，有利於reduce更快的獲取屬於自己部分的資料。

reduce的每一個下載執行緒在下載某個map資料的時候，有可能因為那個map中間結果所在機器發生錯誤，或者中間結果的檔案丟失，或者網路瞬斷等等情況，這樣reduce的下載就有可能失敗，所以reduce的下載執行緒並不會無休止的等待下去，當一定時間後下載仍然失敗，那麼下載執行緒就會放棄這次下載，並在隨後嘗試從另外的地方下載（因為這段時間map可能重跑）。所以reduce下載執行緒的這個最大的下載時間段是可以調整的，調整引數為：mapred.reduce.copy.backoff（default 300秒）。如果叢集環境的網路本身是瓶頸，那麼使用者可以通過調大這個引數來避免reduce下載執行緒被誤判為失敗的情況。不過在網路環境比較好的情況下，沒有必要調整。通常來說專業的叢集網路不應該有太大問題，所以這個引數需要調整的情況不多。

Reduce將map結果下載到本地時，同樣也是需要進行merge的，所以io.sort.factor的配置選項同樣會影響reduce進行merge時的行為，該引數的詳細介紹上文已經提到，當發現reduce在shuffle階段iowait非常的高的時候，就有可能通過調大這個引數來加大一次merge時的併發吞吐，優化reduce效率。

Reduce在shuffle階段對下載來的map資料，並不是立刻就寫入磁碟的，而是會先快取在記憶體中，然後當使用記憶體達到一定量的時候才刷入磁碟。這個記憶體大小的控制就不像map一樣可以通過io.sort.mb來設定了，而是通過另外一個引數來設定：mapred.job.shuffle.input.buffer.percent（default 0.7），這個引數其實是一個百分比，意思是說，shuffile在reduce記憶體中的資料最多使用記憶體量為：0.7 × maxHeap of reduce task。也就是說，如果該reduce task的最大heap使用量（通常通過mapred.child.java.opts來設定，比如設定為-Xmx1024m）的一定比例用來快取資料。預設情況下，reduce會使用其heapsize的70%來在記憶體中快取資料。如果reduce的heap由於業務原因調整的比較大，相應的快取大小也會變大，這也是為什麼reduce用來做快取的引數是一個百分比，而不是一個固定的值了。

假設mapred.job.shuffle.input.buffer.percent為0.7，reduce task的max heapsize為1G，那麼用來做下載資料快取的記憶體就為大概700MB左右，這700M的記憶體，跟map端一樣，也不是要等到全部寫滿才會往磁碟刷的，而是當這700M中被使用到了一定的限度（通常是一個百分比），就會開始往磁碟刷。這個限度閾值也是可以通過job引數來設定的，設定引數為：mapred.job.shuffle.merge.percent（default 0.66）。如果下載速度很快，很容易就把記憶體快取撐大，那麼調整一下這個引數有可能會對reduce的效能有所幫助。

當reduce將所有的map上對應自己partition的資料下載完成後，就會開始真正的reduce計算階段（中間有個sort階段通常時間非常短，幾秒鐘就完成了，因為整個下載階段就已經是邊下載邊sort，然後邊merge的）。當reduce task真正進入reduce函式的計算階段的時候，有一個引數也是可以調整reduce的計算行為。也就是：mapred.job.reduce.input.buffer.percent（default 0.0）。由於reduce計算時肯定也是需要消耗記憶體的，而在讀取reduce需要的資料時，同樣是需要記憶體作為buffer，這個引數是控制，需要多少的記憶體百分比來作為reduce讀已經sort好的資料的buffer百分比。預設情況下為0，也就是說，預設情況下，reduce是全部從磁碟開始讀處理資料。如果這個引數大於0，那麼就會有一定量的資料被快取在記憶體並輸送給reduce，當reduce計算邏輯消耗記憶體很小時，可以分一部分記憶體用來快取資料，反正reduce的記憶體閒著也是閒著。

2.2 Reduce side相關引數調優

選項	型別	預設值	描述
mapred.reduce.parallel.copies	int	5	每個reduce並行下載map結果的最大執行緒數
mapred.reduce.copy.backoff	int	300	reduce下載執行緒最大等待時間（in sec）
io.sort.factor	int	10	同上
mapred.job.shuffle.input.buffer.percent	float	0.7	用來快取shuffle資料的reduce task heap百分比
mapred.job.shuffle.merge.percent	float	0.66	快取的記憶體中多少百分比後開始做merge操作
mapred.job.reduce.input.buffer.percent	float	0.0	sort完成後reduce計算階段用來快取資料的百分比

史上最強程式碼自測方法，沒有之一！
2022-03-07
史上最漂亮的許願牆，許願網，沒有之一
2019-05-11
最簡單的服務響應時長優化方法，沒有之一
2021-12-26
優化
史上最全面試題彙總，沒有之一，不接受反駁
2019-02-21
面試題
史上最全的iOS開源專案分類彙總沒有之一
2018-06-12
iOS
最簡單的Go Dockerfile編寫姿勢，沒有之一！
2020-12-10
GoDocker
最簡單的 Go Dockerfile 編寫姿勢，沒有之一！
2021-02-01
GoDocker
史上最詳細的Hadoop環境搭建
2018-08-15
Hadoop
關於Hadoop調優
2021-07-18
Hadoop
LeetCode 上最難的連結串列演算法題，沒有之一！
2019-04-09
LeetCode演算法
最簡單的移動端適配方案(rem+vw)--沒有之一
2018-04-16
REM
史上最清晰易懂的babel配置解析
2019-03-31
Babel
3分鐘短文：可能是Laravel模板最直白的用法了，沒有之一
2020-09-25
Laravel
【精挑細選】史上最全Java工程師面試題彙總，沒有之一，不接受反駁
2019-05-05
Java工程師面試題
最簡單的 K8S 部署檔案編寫姿勢，沒有之一！
2020-12-12
K8S
Hadoop技術內幕：深入解析Hadoop和HDFS 1.3準備 Hadoop 原始碼
2018-09-25
Hadoop原始碼
oh-my-zsh,最好用的 shell，沒有之一
2019-08-18
深入理解JVM效能調優
2018-07-02
JVM
GitHub上最火的、最值得前端學習的幾個資料結構與演算法專案！沒有之一！
2020-12-03
Github前端資料結構演算法
淺談 Easy-mock 最好的備胎沒有之一
2018-11-26
Mock
既沒錢又沒經驗，Irrational是怎麼做出了史上最偉大的遊戲之一？
2020-10-20
遊戲
ThinkPHP完全適應任何裝置最美部落格沒有之一！
2019-05-11
PHP
Flutter(Flare) 最有趣使用者互動動畫沒有之一
2020-07-04
Flutter動畫
史上最“卷”雙11
2021-11-03
go dns解析過程及調優
2022-01-12
GoDNS
深入解析和定製Oracle優化工具
2018-03-28
Oracle優化
Spark Streaming調優引數及最佳實踐深入剖析-Spark商業調優實戰
2018-11-18
Spark
Spark應用程式開發引數調優深入剖析-Spark商業調優實戰
2019-03-04
Spark
為什麼對 Java 效能調優最後都像在調 you？
2020-11-24
Java
用一個月整理的Pandas的教程！最全面的教程沒有之一！先收藏吧！
2018-12-26
【進階3-1期】JavaScript深入之史上最全--5種this繫結全面解析
2018-11-28
JavaScript
【進階3-1期】JavaScript深入之史上最全–5種this繫結全面解析
2019-03-04
JavaScript
ItemDecoration深入解析與實戰（一）
2018-11-29
var，let和const深入解析（一）
2019-02-13
2022解碼Z世代：史上最分裂的一代
2021-12-06
深入解析：從原始碼窺探MySQL優化器
2018-12-17
原始碼MySql優化
Java 應用效能調優最強實踐指南！
2019-07-05
Java
啟動hadoop沒有datanode
2020-12-21
Hadoop
[java]深入剖析Java效能監控調優視訊教程
2018-07-31
Java