如何在hadoop中控制map的個數

逸卿發表於2014-05-06

hadooop提供了一個設定map個數的引數mapred.map.tasks，我們可以通過這個引數來控制map的個數。但是通過這種方式設定map的個數，並不是每次都有效的。原因是mapred.map.tasks只是一個hadoop的參考數值，最終map的個數，還取決於其他的因素。

為了方便介紹，先來看幾個名詞：

block_size : hdfs的檔案塊大小，預設為64M，可以通過引數dfs.block.size設定

total_size : 輸入檔案整體的大小

input_file_num : 輸入檔案的個數

（1）預設map個數

如果不進行任何設定，預設的map個數是和blcok_size相關的。

default_num = total_size / block_size;

（2）期望大小

可以通過引數mapred.map.tasks來設定程式設計師期望的map個數，但是這個個數只有在大於default_num的時候，才會生效。

goal_num = mapred.map.tasks;

（3）設定處理的檔案大小

可以通過mapred.min.split.size 設定每個task處理的檔案大小，但是這個大小隻有在大於block_size的時候才會生效。

split_size = max(mapred.min.split.size, block_size);

split_num = total_size / split_size;

（4）計算的map個數

compute_map_num = min(split_num, max(default_num, goal_num))

除了這些配置以外，mapreduce還要遵循一些原則。 mapreduce的每一個map處理的資料是不能跨越檔案的，也就是說max_map_num <= input_file_num。所以，最終的map個數應該為：

final_map_num = min(compute_map_num, input_file_num)

經過以上的分析，在設定map個數的時候，可以簡單的總結為以下幾點：

（1）如果想增加map個數，則設定mapred.map.tasks 為一個較大的值。

（2）如果想減小map個數，則設定mapred.min.split.size 為一個較大的值。

（3）如果輸入中有很多小檔案，依然想減少map個數，則需要將小檔案merger為大檔案，然後使用準則2。

深度分析如何在Hadoop中控制Map的數量
2014-05-03
Hadoop
hadoop之 map個數控制
2018-02-03
Hadoop
Hadoop框架下MapReduce中的map個數如何控制
2015-01-22
Hadoop框架
hadoop之 reduce個數控制
2018-02-03
Hadoop
Hadoop--map/reduce實現單詞計數
2014-07-07
Hadoop
如何在mybatis 中傳多個引數,如何在mybatis 中遍歷集合？
2017-02-08
MyBatis
Entitas 中的Event 新增一個分數控制
2018-04-25
如何在YAML中為POJO中Map配置資料？ | Baeldung
2020-08-20
YAMLPOJO
hadoop透過CombineFileInputFormat實現小檔案合併減少map的個數
2018-10-25
HadoopORM
hadoop 合併sequcefie並在map中讀取
2018-10-26
Hadoop
如何在MATLAB中統計陣列中相同元素的個數？
2010-09-24
Matlab陣列
如何在Java 8中將List轉換為Map?
2018-11-13
Java
Hadoop Map Reduce 漫談
2018-10-30
Hadoop
Java中將多個Map扁平化為單個Map
2024-03-27
Java
如何在macOS中管理家長控制？
2020-12-30
Mac
Java 中的map - The Map Interface.
2017-08-24
Java
Hadoop Reducer個數設定
2014-05-03
Hadoop
Go中的Map
2018-08-07
Go
如何在fragment中控制DrawerLayout的顯示和隱藏
2018-01-25
Fragment
手寫 p-map（控制併發數以及迭代處理 promise 的庫）
2024-10-08
Promise
hadoop archive合併小檔案並進行mapreduce來減少map的數量
2018-10-25
HadoopHive
Hadoop中自定義計數器
2014-08-14
Hadoop
例項講解hadoop中的map/reduce查詢(python語言實現
2021-09-09
HadoopPython
java中的Map集合
2024-04-15
Java
python將輸入的一個正整數分解質因數（map）
2024-10-25
Python
java中Map根據Map的value取key
2017-04-09
Java
Java : List中根據map的某個key去重
2018-07-26
Java
go中控制goroutine數量
2021-04-14
Go
轉:tsm版本控制_的4個引數
2010-08-09
Hadoop 2.6 以WordCount為例理解Map Reduce
2017-10-10
Hadoop
Hadoop--Map/Reduce實現多表連結
2014-07-07
Hadoop
如何在ASP.NET Core中編寫高效的控制器
2021-02-19
ASP.NET
如何在macOS中控制螢幕快照快捷方式的行為
2020-10-19
Mac
如何在linux中傳送訊息給別的控制檯
2024-06-23
Linux
Hadoop-Map/Reduce之單表連線的實現
2014-10-30
Hadoop
javascript中的Map和Set
2017-12-08
JavaScript
Scala中的Map、Tuple、Zip
2015-11-08
如何在專案中優雅的校驗引數
2020-12-07

如何在hadoop中控制map的個數

相關文章