hadoop之mapreduce.input.fileinputformat.split.minsize引數
mapreduce.input.fileinputformat.split.minsize(舊版本中為mapred.max.split.size) The minimum size chunk that map input should be split into. By increasing this value beyond dfs.blocksize, you can reduce the number of mappers in your job. This is because if say you set the value of mapreduce.input.fileinputformat.split.minsize to 4x dfs.blocksize, then 4 times the size of blocks will be sent to a single mapper, thus, reducing the number of mappers needed to process your input. The value for this property is the number of bytes for input split. Thus to set the value to 256MB, you will specify 268435456 as the value for this property.
1.該引數只是針對一個大檔案來說的,比如一個大檔案有275M,預設dfs.blockSize=128M 那麼該檔案在mapreduce.input.fileinputformat.split.minsize<dfs.blockSize,該引數不會起作用,
2.那麼設定mapreduce.input.fileinputformat.split.minsize=4*(dfs.blockSize),之前的6個map會變成 一個map如下:
3.那麼如果有多個小檔案 例如 words01.log,words02.log,words03.log,words03.log,並且檔案的大小都為幾KB 那麼會啟動四個map。
所以說該引數對於眾多的小檔案處理並不起什麼作用只是會針對切分後的大檔案進行splits的合併,降低map數
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31506529/viewspace-2217440/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- hadoop之 引數調優Hadoop
- hadoop之 YARN配置引數剖析—RM與NM相關引數HadoopYarn
- Hadoop引數調優Hadoop
- 查詢hadoop引數變數Hadoop變數
- hadoop YARN配置引數剖析—MapReduce相關引數HadoopYarn
- Hadoop作業調優引數Hadoop
- Hadoop2.7實戰v1.0之JVM引數調優HadoopJVM
- Hadoop2.x 引數彙總Hadoop
- Hadoop2.7實戰v1.0之Linux引數調優HadoopLinux
- hadoop之 map個數控制Hadoop
- hadoop之 reduce個數控制Hadoop
- C#引數傳遞之值引數C#
- 機器學習之超引數機器學習
- hadoop-叢集管理(3)——不常用引數Hadoop
- 引數匹配模型——Python學習之引數(二)模型Python
- hadoop叢集搭建配置檔案優化引數Hadoop優化
- 引數匹配順序——Python學習之引數(三)Python
- Hadoop回收站及fs.trash引數詳解Hadoop
- fixtrue基礎之params引數實現簡單引數化
- fixtrue基礎之scope引數
- fixtrue基礎之name引數
- fixtrue基礎之autouse引數
- SpringMVC之引數傳遞SpringMVC
- ORACLE DG之引數詳解Oracle
- kettle 引數——變數引數和常量引數變數
- Python學習之引數(一)Python
- 引數傳遞機制之JWTJWT
- fixtrue基礎之ids引數
- goldengate 引數之GETTRUNCATES | IGNORETRUNCATESGo
- JAVA基礎之-引數傳遞Java
- hadoop之 hadoop用途方向Hadoop
- Python3之函式的引數傳遞與引數定義Python函式
- hadoop之 hadoop 機架感知Hadoop
- Django之ORM常用欄位和引數DjangoORM
- 面試之jquery中的ajax方法引數面試jQuery
- Flask開發技巧之引數校驗Flask
- JavaScript深入之引數按值傳遞JavaScript
- JavaScript 深入之引數按值傳遞JavaScript