hadoop之mapreduce.input.fileinputformat.split.minsize引數
mapreduce.input.fileinputformat.split.minsize(舊版本中為mapred.max.split.size) The minimum size chunk that map input should be split into. By increasing this value beyond dfs.blocksize, you can reduce the number of mappers in your job. This is because if say you set the value of mapreduce.input.fileinputformat.split.minsize to 4x dfs.blocksize, then 4 times the size of blocks will be sent to a single mapper, thus, reducing the number of mappers needed to process your input. The value for this property is the number of bytes for input split. Thus to set the value to 256MB, you will specify 268435456 as the value for this property.
1.該引數只是針對一個大檔案來說的,比如一個大檔案有275M,預設dfs.blockSize=128M 那麼該檔案在mapreduce.input.fileinputformat.split.minsize<dfs.blockSize,該引數不會起作用,
2.那麼設定mapreduce.input.fileinputformat.split.minsize=4*(dfs.blockSize),之前的6個map會變成 一個map如下:
3.那麼如果有多個小檔案 例如 words01.log,words02.log,words03.log,words03.log,並且檔案的大小都為幾KB 那麼會啟動四個map。
所以說該引數對於眾多的小檔案處理並不起什麼作用只是會針對切分後的大檔案進行splits的合併,降低map數
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31506529/viewspace-2217440/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 引數匹配模型——Python學習之引數(二)模型Python
- Hadoop回收站及fs.trash引數詳解Hadoop
- 引數匹配順序——Python學習之引數(三)Python
- fixtrue基礎之params引數實現簡單引數化
- Python學習之引數(一)Python
- fixtrue基礎之scope引數
- fixtrue基礎之name引數
- fixtrue基礎之autouse引數
- fixtrue基礎之ids引數
- 機器學習之超引數機器學習
- 引數傳遞機制之JWTJWT
- JAVA基礎之-引數傳遞Java
- Python3之函式的引數傳遞與引數定義Python函式
- python基礎之 函式的引數Python函式
- PHP編譯安裝之Configure引數PHP編譯
- Django之ORM常用欄位和引數DjangoORM
- Flask開發技巧之引數校驗Flask
- hadoop中文版本下載選擇與平臺監控引數介紹Hadoop
- Hadoop原理之——HDFS原理Hadoop
- Hadoop 氣數已盡?Hadoop
- 尋找寫程式碼感覺(七)之封裝請求引數和返回引數封裝
- 什麼是請求引數、表單引數、url引數、header引數、Cookie引數?一文講懂HeaderCookie
- 面試之jquery中的ajax方法引數面試jQuery
- SpringMVC原始碼之引數解析繫結原理SpringMVC原始碼
- oracle非同步IO之filesystemio_options引數Oracle非同步
- MyBaits | 對映檔案之引數處理AI
- Kotlin藝術探索之引數和異常Kotlin
- pytest介面測試之fixture傳引數request
- python之深入講解變數與名稱空間及資料引數與容器引數區別Python變數
- php函式之如何用預設引數和可變長度引數方式傳遞?PHP函式
- Hadoop實踐之Python(一)HadoopPython
- hadoop之yarn(優化篇)HadoopYarn優化
- 對hadoop之RPC的理解HadoopRPC
- Hadoop面試題之HDFSHadoop面試題
- Hadoop面試題之MapReduceHadoop面試題
- Hadoop入門(一)之Hadoop偽分散式環境搭建Hadoop分散式
- Hadoop大資料實戰系列文章之安裝HadoopHadoop大資料
- python疑問5:位置引數,預設引數,可變引數,關鍵字引數,命名關鍵字引數區別Python