尚矽谷大資料Hadoop(30)P120-P127Mapreduce-FileinputFormat實現類KeyValueTextInputFormat案例實現NLineInputFormat案例實現

小白的學習筆記記錄發表於2020-12-13

P120-Mapreduce-FileinputFormat實現類

3.1.5CombineTextInputFormat案例操作

1.需求

將輸入的大量小檔案合併成一個切片統一處理。

  • (1)輸入資料

準備4個小檔案

  • (2)期望

期望一個切片處理4個檔案

2.實現過程

  • (1)不做任何處理,執行1.6節的WordCount案例程式,觀察切片個數為4。
  • (2)在WordcountDriver中增加如下程式碼,執行程式,並觀察執行的切片個數為3。

(a)驅動類中新增程式碼如下:
// 如果不設定InputFormat,它預設用的是

TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虛擬儲存切片最大值設定4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304

相關文章