Hadoop原始碼篇---解讀Mapprer原始碼outPut輸出

LHBlog發表於2018-01-09

一。前述

上次講完MapReduce的輸入後，這次開始講MapReduce的輸出。注意MapReduce的原語很重要：

“相同”的key為一組，呼叫一次reduce方法，方法內迭代這一組資料進行計算！！！！！

二。程式碼

繼續看MapTask任務。

private <INKEY,INVALUE,OUTKEY,OUTVALUE>
  void runNewMapper(final JobConf job,
                    final TaskSplitIndex splitIndex,
                    final TaskUmbilicalProtocol umbilical,
                    TaskReporter reporter
                    ) throws IOException, ClassNotFoundException,
                             InterruptedException {
    // make a task context so we can get the classes
    org.apache.hadoop.mapreduce.TaskAttemptContext taskContext =
      new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job, 
                                                                  getTaskID(),
                                                                  reporter);
    // make a mapper
    org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE> mapper =
      (org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>)
        ReflectionUtils.newInstance(taskContext.getMapperClass(), job);
    // make the input format
    org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat =
      (org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)
        ReflectionUtils.newInstance(taskContext.getInputFormatClass(), job);
    // rebuild the input split
    org.apache.hadoop.mapreduce.InputSplit split = null;
    split = getSplitDetails(new Path(splitIndex.getSplitLocation()),
        splitIndex.getStartOffset());
    LOG.info("Processing split: " + split);

    org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =
      new NewTrackingRecordReader<INKEY,INVALUE>
        (split, inputFormat, reporter, taskContext);
    
    job.setBoolean(JobContext.SKIP_RECORDS, isSkipping());
    org.apache.hadoop.mapreduce.RecordWriter output = null;
    
    // get an output object
    if (job.getNumReduceTasks() == 0) {
      output = 
        new NewDirectOutputCollector(taskContext, job, umbilical, reporter);
    } else {
      output = new NewOutputCollector(taskContext, job, umbilical, reporter);原始碼解析一
    }

    org.apache.hadoop.mapreduce.MapContext<INKEY, INVALUE, OUTKEY, OUTVALUE> 
    mapContext = 
      new MapContextImpl<INKEY, INVALUE, OUTKEY, OUTVALUE>(job, getTaskID(), 
          input, output, 
          committer, 
          reporter, split);

    org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context 
        mapperContext = 
          new WrappedMapper<INKEY, INVALUE, OUTKEY, OUTVALUE>().getMapContext(
              mapContext);

    try {
      input.initialize(split, mapperContext);
      mapper.run(mapperContext);
      mapPhase.complete();
      setPhase(TaskStatus.Phase.SORT);
      statusUpdate(umbilical);
      input.close();
      input = null;
      output.close(mapperContext);
      output = null;
    } finally {
      closeQuietly(input);
      closeQuietly(output, mapperContext);
    }
  }

解析一。構造OutPut物件：

 NewOutputCollector(org.apache.hadoop.mapreduce.JobContext jobContext,
                       JobConf job,
                       TaskUmbilicalProtocol umbilical,
                       TaskReporter reporter
                       ) throws IOException, ClassNotFoundException {
      collector = createSortingCollector(job, reporter);//對應解析原始碼1.2
      partitions = jobContext.getNumReduceTasks();//分割槽數等於Reduce數，分割槽數大於分組的概念。
      if (partitions > 1) {
        partitioner = (org.apache.hadoop.mapreduce.Partitioner<K,V>)
          ReflectionUtils.newInstance(jobContext.getPartitionerClass(), job);//對應原始碼1.1
      } else {
        partitioner = new org.apache.hadoop.mapreduce.Partitioner<K,V>() {
          @Override
          public int getPartition(K key, V value, int numPartitions) {
            return partitions - 1;//使用者不設定時預設框架一個reduce，並且分割槽號為0
          }
        };
      }
    }
  @Override
    public void write(K key, V value) throws IOException, InterruptedException {
      collector.collect(key, value,
                        partitioner.getPartition(key, value, partitions));//上下文物件構造寫出的值，放在collect快取區中。
    }

解析1.1

public Class<? extends Partitioner<?,?>> getPartitionerClass()
throws ClassNotFoundException {
return (Class<? extends Partitioner<?,?>>)
conf.getClass(PARTITIONER_CLASS_ATTR, HashPartitioner.class);//當使用者設定取使用者的，沒設定預設HashPartitioner 對應解析原始碼1.1.1

解析原始碼1.2createSortingCollector類的具體實現

 private <KEY, VALUE> MapOutputCollector<KEY, VALUE>
          createSortingCollector(JobConf job, TaskReporter reporter)
    throws IOException, ClassNotFoundException {
    MapOutputCollector.Context context =
      new MapOutputCollector.Context(this, job, reporter);

    Class<?>[] collectorClasses = job.getClasses(
      JobContext.MAP_OUTPUT_COLLECTOR_CLASS_ATTR, MapOutputBuffer.class);
    int remainingCollectors = collectorClasses.length;
    for (Class clazz : collectorClasses) {
      try {
        if (!MapOutputCollector.class.isAssignableFrom(clazz)) {
          throw new IOException("Invalid output collector class: " + clazz.getName() +
            " (does not implement MapOutputCollector)");
        }
        Class<? extends MapOutputCollector> subclazz =
          clazz.asSubclass(MapOutputCollector.class);
        LOG.debug("Trying map output collector class: " + subclazz.getName());
        MapOutputCollector<KEY, VALUE> collector =
          ReflectionUtils.newInstance(subclazz, job);
        collector.init(context);//解析原始碼對應1.2.1
        LOG.info("Map output collector class = " + collector.getClass().getName());
        return collector;
      } catch (Exception e) {
        String msg = "Unable to initialize MapOutputCollector " + clazz.getName();
        if (--remainingCollectors > 0) {
          msg += " (" + remainingCollectors + " more collector(s) to try)";
        }
        LOG.warn(msg, e);
      }
    }
    throw new IOException("Unable to initialize any output collector");
  }

解析原始碼1.2.1 緩衝區collect的初始化

 public void init(MapOutputCollector.Context context
                    ) throws IOException, ClassNotFoundException {
      job = context.getJobConf();
      reporter = context.getReporter();
      mapTask = context.getMapTask();
      mapOutputFile = mapTask.getMapOutputFile();
      sortPhase = mapTask.getSortPhase();
      spilledRecordsCounter = reporter.getCounter(TaskCounter.SPILLED_RECORDS);
      partitions = job.getNumReduceTasks();
      rfs = ((LocalFileSystem)FileSystem.getLocal(job)).getRaw();

      //sanity checks
      final float spillper =
        job.getFloat(JobContext.MAP_SORT_SPILL_PERCENT, (float)0.8);//緩衝區溢寫閾值，
      final int sortmb = job.getInt(JobContext.IO_SORT_MB, 100);//緩衝區預設單位是100M
      indexCacheMemoryLimit = job.getInt(JobContext.INDEX_CACHE_MEMORY_LIMIT,
                                         INDEX_CACHE_MEMORY_LIMIT_DEFAULT);
      if (spillper > (float)1.0 || spillper <= (float)0.0) {
        throw new IOException("Invalid \"" + JobContext.MAP_SORT_SPILL_PERCENT +
            "\": " + spillper);
      }
      if ((sortmb & 0x7FF) != sortmb) {
        throw new IOException(
            "Invalid \"" + JobContext.IO_SORT_MB + "\": " + sortmb);
      }
      sorter = ReflectionUtils.newInstance(job.getClass("map.sort.class",
            QuickSort.class, IndexedSorter.class), job);//Map從緩衝區往磁碟寫檔案的時候需要排序，用的快排。
      // buffers and accounting
      int maxMemUsage = sortmb << 20;
      maxMemUsage -= maxMemUsage % METASIZE;
      kvbuffer = new byte[maxMemUsage];
      bufvoid = kvbuffer.length;
      kvmeta = ByteBuffer.wrap(kvbuffer)
         .order(ByteOrder.nativeOrder())
         .asIntBuffer();
      setEquator(0);
      bufstart = bufend = bufindex = equator;
      kvstart = kvend = kvindex;

      maxRec = kvmeta.capacity() / NMETA;
      softLimit = (int)(kvbuffer.length * spillper);
      bufferRemaining = softLimit;
      LOG.info(JobContext.IO_SORT_MB + ": " + sortmb);
      LOG.info("soft limit at " + softLimit);
      LOG.info("bufstart = " + bufstart + "; bufvoid = " + bufvoid);
      LOG.info("kvstart = " + kvstart + "; length = " + maxRec);
      comparator = job.getOutputKeyComparator();//排序所使用的比較器 見原始碼解析1,2.1.1
      keyClass = (Class<K>)job.getMapOutputKeyClass();
      valClass = (Class<V>)job.getMapOutputValueClass();
      serializationFactory = new SerializationFactory(job);
      keySerializer = serializationFactory.getSerializer(keyClass);
      keySerializer.open(bb);
      valSerializer = serializationFactory.getSerializer(valClass);
      valSerializer.open(bb);
// combiner
      final Counters.Counter combineInputCounter =
        reporter.getCounter(TaskCounter.COMBINE_INPUT_RECORDS);
      combinerRunner = CombinerRunner.create(job, getTaskID(), //map端的組合 
                                             combineInputCounter,
                                             reporter, null);
      if (combinerRunner != null) {
        final Counters.Counter combineOutputCounter =
          reporter.getCounter(TaskCounter.COMBINE_OUTPUT_RECORDS);
        combineCollector= new CombineOutputCollector<K,V>(combineOutputCounter, reporter, job);
      } else {
        combineCollector = null;
      }

      spillInProgress = false;
      minSpillsForCombine = job.getInt(JobContext.MAP_COMBINE_MIN_SPILLS, 3);//小檔案最少是3時，會合並小檔案。
      spillThread.setDaemon(true);//執行緒是另外一個執行緒負責寫的 見解析原始碼1.2.1.2
      spillThread.setName("SpillThread");
      spillLock.lock();

總結：Mappper輸出到緩衝區預設是100M，寫到0.8時，會溢寫！！！！這塊可以調優。通過來回折半來調比如第一次調整50% 然後再80%中減小 70% 然後60%來回折半。

Combine一定要注意，比如求平均值

解析1,2.1.1排序比較器的實現

 public RawComparator getOutputKeyComparator() {
    Class<? extends RawComparator> theClass = getClass(
      JobContext.KEY_COMPARATOR, null, RawComparator.class);字典排序 預設
    if (theClass != null)
      return ReflectionUtils.newInstance(theClass, this);
    return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);//如果使用者沒有設定排序比較器，就是Key型別自己的比較器，所以Key必須實現序列化，反序列化，比較器。
  }

總結：框架預設使用Key的比較器，字典排序預設，使用者也可以覆蓋Key的比較器，自定義。！！！

解析原始碼1.2.1.2 溢寫執行緒做的事

protected class SpillThread extends Thread {

      @Override
      public void run() {
        spillLock.lock();
        spillThreadRunning = true;
        try {
          while (true) {
            spillDone.signal();
            while (!spillInProgress) {
              spillReady.await();
            }
            try {
              spillLock.unlock();
              sortAndSpill();//排序溢寫
            } catch (Throwable t) {
              sortSpillException = t;
            } finally {
              spillLock.lock();
              if (bufend < bufstart) {
                bufvoid = kvbuffer.length;
              }
              kvstart = kvend;
              bufstart = bufend;
              spillInProgress = false;
            }
          }
        } catch (InterruptedException e) {
          Thread.currentThread().interrupt();
        } finally {
          spillLock.unlock();
          spillThreadRunning = false;
        }
      }
    }

總結：Map往緩衝區寫入東西，執行緒把緩衝區中的內容做溢寫，開始排序，溢寫使用快排！！！Combine也在記憶體中，buffer也在記憶體，這些計算邏輯都在記憶體中，排序演算法也在記憶體中，因為Map方法在記憶體中，這是第一次Combine,從Buffer產生一堆小檔案的時候，然後一堆小檔案在合併的時候還會執行一次Combine，這次有條件限制（小檔案數量大於3）。

解析原始碼1.1.1

public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;!!!
  }

return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;!!!重要取分割槽的寫法！！

總結1.以上原始碼來源於 output = new NewOutputCollector(taskContext, job, umbilical, reporter)；所以可得出在輸出構造的時候需要構造一個分割槽器。要麼是0的，要麼是使用者設定的，要麼是預設的。
總結2.在輸出構造中，有緩衝區的設定。
總結3，以上方法都是OutPut的初始化。
總結4.Map輸出的K，V變成K，V,P然後寫入到環形緩衝區，記憶體快取區80%，然後溢寫排序，（先按分割槽排序，然後再按Key的組排序），然後生成小檔案，然後合併，用的歸併演算法，此時小檔案已經是內部有序的，所以使用歸併演算法，一次io即可。

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

Hadoop原始碼篇---解讀Mapprer原始碼Input輸入
2018-01-09
Hadoop原始碼APP
Hadoop原始碼篇--Client原始碼
2018-01-08
Hadoop原始碼client
Axios 原始碼解讀 —— 原始碼實現篇
2022-01-22
iOS原始碼
Hadoop原始碼篇--Reduce篇
2018-01-10
Hadoop原始碼
hadoop原始碼解讀——Configured
2013-11-02
Hadoop原始碼
Axios 原始碼解讀 —— request 篇
2022-01-10
iOS原始碼
tp5 前端程式碼原樣輸出 html原始碼輸出原始碼被輸出
2021-04-12
前端HTML原始碼
深入淺出解讀 Spring 原始碼：IOC/AOP 篇
2018-04-12
Spring原始碼
PostgreSQL 原始碼解讀（3）- 如何閱讀原始碼
2018-08-02
SQL原始碼
【解讀 ahooks 原始碼系列】DOM篇（一）
2023-03-10
Hook原始碼
原始碼閱讀技巧篇
2019-03-04
原始碼
Vuex 原始碼解析（如何閱讀原始碼實踐篇）
2017-07-09
Vue原始碼
vuex 原始碼：原始碼系列解讀總結
2018-05-06
Vue原始碼
WeakHashMap，原始碼解讀
2019-09-07
HashMap原始碼
Handler原始碼解讀
2019-02-26
原始碼
Laravel 原始碼解讀
2019-03-29
Laravel原始碼
Swoft 原始碼解讀
2019-02-16
原始碼
SDWebImage原始碼解讀
2019-01-18
Web原始碼
MJExtension原始碼解讀
2018-11-29
原始碼
Masonry原始碼解讀
2018-12-28
原始碼
HashMap原始碼解讀
2018-03-23
HashMap原始碼
Redux原始碼解讀
2018-05-01
Redux原始碼
require() 原始碼解讀
2015-05-20
UI原始碼
ZooKeeper原始碼解讀
2024-06-15
原始碼
FairyGUI原始碼解讀
2024-10-29
AIGUI原始碼
Hadoop2原始碼分析－MapReduce篇
2015-04-17
Hadoop原始碼
【C++】【原始碼解讀】std::is_same函式原始碼解讀
2022-02-09
C++原始碼函式
如何高效的閱讀hadoop原始碼？
2015-04-29
Hadoop原始碼
【原始碼閱讀】AndPermission原始碼閱讀
2019-05-09
原始碼
Flutter引擎原始碼解讀-記憶體管理篇
2020-05-07
Flutter原始碼記憶體
Axios 原始碼解讀 —— 網路請求篇
2022-01-16
iOS原始碼
iOS開發原始碼閱讀篇--FMDB原始碼分析1(FMResultSet)
2018-12-01
iOS原始碼
iOS開發原始碼閱讀篇--FMDB原始碼分析2(FMResultSet)
2018-12-03
iOS原始碼
Laravel 原始碼的解讀
2020-01-02
Laravel原始碼
reselect原始碼解讀
2019-03-03
原始碼
ThreadLocal 原始碼解讀
2019-04-01
thread原始碼
Redux原始碼完全解讀
2019-03-22
Redux原始碼
Seajs原始碼解讀
2019-03-04
JS原始碼

Hadoop原始碼篇---解讀Mapprer原始碼outPut輸出

相關文章