MapReduce框架排序和分組

Thinkgamer_gyt發表於2015-08-07

前言：

Mapreduce框架就是map->reduce,其中Map中的<key,value>是偏移量和行值，在其之前會使用job.setInputFormatClass定義的InputFormat將輸入的資料集分割成小資料塊splites，同時InputFormat提供一個RecordReder的實現。本例子中使用的是TextInputFormat，他提供的RecordReder會將文字的一行的行號作為key，這一行的文字作為value。這就是自定義Map的輸入是<LongWritable, Text>的原因。

之後呼叫Map類進行split，將其寫入環形記憶體中，待其達到閥值時，對其的80%進行排序排序和分組，這都是在Map和Reduce之間完成，那麼下面我們來看看這些函式類

一、分割槽

參考上一篇部落格：http://blog.csdn.net/gamer_gyt/article/details/47339755

二、排序

參考部落格：http://blog.csdn.net/gamer_gyt/article/details/48025805

按照Key進行排序，其實在每一個Map函式裡就已經預設呼叫了job.setSortComparatorClass(Comparator.class)類進行了排序，但此時只不過對每一個Map函式接受的value（行值）的排序，這裡所說的是map和reduce之間的排序，實現的是對所有的key進行排序

三、分組

job.setGroupingComparatorClass(GroupComparator.class);

如果使用者想自定義排序方式，首先需要實現兩個Comparator並將其按照上面的格式進行配置。每一個Comparator需要繼承WritableComparator基類。如下所示：

public static class GroupComparator extends WritableComparator {
protected GroupComparator() {
super(IntPair.class, true);
}
@Override
public int compare(WritableComparable w1, WritableComparable w2) {
IntPair ip1 = (IntPair) w1;
IntPair ip2 = (IntPair) w2;
return IntPair.compare(ip1.getFirst(), ip2.getFirst());
}
}

這一點在二次排序中深有體現：可以參考http://blog.csdn.net/gamer_gyt/article/details/47315405

MapReduce最佳化之位元組級別快速排序
2015-06-10
排序
order by改分組排序
2020-12-03
排序
SQL 分組排序group by
2016-06-01
SQL排序
MySQL實現分組排序
2018-10-12
MySql排序
利用rownum分組排序去重
2013-12-04
排序
MapReduce之WritableComparable排序
2020-07-29
排序
Mysql 分組排序的sql寫法
2021-08-26
MySql排序
mapreduce框架詳解
2016-09-13
框架
MapReduce框架Mapper和Reducer類原始碼分析
2015-08-07
框架APP原始碼
Java利用Comparator實現分組排序
2019-02-15
Java排序
MapReduce框架-Join的使用
2021-08-13
框架
MapReduce應用案例--簡單排序
2016-04-11
排序
MapReduce(三)：分割槽、排序、合併
2015-09-18
排序
MapReduce 二次排序詳解
2015-08-06
排序
JAVA將快速將列表分組並排序鍵
2021-09-09
Java排序
資料庫之DQL排序&分組&函式
2020-12-28
資料庫排序函式
select查詢之二：分組與排序
2016-10-08
排序
SQL 分組排序取最新一條記錄
2011-09-02
SQL排序
MapReduce框架Partitioner分割槽方法
2015-08-07
框架
Hadoop框架：MapReduce基本原理和入門案例
2020-11-22
Hadoop框架
hadoop&spark mapreduce對比 & 框架設計和理解
2015-11-25
HadoopSpark框架
javascript: 帶分組資料的Table表頭排序
2021-09-09
JavaScript排序
MapReduce 按照Value值進行排序輸出
2015-08-27
排序
ForkJoin和氣泡排序組合實現的歸併排序
2020-11-02
排序
輕鬆搞定分組報表中的各種排序
2019-12-25
排序
LINQ簡明教程：資料排序、分組、過濾
2014-09-17
排序
MapReduce程式設計例項之自定義排序
2015-11-25
程式設計排序
Hadoop-MapReduce-TeraSort-大資料排序例子
2012-07-24
Hadoop大資料排序
Hadoop 新 MapReduce 框架 Yarn 詳解
2014-07-18
Hadoop框架Yarn
Spring框架 - Spring和Spring框架組成
2022-06-20
Spring框架
Oracle和MySQL分組查詢GROUP BY
2017-07-20
OracleMySql
分組
2024-06-25
sql分組查詢語句--行內分組（非聚合分組）
2013-01-18
SQL
MySQL 分組排序後 → 如何取前N條或倒數N條
2023-12-11
MySql排序
使用Go語言實現簡單MapReduce框架
2017-12-14
Go框架
HCE：提升資源利用率的MapReduce框架
2011-08-02
框架
Go Web輕量級框架Gin學習系列：路由分組
2019-05-04
GoWeb框架路由
一組關鍵字序列，分別給出用希爾排序、直接選擇排序演算法從小到大排序結果
2020-08-05
排序演算法

MapReduce框架排序和分組

前言：

一、分割槽

二、排序

三、分組

相關文章