hadoop的terasort排序總結

zcc_0015發表於2013-11-24

hadoop傳統的排序是各個map任務對每個資料塊進行區域性排序，然後由一個reduce任務對所有資料進行全域性排序，這樣雖然map的並行度高，但reduce的單行化操作卻是排序的瓶頸，terasort排序利用trie樹(詞典查詢樹)的相關性質，讓reduce任務同樣並行化大大提高了大資料的排序效率。

（1）trie樹介紹

Trie樹，是一種樹形結構，是一種根節點不包含字元，除根節點外每一個節點都只包含一個字元；從根節點到某一節點，路徑上經過的字元連線起來，為該節點對應的字串；每個節點的所有子節點包含的字元都不相同。雜湊樹的變種。典型應用是用於統計，排序和儲存大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：利用字串的公共字首來減少查詢時間，最大限度地減少無謂的字串比較，查詢效率比雜湊表高。

根節點不包含字元，除根節點外每一個節點都只包含一個字元；從根節點到某一節點，路徑上經過的字元連線起來，為該節點對應的字串；每個節點的所有子節點包含的字元都不相同。

用trie樹排序原理：採用陣列的方式建立字典樹，這棵樹的每個結點的所有兒子很顯然地按照其字母大小排序。對這棵樹進行先序遍歷即可

（2）terasort排序原理

Terasort排序要經過：取樣->map對資料記錄做標記（標識出所屬的reduce編號）-》各個reduce區域性排序，再順序輸出。

a、取樣

由jobclient對源資料進行全域性取樣，抽取部分資料然後排序，按reduce的個數對排序的資料進行分割，並將分割點暫存於分散式快取中。

b、每個map從快取中讀取出分割點，以陣列形式建立trie樹，並按先根遍歷標記出每條記錄所屬的reduce編號，此過程結束後，每個split將被map task分成r個塊，並且第i塊總是比第i+1塊大。

c、每個reduce進行區域性排序後，順序輸出即為最終的排序結果。

例子參照：http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/

hadoop基準測試_Hadoop TeraSort基準測試
2020-07-29
Hadoop
2. TeraSort在Hadoop分散式叢集中的執行
2020-06-11
Hadoop分散式
【Hadoop篇】--Hadoop常用命令總結
2018-03-07
Hadoop
Hadoop面試題總結
2024-11-26
Hadoop面試題
2024.7.13（hadoop學習總結）
2024-07-13
Hadoop
Cloudera hadoop認證總結
2021-03-19
CloudHadoop
hadoop(二)—hadoop配置、執行錯誤總結
2021-09-09
Hadoop
Hadoop架構的初略總結（1）
2018-03-18
Hadoop架構
Hadoop架構的初略總結（2）
2018-03-18
Hadoop架構
基於桶的排序之基數排序以及排序方法總結
2022-11-27
排序
Hadoop安裝錯誤總結
2018-04-28
Hadoop
PHP 中的氣泡排序總結
2019-08-28
PHP排序
java集合物件排序總結
2020-12-02
Java物件排序
Hadoop面試題總結（三）——MapReduce
2021-10-16
Hadoop面試題
排序演算法全總結
2018-04-04
排序演算法
C++ sort排序函式的用法總結
2019-03-09
C++排序函式
常用的比較排序演算法總結
2018-04-11
排序演算法
常見排序演算法總結
2021-03-17
排序演算法
常用排序演算法總結（1）
2018-05-11
排序演算法
常用排序演算法總結（2）
2018-05-13
排序演算法
八大基礎排序總結
2018-03-27
排序
Hadoop/Spark相關面試問題總結
2019-02-15
HadoopSpark面試
幾種常見的排序演算法總結
2023-11-21
排序演算法
PHP 排序演算法原理及總結
2019-10-15
PHP排序演算法
MYSQL order by排序與索引關係總結
2018-04-13
MySql排序索引
Redshift關於SORTKEY排序鍵、DISTKEY分配鍵的總結
2021-11-18
排序
Hadoop自定義輸出排序方式
2018-09-01
Hadoop排序
幾種常見排序演算法總結
2018-06-03
排序演算法
資料結構與演算法整理總結---排序 2
2020-03-22
資料結構演算法排序
[資料結構拾遺]字串排序演算法總結
2019-04-07
資料結構字串排序演算法
六種排序演算法的JavaScript實現以及總結
2018-05-24
排序演算法JavaScript
史上最全排序演算法總結！建議收藏
2020-04-06
排序演算法
排序演算法分析總結（附js實現）
2019-04-27
排序演算法JS
排序演算法原理總結和Python實現
2021-01-01
排序演算法Python
對資料結構和演算法的總結和思考（六）--計數排序
2021-09-09
資料結構演算法排序
對資料結構和演算法的總結和思考（三）--希爾排序
2021-09-09
資料結構演算法排序
Hadoop習題彙總
2024-06-18
Hadoop
《演算法筆記》5. 字首樹、桶排序、排序演算法總結
2020-07-17
演算法筆記排序
『演算法』之初級排序演算法總結
2019-02-10
演算法排序

hadoop的terasort排序總結

相關文章