2. TeraSort在Hadoop分散式叢集中的執行

BuerAkun1024發表於2020-06-11

2. TeraSort

**1TB排序通常用於衡量分散式資料處理框架的資料處理能力。**Terasort是Hadoop中的的一個排序作業，在2008年，Hadoop在1TB排序基準評估中贏得第一名，耗時209秒。

執行環境：

CentOS-7.6-Minimal * 3 由Vmware平臺搭建

三臺主機對應IP地址：192.168.239.100 hadoop100

192.168.239.101 hadoop101

192.168.239.102 hadoop102

環境：hadoop-2.7.7 + JDK-8-251

三臺虛擬機器上節點分配：

hadoop100：DataNode NameNode NodeManager

hadoop200： ResourceManager NodeManager DataNode

hadoop300：NodeManager DataNode JobHistoryServer

程式的開發驗證由PC機實現

Intellij IDEA 2018.4 + hadoop-2.7.7 + JDK-8-251 + Maven-3.3.9

三個驗證實驗：
WordCount：詞頻統計
TeraSort：Hadoop中的的一個排序作業
PageRank：對網頁進行分析並排序的演算法

2.1 演算法思想

解決大規模資料排序問題首先想到的是分而治之的策略，但是這在Hadoop中並不適用，因為，儘管map可以並行，但是這在reduce階段並不能做到，於是Hadoop官方提出了TeraSort排序演算法，這個演算法在Hadoop的原始碼中。
為了提高reduce階段的並行度，TeraSort作業對分而治之的演算法進行如下改進：在map階段，每個map task都會將資料劃分成R個資料塊（R為reduce task個數），其中第i（i>0）個資料塊的所有資料都會比第i+1箇中的資料大；在reduce階段，第i個reduce task處理（進行排序）所有map task的第i塊，這樣第i個reduce task產生的結果均會比第i+1個大，最後將1~R個reduce task的排序結果順序輸出，即為最終的排序結果。
這種設計思路很明顯比第一種高效，但實現難度較大，它需要解決以下兩個技術難點：第一，如何確定每個map task資料的R個資料塊的範圍？第二，對於某條資料，如果快速的確定它屬於哪個資料塊？答案分別為【取樣】和【trie樹】。

2.2 演算法流程

對於Hadoop的Terasort排序演算法，主要由3步組成：取樣 –>> map task對於資料記錄做標記 –>> reduce task進行區域性排序。
資料取樣在JobClient端進行，首先從輸入資料中抽取一部分資料，將這些資料進行排序，然後將它們劃分成R個資料塊，找出每個資料塊的資料上限和下線（稱為“分割點”），並將這些分割點儲存到分散式快取中。
在map階段，每個map task首先從分散式快取中讀取分割點，並對這些分割點建立trie樹（兩層trie樹，樹的葉子節點上儲存有該節點對應的reduce task編號）。然後正式開始處理資料，對於每條資料，在trie樹中查詢它屬於的reduce task的編號，並儲存起來。
在reduce階段，每個reduce task從每個map task中讀取其對應的資料進行區域性排序，最後將reduce task處理後結果按reduce task編號依次輸出即可。

2.3 在hadoop分散式叢集上執行TeraSort

Hadoop原始碼中包含了TeraSort，打包在hadoop-2.7.7\share\hadoop\mapreduce包：hadoop-mapreduce-examples-2.7.7.jar

使用teragen產生資料

使用Teragen來產生資料，示例如下：

hadoop jar hadoop-*-examples.jar teragen 引數1 引數2

teragen的引數解釋：

引數1：表示要產生的資料的行數。Teragen每行資料的大小是100B。
要產生1T的資料，需要的行數=102410241024*1024/100=10995116277行
引數2 : 產生的資料放置的資料夾地址

預設的teragen的啟動的map數比較少，只有2個，如果要指定map數可以加-Dmapred.map.tasks=map數的方式。比如我們來產生1T的資料

# 產生資料：1000000標定資料大小
$ hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar teragen -Dmapred.map.tasks=100 1000000 /output

ls一下目錄是否產出

$ hadoop fs -ls /output
# 1 + 100 個條目會在命令執行後展出
[hadoop1@hadoop100 application]$ hadoop fs -ls /output
Found 101 items
-rw-r--r--   3 hadoop1 supergroup          0 2020-06-09 06:10 /output/_SUCCESS
-rw-r--r--   3 hadoop1 supergroup    1000000 2020-06-09 06:09 /output/part-m-00000
-rw-r--r--   3 hadoop1 supergroup    1000000 2020-06-09 06:09 /output/part-m-00001
-rw-r--r--   3 hadoop1 supergroup    1000000 2020-06-09 06:09 /output/part-m-00002
-rw-r--r--   3 hadoop1 supergroup    1000000 2020-06-09 06:09 /output/part-m-00003
-rw-r--r--   3 hadoop1 supergroup    1000000 2020-06-09 06:09 /output/part-m-00004
......

使用Terasort排序

使用terasort對剛才使用teragen產生的資料進行排序，排序結果輸出到/output_rst。
預設的reduce數目是1，會導致任務跑得非常慢。通過-Dmapred.reduce.tasks指定reduce數目，這裡我們設定50個

$ hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar terasort -Dmapred.reduce.tasks=50 /output /output_rst
# 2 + 50 條資料  50條資料對應50個reduce產生的結果
[hadoop1@hadoop100 application]$ hadoop fs -ls /output_rst
Found 52 items
-rw-r--r--   1 hadoop1 supergroup          0 2020-06-09 06:29 /output_rst/_SUCCESS
-rw-r--r--  10 hadoop1 supergroup        539 2020-06-09 06:24 /output_rst/_partition.lst
-rw-r--r--   1 hadoop1 supergroup    1947700 2020-06-09 06:29 /output_rst/part-r-00000
-rw-r--r--   1 hadoop1 supergroup    2015000 2020-06-09 06:29 /output_rst/part-r-00001
-rw-r--r--   1 hadoop1 supergroup    2035900 2020-06-09 06:29 /output_rst/part-r-00002
-rw-r--r--   1 hadoop1 supergroup    1990400 2020-06-09 06:29 /output_rst/part-r-00003
-rw-r--r--   1 hadoop1 supergroup    1967000 2020-06-09 06:29 /output_rst/part-r-00004
......

啟動Teragen之後，會提交mapre reduce任務來，產生TeraSort需要的資料

使用Teravalidate 進行驗證

使用TeraValidate 對Terasort的結果進行驗證:

$ hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar teravalidate /output_rst /validate
# 提示成功
20/06/09 06:38:04 INFO mapreduce.Job: Job job_1591628181590_0007 completed successfully

最終運算的時長：資料大小為100M (非標準1024算的) 執行時間：Gen: 1’50" Sort：5’4"
在這裡插入圖片描述

注意：

在樹莓派的實驗中，這裡的引數需要進行相應的調整，比如跑10個map，跑1個reduce

2.4 參考

演算法分析的部落格：
- 基於Hadoop的大規模資料排序演算法
- Hadoop中TeraSort演算法分析
跑演算法的部落格
- Hadoop測試TeraSort
MPI程式設計思想，收藏一下
- 用MPI實現Hadoop Map/Reduce的TeraSort
- hadoop叢集下執行Terasort排序

hadoop分散式叢集搭建
2021-03-04
Hadoop分散式
Hadoop分散式叢集搭建_1
2018-05-17
Hadoop分散式
Hadoop完全分散式叢集配置
2021-05-01
Hadoop分散式
一鍵在本地搭建執行Istio 1.0的分散式Kubernetes叢集
2018-08-02
分散式
Hadoop-叢集執行
2022-04-04
Hadoop
列出叢集中所有執行容器的映象
2020-12-24
Hadoop 及Spark 分散式HA執行環境搭建
2023-02-27
HadoopSpark分散式
Hadoop叢集中Hbase的介紹、安裝、使用
2022-12-20
Hadoop
完全分散式模式hadoop叢集安裝與配置
2018-11-02
分散式模式Hadoop
Hadoop3.0完全分散式叢集安裝部署
2018-03-16
Hadoop分散式
hadoop叢集搭建——單節點（偽分散式）
2022-06-24
Hadoop分散式
[Hadoop踩坑]叢集分散式環境配置
2021-09-09
Hadoop分散式
hadoop基準測試_Hadoop TeraSort基準測試
2020-07-29
Hadoop
分散式叢集與多執行緒高併發
2024-07-27
分散式執行緒
Hadoop框架：叢集模式下分散式環境搭建
2020-09-27
Hadoop框架模式分散式
虛擬機器裝Hadoop叢集完全分散式
2020-12-11
虛擬機Hadoop分散式
hadoop偽分散式叢集的安裝（不是單機版）
2023-04-14
Hadoop分散式
在 Ubuntu 22 的基礎上進行 Hadoop 偽分散式（HDFS）的搭建
2023-03-02
UbuntuHadoop分散式
Centos7搭建hadoop3.3.4分散式叢集
2023-02-21
CentOSHadoop分散式
IDEA本地執行hadoop程式成功，叢集執行找不到自定義的Mapper類
2020-12-30
IdeaHadoopAPP
CentOS 7上搭建Spark 3.0.1 + Hadoop 3.2.1分散式叢集
2020-11-26
CentOSSparkHadoop分散式
hadoop window 遠端提交job到叢集並執行
2019-05-11
Hadoop
Mars如何分散式地執行
2019-01-08
分散式
centos7 hadoop3.2.0分散式叢集搭建步驟
2020-10-14
CentOSHadoop分散式
【Azure 儲存服務】Hadoop叢集中使用ADLS(Azure Data Lake Storage)過程中遇見執行PUT操作報錯
2022-07-13
Hadoop
在kubernetes叢集中部署open-falcon
2019-04-08
hadoop+spark偽分散式
2024-04-12
HadoopSpark分散式
分散式鎖 (資源在程式而非執行緒之間共享)
2018-11-28
分散式執行緒
好程式設計師大資料培訓分享Hadoop分散式叢集
2020-10-16
程式設計師大資料Hadoop分散式
CentOS 7上搭建Spark3.0.1+ Hadoop3.2.1分散式叢集
2021-01-03
CentOSSparkHadoop分散式
java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式
2020-07-14
Java大資料筆記Hadoop分散式模式
ElasticSearch 分散式叢集
2021-03-01
Elasticsearch分散式
Hadoop hdfs完全分散式搭建教程
2019-01-17
Hadoop分散式
hadoop完全分散式環境搭建
2020-10-24
Hadoop分散式
Hadoop環境搭建（二）分散式
2024-11-29
Hadoop分散式
CentOS7 hadoop3.3.1安裝(單機分散式、偽分散式、分散式)
2021-11-13
CentOSHadoop分散式
{Submarine} 在 Apache Hadoop 中執行深度學習框架
2019-01-11
ApacheHadoop深度學習框架
hadoop的mapreduce串聯執行
2018-09-01
Hadoop