雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料

華為雲開發者聯盟發表於2023-02-23

閱識風雲是華為雲資訊大咖,擅長將複雜資訊多元化呈現,其出品的一張圖(雲圖說)、深入淺出的博文(雲小課)或短影片(雲視廳)總有一款能讓您快速上手華為雲。更多精彩內容請單擊此處。

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料
摘要:Spark Streaming是一種構建在Spark上的實時計算框架,擴充套件了Spark處理大規模流式資料的能力。本文介紹如何使用MRS叢集執行Spark Streaming作業消費Kafka資料。

本文分享自華為雲社群《【雲小課】EI第48課 MRS資料分析-透過Spark Streaming作業消費Kafka資料》,作者: 閱識風雲 。

Spark是分散式批處理框架,提供分析挖掘與迭代式記憶體計算能力,支援多種語言(Scala/Java/Python)的應用開發。

Spark Streaming是一種構建在Spark上的實時計算框架,擴充套件了Spark處理大規模流式資料的能力。本文介紹如何使用MRS叢集執行Spark Streaming作業消費Kafka資料。

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料

在本案例中,假定某個業務Kafka每1秒就會收到1個單詞記錄。基於業務需要,開發的Spark應用程式實現實時累加計算每個單詞的記錄總數的功能。

本案例基本操作流程如下所示:

  1. 建立MRS叢集。
  2. 準備應用程式。
  3. 上傳Jar包及源資料。
  4. 執行作業並檢視結果。

場景描述

Spark提供分析挖掘與迭代式記憶體計算能力, 適用以下場景:

  • 資料處理(Data Processing):可以用來快速處理資料,兼具容錯性和可擴充套件性。
  • 迭代計算(Iterative Computation):支援迭代計算,有效應對多步的資料處理邏輯。
  • 資料探勘(Data Mining):在海量資料基礎上進行復雜的挖掘分析,可支援各種資料探勘和機器學習演算法。
  • 流式處理(Streaming Processing):支援秒級延遲的流式處理,可支援多種外部資料來源。
  • 查詢分析(Query Analysis):支援標準SQL查詢分析,同時提供DSL(DataFrame), 並支援多種外部輸入。

當前Spark支援兩種資料處理方式:Direct Streaming和Receiver方式。

Direct Streaming方式主要透過採用Direct API對資料進行處理。以Kafka Direct介面為例,與啟動一個Receiver來連續不斷地從Kafka中接收資料並寫入到WAL中相比,Direct API簡單地給出每個batch區間需要讀取的偏移量位置。然後,每個batch的Job被執行,而對應偏移量的資料在Kafka中已準備好。這些偏移量資訊也被可靠地儲存在checkpoint檔案中,應用失敗重啟時可以直接讀取偏移量資訊。

Direct Kafka介面資料傳輸

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料

需要注意的是,Spark Streaming可以在失敗後重新從Kafka中讀取並處理資料段。然而,由於語義僅被處理一次,重新處理的結果和沒有失敗處理的結果是一致的。

因此,Direct API消除了需要使用WAL和Receivers的情況,且確保每個Kafka記錄僅被接收一次,這種接收更加高效。使得Spark Streaming和Kafka可以很好地整合在一起。總體來說,這些特性使得流處理管道擁有高容錯性、高效性及易用性,因此推薦使用Direct Streaming方式處理資料。

在一個Spark Streaming應用開始時(也就是Driver開始時),相關的StreamingContext(所有流功能的基礎)使用SparkContext啟動Receiver成為長駐執行任務。這些Receiver接收並儲存流資料到Spark記憶體中以供處理。使用者傳送資料的生命週期如圖1-2所示:

資料傳輸生命週期

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料
  1. 接收資料(藍色箭頭)
    Receiver將資料流分成一系列小塊,儲存到Executor記憶體中。另外,在啟用預寫日誌(Write-ahead Log,簡稱WAL)以後,資料同時還寫入到容錯檔案系統的預寫日誌中。
  2. 通知Driver(綠色箭頭)
    接收塊中的後設資料(Metadata)被髮送到Driver的StreamingContext。這個後設資料包括:
    定位其在Executor記憶體中資料位置的塊Reference ID。
    若啟用了WAL,還包括塊資料在日誌中的偏移資訊。
  3. 處理資料(紅色箭頭)
    對每個批次的資料,StreamingContext使用Block資訊產生RDD及其Job。StreamingContext透過執行任務處理Executor記憶體中的Block來執行Job。
  4. 週期性地設定檢查點(橙色箭頭)
  5. 為了容錯的需要,StreamingContext會週期性地設定檢查點,並儲存到外部檔案系統中。

華為雲MapReduce服務提供了Spark服務多種場景下的樣例工程,本案例對應示例場景的開發思路:

  1. 接收Kafka中資料,生成相應DStream。
  2. 對單詞記錄進行分類統計。
  3. 計算結果,並進行列印。

步驟1:建立MRS叢集

1、建立併購買一個包含有Spark2x、Kafka元件的MRS叢集,詳情請參見MRS使用者指南的“購買自定義叢集”。

說明:本文以購買的MRS 3.1.0版本的叢集為例,叢集未開啟Kerberos認證。

2、叢集購買成功後,在MRS叢集的任一節點內,安裝叢集客戶端,具體操作可參考MRS快速入門的“安裝並使用叢集客戶端”。

例如客戶端安裝目錄為“/opt/client”。

步驟2:準備應用程式

1、透過開源映象站獲取樣例工程。

下載樣例工程的Maven工程原始碼和配置檔案,並在本地配置好相關開發工具,可參考MRS開發指南(普通版_3.x)的“透過開源映象站獲取樣例工程”。

根據叢集版本選擇對應的分支,下載並獲取MRS相關樣例工程。

例如本章節場景對應示例為“SparkStreamingKafka010JavaExample”樣例。

2、本地使用IDEA工具匯入樣例工程,等待Maven工程下載相關依賴包,具體操作可參考考MRS開發指南(普通版_3.x)的Spark開發指南(普通模式)的“配置並匯入樣例工程”。

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料

在本示例工程中,透過使用Streaming呼叫Kafka介面來獲取單詞記錄,然後把單詞記錄分類統計,得到每個單詞記錄數,關鍵程式碼片段如下:

public class StreamingExampleProducer { 
    public static void main(String[] args) throws IOException { 
        if (args.length < 2) { 
            printUsage(); 
        } 
        String brokerList = args[0]; 
        String topic = args[1]; 
        String filePath = "/home/data/";    //源資料獲取路徑 
        Properties props = new Properties(); 
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokerList); 
        props.put(ProducerConfig.CLIENT_ID_CONFIG, "DemoProducer"); 
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName()); 
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName()); 
        Producer<String, String> producer = new KafkaProducer<String, String>(props); 
 
        for (int m = 0; m < Integer.MAX_VALUE / 2; m++) { 
            File dir = new File(filePath); 
            File[] files = dir.listFiles(); 
            if (files != null) { 
                for (File file : files) { 
                    if (file.isDirectory()) { 
                        System.out.println(file.getName() + "This is a directory!"); 
                    } else { 
                        BufferedReader reader = null; 
                        reader = new BufferedReader(new FileReader(filePath + file.getName())); 
                        String tempString = null; 
                        while ((tempString = reader.readLine()) != null) { 
                            // Blank line judgment 
                            if (!tempString.isEmpty()) { 
                                producer.send(new ProducerRecord<String, String>(topic, tempString)); 
                            } 
                        } 
                        // make sure the streams are closed finally. 
                        reader.close(); 
                    } 
                } 
            } 
            try { 
                Thread.sleep(3); 
            } catch (InterruptedException e) { 
                e.printStackTrace(); 
            } 
        } 
    } 
 
    private static void printUsage() { 
        System.out.println("Usage: {brokerList} {topic}"); 
    } 
}

3、本地配置好Maven及SDK相關引數後,樣例工程會自動載入相關依賴包。載入完畢後,執行package打包,獲取打包後的Jar檔案。

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料

例如打包後的Jar檔案為“SparkStreamingKafka010JavaExample-1.0.jar”。

步驟3:上傳Jar包及源資料

1、準備向Kafka傳送的源資料,例如如下的“input_data.txt”檔案,將該檔案上傳到客戶端節點的“/home/data”目錄下。

ZhangSan 
LiSi 
WangwWU 
Tom 
Jemmmy 
LinDa

2、將編譯後的Jar包上傳到客戶端節點,例如上傳到“/opt”目錄。

說明:如果本地網路無法直接連線客戶端節點上傳檔案,可先將jar檔案或者源資料上傳至OBS檔案系統中,然後透過MRS管理控制檯叢集內的“檔案管理”頁面匯入HDFS中,再透過HDFS客戶端使用hdfs dfs -get命令下載到客戶端節點本地。

步驟4:執行作業並檢視結果

1、使用root使用者登入安裝了叢集客戶端的節點。

cd /opt/client
source bigdata_env

2、建立用於接收資料的Kafka Topic。

kafka-topics.sh --create --zookeeper quorumpeer例項IP地址:ZooKeeper客戶端連線埠/kafka --replication-factor 2 --partitions 3 --topic topic名稱

quorumpeer例項IP地址可登入叢集的FusionInsight Manager介面,在“叢集 > 服務 > ZooKeeper > 例項”介面中查詢,多個地址可用“,”分隔。ZooKeeper客戶端連線埠可透過ZooKeeper服務配置引數“clientPort”查詢,預設為2181。

例如執行以下命令:

kafka-topics.sh --create --zookeeper 192.168.0.17:2181/kafka --replication-factor 2 --partitions 2 --topic sparkkafka

返回結果如下:

Created topic sparkkafka.

3、Topic建立成功後,執行程式向Kafka傳送資料。

java -cp /opt/SparkStreamingKafka010JavaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.StreamingExampleProducer Broker例項IP地址:Kafka連線埠 topic名稱

Kafka Broker例項IP地址可登入叢集的FusionInsight Manager介面,在“叢集 > 服務 > Kafka > 例項”介面中查詢,多個地址可用“,”分隔。Broker埠號可透過Kafka服務配置引數“port”查詢,預設為9092。

例如執行以下命令:

java -cp /opt/SparkStreamingKafka010JavaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.StreamingExampleProducer 192.168.0.131:9092 sparkkafka
返回結果如下:
... 
transactional.id = null 
value.serializer = class org.apache.kafka.common.serialization.StringSerializer 
 
2022-06-08 15:43:42 INFO  AppInfoParser:117 - Kafka version: xxx 
2022-06-08 15:43:42 INFO  AppInfoParser:118 - Kafka commitId: xxx 
2022-06-08 15:43:42 INFO  AppInfoParser:119 - Kafka startTimeMs: xxx 
2022-06-08 15:43:42 INFO  Metadata:259 - [Producer clientId=DemoProducer] Cluster ID: d54RYHthSUishVb6nTHP0A

4、重新開啟一個客戶端連線視窗,執行以下命令,讀取Kafka Topic中的資料。

cd /opt/client/Spark2x/spark
source bigdata_env
bin/spark-submit --master yarn --deploy-mode client --jars $(files=($SPARK_HOME/jars/streamingClient010/*.jar); IFS=,; echo "${files[*]}") --class com.huawei.bigdata.spark.examples.KafkaWordCount /opt/SparkStreamingKafka010JavaExample-1.0.jar <checkpointDir> <brokers> <topic> <batchTime>

<checkPointDir>指應用程式結果備份到HDFS的路徑,自行指定即可,例如“/tmp”。
<brokers>指獲取後設資料的Kafka地址,格式為“Broker例項IP地址:Kafka連線埠”。
<topic>指讀取Kafka上的topic名稱。
<batchTime>指Streaming分批的處理間隔,例如設定為“5”。

例如執行以下命令:

cd /opt/client/Spark2x/spark
source bigdata_env
bin/spark-submit --master yarn --deploy-mode client --jars $(files=($SPARK_HOME/jars/streamingClient010/*.jar); IFS=,; echo "${files[*]}") --class com.huawei.bigdata.spark.examples.KafkaWordCount /opt/SparkStreamingKafka010JavaExample-1.0.jar /tmp 192.168.0.131:9092 sparkkafka 5

程式執行後,可檢視到Kafka中資料的統計結果:

.... 
-------------------------------------------                                      
Time: 1654674380000 ms 
------------------------------------------- 
(ZhangSan,6) 
(Tom,6) 
(LinDa,6) 
(WangwWU,6) 
(LiSi,6) 
(Jemmmy,6) 
 
-------------------------------------------                                      
Time: 1654674385000 ms 
------------------------------------------- 
(ZhangSan,717) 
(Tom,717) 
(LinDa,717) 
(WangwWU,717) 
(LiSi,717) 
(Jemmmy,717) 
 
------------------------------------------- 
Time: 1654674390000 ms 
------------------------------------------- 
(ZhangSan,2326) 
(Tom,2326) 
(LinDa,2326) 
(WangwWU,2326) 
(LiSi,2326) 
(Jemmmy,2326) 
 ...

5、登入FusionInsight Manager介面,單擊“叢集 > 服務 > Spark2x”。

6、在服務概覽頁面點選Spark WebUI後的連結地址,可進入History Server頁面。

單擊待檢視的App ID,您可以檢視Spark Streaming作業的狀態。

雲小課|MRS資料分析-透過Spark Streaming作業消費Kafka資料

----結束

好了,本期雲小課就介紹到這裡,快去體驗MapReduce(MRS)更多功能吧!猛戳這裡

 

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章