Spark開發-WordCount流程詳細講解

Xlucas發表於2017-09-18

Spark

核心
wordcount流程詳細講解

有一份這樣的資料
hello xlucas hello hadoop
hello hadoop
hello spark
hello kafka

最後的結果是這樣的
hello:5
hadoop:2
spark:1
xlucas:1
kafka:1

那麼這裡spark主要做了哪些事情？

我們先從textFile可以看到這裡呼叫了HadoopFile
這裡寫圖片描述

從HadoopFile這裡我們可以看到，建立了一個HadoopRDD的例項
這裡寫圖片描述

在去掉Key的時候會做Map操作，這個map會返回一個MapPartitionsRDD
這裡寫圖片描述

這裡的flatMap也會返回一個MapPartitionsRDD
這裡寫圖片描述

在做reduceByKey的時候，其實呼叫了combineByKeyWithClassTag
這裡寫圖片描述

我們可以看到combineByKeyWithClassTag其實返回了一個shuffledRDD
這裡寫圖片描述

我們可以看到在shuffledRDD最後還做了一個MapPartitionsRDD的操作，其實這一步主要做了一次資料整理，在操作之前將檔案的key去掉了，這一步將檔案的key加上寫回到HDFS等操作
這裡寫圖片描述

整個流程圖是這樣的：
這裡寫圖片描述

.Net for Spark 實現 WordCount 應用及除錯入坑詳解
2019-06-29
Spark除錯
dart類詳細講解
2021-02-09
Dart
C#開發Windows服務詳細流程
2018-12-28
C#Windows
Go Struct超詳細講解
2019-04-07
GoStruct
指標的詳細講解
2020-04-15
指標
大資料開發-Spark Join原理詳解
2021-02-09
大資料Spark
詳細講解：零知識證明之 ZCash 完整的匿名交易流程
2019-05-23
Java中的static詳細講解
2020-11-22
Java
react的詳細知識講解！
2021-05-26
React
詳細講解函式呼叫原理
2020-12-29
函式
MyBatis-Plus詳細講解（一）
2020-12-27
MyBatis
Spring @Conditional註解詳細講解及示例
2020-04-05
Spring
svn分支協同開發流程（內附超詳細流程圖和解釋）
2018-08-22
流程圖
詳細講解23種設計模式
2023-03-01
設計模式
幣幣交易模式系統開發技術丨質押邏輯詳細開發需求講解
2023-09-25
模式
研發流程在敏捷開發中的詳解
2021-10-14
敏捷
Vue 框架-12-Vue 專案的詳細開發流程
2018-11-16
Vue框架
第一個spark應用開發詳解(java版)
2022-08-12
SparkJava
演算法--揹包九講（詳細講解+程式碼）
2018-07-31
演算法
MVC 三層架構案例詳細講解
2023-05-17
MVC架構
DeFi和CeFi的區別詳細講解
2020-09-15
詳細講解！RabbitMQ防止資料丟失
2020-09-29
MQ
spring 詳細講解（ioc，依賴注入，aop）
2024-09-16
Spring依賴注入
Mbps 及其相關單位詳細講解
2024-07-23
網路安全Bypass網路卡詳細講解
2021-12-27
EventBus 3.0+ 原始碼詳解（史上最詳細圖文講解）
2018-07-30
原始碼
Linux開機流程詳解
2020-12-18
Linux
詳細講解：零知識證明之 zk-SNARK 開篇
2019-05-20
Spark Parquet詳解
2020-09-29
Spark
區塊鏈技術Python（鏈遊）元宇宙系統開發程式詳細講解方案
2023-01-30
區塊鏈Python元宇宙
機器學習之決策樹詳細講解及程式碼講解
2020-09-29
機器學習
webpack4.x最詳細入門講解
2018-10-29
Web
vue-cli 目錄結構詳細講解
2019-02-16
Vue
Spring 面向切面程式設計AOP 詳細講解
2024-05-18
Spring程式設計
ES6中rest引數詳細講解
2021-09-09
REST
超詳細講解頁面載入過程
2021-11-09
【DAPP】佛薩奇2.0矩陣互助開發詳情丨佛薩奇制度系統開發細節講解
2023-03-28
APP矩陣
Linux下安裝Hadoop 詳解及WordCount執行
2020-11-11
LinuxHadoop
DApp智慧合約技術開發詳情講解
2023-04-11
APP

Spark開發-WordCount流程詳細講解

相關文章