基於RDD的Spark應用程式開發案列講解（詞頻統計）

Mr.梧桐發表於2020-11-12

原文網址 : https://blog.csdn.net/weixin_49165958/article/details/109648594

步驟一：在電腦D盤上建立一個檔案a.txt,內容如下：
hello java
hello spark
hell0 scala
hello rqm
spark hi

步驟二：在IDEA裡建立Scala工程，並做好詞頻統計，輸出

val rdd=sc.textFile("D:\\a.txt)
rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)

步驟三：先提前寫好路徑，在resource建立資料夾info.properties，寫好hdfs的一個輸入路徑和輸出路徑

loadfile://hdfs:192.168.195.20:9000/kb09file/a.txt 要把該文將上傳到hdfs路徑上
outfile://hdfs:192.168.195.20:9000/kb09file/kv  後續結果輸出的路徑

步驟四：建立一個Properties類

  val  properties = new Properties()
  properties.load(new FileInputStream(" 這裡寫入info.properties的路徑"))

步驟五：把路徑方法寫成方法，方便呼叫

    val loadfile = properties.getProperty("loadfile")
    val outfile = properties.getProperty("outfile")

步驟六：呼叫該方法（步驟一的基礎上修改路徑）

  val rdd = sc.textFile(loadfile)
  val rdd2 = rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
  rdd2.saveAsTextFile(outfile)

步驟七：打jar包上傳到Linux上
要把該scala工程和info.properties上傳linux上；
注意，jar包上傳前，務必要把jar包裡的META-INF下的兩個DUMMY.SF和DUMMY.DSA檔案刪除，如果不刪除，在linux上操作會失敗，然後在上傳到Linux上
步驟八：linux上提交執行

spark-submit 
--class zb.sql.WordCount  //jar包在idea裡的路徑
--master local[2]    //本地模式
./20201109-sparkRdd.jar  //上傳到Linux上的jar包路徑和名稱（都要寫全）

步驟九：檢視結果
第一種方法：登入網頁端檢視是否出現結果，然後cat檢視結果
第二種方法：直接下載下來方法（工作中不建議，因為資料量大）

大白話講解Spark中的RDD
2020-11-15
Spark
詞語詞頻統計
2020-11-19
詞頻統計
2024-06-26
用Python如何統計文字檔案中的詞頻？(Python練習)
2019-11-26
Python
Spark學習（二）——RDD基礎
2019-03-31
Spark
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
詞頻統計mapreduce
2024-10-27
基於Golang的CLI 命令列程式開發
2020-10-11
Golang命令列
詞頻統計任務程式設計實踐
2024-10-14
程式設計
spark-RDD
2020-10-25
Spark
Spark RDD API
2021-09-09
SparkAPI
Spark 的核心概念 RDD
2019-04-20
Spark
python如何統計詞頻
2021-09-11
Python
Spark入門（三）--Spark經典的單詞統計
2019-02-27
Spark
基於大模型LLM（包括ChatGPT）的應用開發與輔助程式設計技能
2024-11-18
大模型ChatGPT程式設計
第一個spark應用開發詳解(java版)
2022-08-12
SparkJava
Spark - [03] RDD概述
2024-05-12
Spark
python實現詞頻統計
2020-12-08
Python
基於SkyEye執行Qt：著名應用程式開發框架
2024-04-19
QT框架
Spark RDD詳解 | RDD特性、lineage、快取、checkpoint、依賴關係
2020-10-23
Spark快取
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
鴻蒙系統應用開發之基於API6的藍芽開發
2023-01-30
鴻蒙API藍芽
基於javaEE的土地檔案管理系統的設計及開發
2020-12-20
Java
python TK庫統計word文件單詞詞頻程式 UI選擇文件
2020-12-27
PythonUI
IDEA開發Spark應用並提交本地Spark 2.1.0 stand
2021-09-09
IdeaSpark
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
Spark RDD在Spark中的地位和作用如何？
2021-05-12
Spark
Python統計四六級考試的詞頻
2018-09-10
Python
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
使用CEF（七）詳解macOS下基於CEF的多程式應用程式CMake專案搭建
2023-12-12
Mac
spark RDD，reduceByKey vs groupByKey
2018-10-28
Spark
IDEA開發Spark應用實戰(Scala)
2022-08-21
IdeaSpark
基於Yii2的應用開發引擎RageFrame
2018-03-21
基於Laravel 5.4 開發單頁應用
2019-02-16
Laravel
基於PostgreSQL進行Java應用開發
2021-11-05
SQLJava
基於迅為4418開發板應用於智慧門禁系統案例
2018-08-22
一文帶你過完Spark RDD的基礎概念
2020-02-09
Spark
基於知名微服務框架go-micro開發gRPC應用程式
2022-04-21
微服務框架GoRPC

基於RDD的Spark應用程式開發案列講解（詞頻統計）

相關文章