基於RDD的Spark應用程式開發案列講解(詞頻統計)
步驟一:在電腦D盤上建立一個檔案a.txt,內容如下:
hello java
hello spark
hell0 scala
hello rqm
spark hi
步驟二:在IDEA裡建立Scala工程,並做好詞頻統計,輸出
val rdd=sc.textFile("D:\\a.txt)
rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
步驟三:先提前寫好路徑,在resource建立資料夾info.properties,寫好hdfs的一個輸入路徑和輸出路徑
loadfile://hdfs:192.168.195.20:9000/kb09file/a.txt 要把該文將上傳到hdfs路徑上
outfile://hdfs:192.168.195.20:9000/kb09file/kv 後續結果輸出的路徑
步驟四:建立一個Properties類
val properties = new Properties()
properties.load(new FileInputStream(" 這裡寫入info.properties的路徑"))
步驟五:把路徑方法寫成方法,方便呼叫
val loadfile = properties.getProperty("loadfile")
val outfile = properties.getProperty("outfile")
步驟六:呼叫該方法(步驟一的基礎上修改路徑)
val rdd = sc.textFile(loadfile)
val rdd2 = rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
rdd2.saveAsTextFile(outfile)
步驟七:打jar包上傳到Linux上
要把該scala工程和info.properties上傳linux上;
注意,jar包上傳前,務必要把jar包裡的META-INF下的兩個DUMMY.SF和DUMMY.DSA檔案刪除,如果不刪除,在linux上操作會失敗,然後在上傳到Linux上
步驟八:linux上提交執行
spark-submit
--class zb.sql.WordCount //jar包在idea裡的路徑
--master local[2] //本地模式
./20201109-sparkRdd.jar //上傳到Linux上的jar包路徑和名稱(都要寫全)
步驟九:檢視結果
第一種方法:登入網頁端檢視是否出現結果,然後cat檢視結果
第二種方法:直接下載下來方法(工作中不建議,因為資料量大)
相關文章
- Spark開發-RDD介面程式設計Spark程式設計
- 大白話講解Spark中的RDDSpark
- spark下統計單詞頻次Spark
- 分析“詞頻統計“專案程式
- Spark開發-spark執行原理和RDDSpark
- Spark RDD使用詳解--RDD原理Spark
- RDD程式設計 上(Spark自學三)程式設計Spark
- RDD程式設計 下(Spark自學四)程式設計Spark
- 詞頻統計
- Spark開發-RDD分割槽重新劃分Spark
- Spark開發-WordCount詳細講解Spark
- 詞頻統計mapreduce
- 基於構件開發的應用框架設計框架
- 關於Spark中RDD的設計的一些分析Spark
- Spark學習(二)——RDD基礎Spark
- 【大資料】Spark RDD基礎大資料Spark
- Learning Spark——使用Intellij Idea開發基於Maven的Spark程式SparkIntelliJIdeaMaven
- 個人專案----詞頻統計WEB(部分功能)Web
- 個人專案----詞頻統計(補全功能)
- Ospaf專案-commits詞頻統計模組MIT
- 基於Golang的CLI 命令列程式開發Golang命令列
- XPages 開發實踐:開發基於 XPages 的複合應用程式
- Spark開發-WordCount流程詳細講解Spark
- 詞頻統計任務程式設計實踐程式設計
- 詞頻統計-------------web版本Web
- Spark RDD APISparkAPI
- spark-RDDSpark
- 用Python如何統計文字檔案中的詞頻?(Python練習)Python
- Spark 的核心概念 RDDSpark
- 個人專案----詞頻統計----單元測試
- Spark入門(三)--Spark經典的單詞統計Spark
- Spark開發-WordCount詳細講解Java版本SparkJava
- 鴻蒙系統應用開發之基於API6的藍芽開發鴻蒙API藍芽
- python如何統計詞頻Python
- 【python技能】詞頻統計Python
- 第一個spark應用開發詳解(java版)SparkJava
- Spark - [03] RDD概述Spark
- 如何用 Spark 快速開發應用?Spark