第一次嘗試使用java寫spark
package hgs.spark; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFlatMapFunction; import scala.Tuple2; public class JavaRDDWC { public static void main(String[] args) { //System.setProperty("HADOOP_USER_NAME","administrator"); //需要hadoop windows的winutils.exe System.setProperty("hadoop.home.dir", "D:\\hadoop-2.7.1"); SparkConf conf = new SparkConf().setAppName("javawc").setMaster("local[2]"); @SuppressWarnings("resource") JavaSparkContext context = new JavaSparkContext(conf); JavaRDD<String> rdd = context.textFile("D:\\test.txt"); //split成陣列 JavaRDD<String[]> rdd1 = rdd.map(s -> s.split(",")); //只有pairrdd才可以reducebykey JavaPairRDD<String, Integer> rdd2 = rdd1.flatMapToPair(new flatMapFunc()); JavaPairRDD<String, Integer> rdd3 = rdd2.reduceByKey(new reducefunc()); rdd3.saveAsTextFile("D:\\fff"); context.stop(); } } class reducefunc implements Function2<Integer, Integer, Integer>{ /** * */ private static final long serialVersionUID = 1L; @Override public Integer call(Integer v1, Integer v2) throws Exception { return v1+v2; } } class flatmf implements FlatMapFunction<String[], String>{ /** * */ private static final long serialVersionUID = 1L; @Override public Iterator<String> call(String[] t) throws Exception { List<String> list = new ArrayList<>(); for(String str : t) { list.add(str); } return list.iterator(); } } class flatMapFunc implements PairFlatMapFunction<String[], String, Integer>{ /** * */ private static final long serialVersionUID = 1L; @Override public Iterator<Tuple2<String, Integer>> call(String[] t) throws Exception { List<Tuple2<String,Integer>> list = new ArrayList<>(); for(String str : t) { list.add(new Tuple2<String, Integer>(str, 1)); } return list.iterator(); } }
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31506529/viewspace-2646105/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- grpc 的第一次嘗試RPC
- 嘗試手寫promisePromise
- laravel 5.5 嘗試使用 typescript 編寫 vue 元件LaravelTypeScriptVue元件
- 第一次嘗試鴻蒙開發鴻蒙
- 嘗試
- 嘗試使用 docker 部署 Laravel 專案DockerLaravel
- 嘗試說一說事件的使用事件
- 嘗試使用 pack 與 unpack 函式函式
- 實戰|使用Spark Streaming寫入HudiSpark
- 嘗試Ghost
- 嘗試1
- 嘗試 LeetcodeLeetCode
- 嘗試使用Knative建立一個應用
- Linux小白菜嘗試寫學習筆記日記Linux筆記
- 嘗試用go寫一個音樂搜尋的包Go
- 嘗試 Leetcode(二)LeetCode
- Java HttpClient 學習記錄 2 嘗試Get請求JavaHTTPclient
- raft 高可用嘗試Raft
- 為了學好Java,我嘗試了這 6 個方法Java
- 使用Intellij Idea編寫Spark應用程式(Scala+SBT)IntelliJIdeaSpark
- 嘗試手寫一個 nodejs http-server(含釋出到npm的流程)NodeJSHTTPServerNPM
- linux模擬windows嘗試LinuxWindows
- 對於 sway 的嘗試
- 第一次寫部落格
- Spark面試題Spark面試題
- spark寫入hive資料SparkHive
- spark 批次寫入redis控制SparkRedis
- 使用 ES-Hadoop 將 Spark Streaming 流資料寫入 ESHadoopSpark
- ABAP模擬Java Spring依賴注入(Dependency injection)的一個嘗試JavaSpring依賴注入
- Scrcpy投屏原理淺析-嘗試用Flutter重寫它的客戶端Flutter客戶端
- 自媒體科技領域如何寫文章?這些型別可以嘗試下型別
- 【5.31】第一次寫部落格
- 做產品要嘗試去找使用者的“緊急需求”
- React最佳實踐嘗試(三)React
- React最佳實踐嘗試(二)React
- MyBatis Generator嘗試與踩坑MyBatis
- 擁抱錯誤與嘗試
- nodejs“並行”處理嘗試NodeJS並行