Spark開發-Action操作
核心
1、spark中Action的操作
reduce(func)
reduce取樣累加或關聯操作減少RDD中元素的數量
scala> val data=sc.parallelize(1 to 9)
scala> data.reduce(_+_)
res0: Int = 45
collect()
將execute上的資料收集到driver端上
scala> val data=sc.parallelize(1 to 9)
scala> data.collect()
res3: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
count()
統計有多少給元素在RDD中
scala> val data=sc.parallelize(1 to 9)
scala> data.count()
res2: Long = 9
first()
返回RDD中的第一個元素
scala> val data=sc.parallelize(1 to 9)
scala> data.first()
res4: Int = 1
take(n)
返回RDD中的前n個元素
scala> val data=sc.parallelize(1 to 9)
scala> data.take()
res6: Array[Int] = Array(1, 2, 3, 4, 5)
takeSample(withReplacement, num, [seed])
返回RDD中的隨機元素 false表示每次只取沒有被取過的元素,true表示從整個集合中取
scala> val data=sc.parallelize(1 to 9)
scala> data.takeSample(false,5)
res7: Array[Int] = Array(4, 8, 1, 9, 3)
scala> data.takeSample(true,5)
res8: Array[Int] = Array(1, 7, 8, 8, 7)
takeOrdered(n, [ordering])
返回排序以後的前n個元素
scala> sc.parallelize(Seq(10, 4, 2, 12,4,6,7,0,-1, 3)).takeOrdered(3)
res11: Array[Int] = Array(-1, 0, 2)
saveAsTextFile(path)
saveAsSequenceFile(path)
saveAsObjectFile(path)
以上3個儲存檔案 將RDD儲存到檔案,本地模式時儲存在本地檔案,叢集模式指如果在Hadoop基礎上則儲存在HDFS上
countByKey()
將RDD中的資料按Key計數
scala> val data = sc.parallelize(List((1,3),(1,2),(5,4),(1, 4),(2,3),(2,4)),3)
scala> data.countByKey()
res9: scala.collection.Map[Int,Long] = Map(1 -> 3, 5 -> 1, 2 -> 2)
foreach(func)
foreach方法遍歷RDD中所有的元素
相關文章
- Spark開發-控制操作Spark
- Spark開發-transformations操作SparkORM
- 【Spark篇】---Spark中Action運算元Spark
- Spark in action on Kubernetes - Spark Operator的原理解析Spark
- 【Spark Java API】Action(4)—sortBy、taSparkJavaAPI
- Spark操作開窗函式Spark函式
- odoo 開發入門教程系列-準備一些操作(Action)?Odoo
- Spark運算元:RDD行動Action操作學習–countByKey、foreach、sortBySpark
- Spark開發-Spark核心細說Spark
- Spark開發-spark環境搭建Spark
- Spark in action on Kubernetes - 儲存篇Spark
- 【Spark Java API】Action(3)—foreach、fSparkJavaAPI
- Spark開發-SparkSql的開發SparkSQL
- 課時四:Action操作
- Spark in action on Kubernetes - 儲存篇(一)Spark
- Spark開發-spark執行原理和RDDSpark
- Spark開發-Local模式Spark模式
- Spark開發-Standalone模式Spark模式
- Spark面試題(七)——Spark程式開發調優Spark面試題
- Spark開發-Spark執行模式及原理一Spark模式
- Spark開發-Yarn cluster模式SparkYarn模式
- Spark開發-Shuffle優化Spark優化
- Spark 系列(十四)—— Spark Streaming 基本操作Spark
- spark2.2.0 配置spark sql 操作hiveSparkSQLHive
- Spark 從零到開發(五)初識Spark SQLSparkSQL
- Spark開發-廣播變數Spark變數
- Spark Basic RDD 操作示例Spark
- IDEA開發Spark應用並提交本地Spark 2.1.0 standIdeaSpark
- Spark 效能調優--開發階段Spark
- Spark開發-RDD介面程式設計Spark程式設計
- Spark開發-WordCount詳細講解Spark
- Spark開發-HA環境的搭建Spark
- 如何用 Spark 快速開發應用?Spark
- StreamAnalytix Visual Spark Studio (二)!Spark開發史上最強大的神器,只需拖拽控制元件即可完成Spark開發,造福國內的Spark開發者!Spark控制元件
- Spark操作Hive分割槽表SparkHive
- Spark2 Dataset聚合操作Spark
- spark 基礎開發 Tips總結Spark
- 在Intellij中開發Spark--demoIntelliJSpark