[大資料之Spark]——快速入門

王知無發表於2019-03-17

為了良好的閱讀下面的文件,最好是結合實際的練習。首先需要下載spark,然後安裝hdfs,可以下載任意版本的hdfs。

Spark Shell 互動

基本操作

Spark Shell提供給使用者一個簡單的學習API的方式 以及 快速分析資料的工具。在shell中,既可以使用scala(執行在java虛擬機器,因此可以使用java庫)也可以使用python。可以在spark的bin目錄下啟動spark shell:

./bin/spark-shell.sh複製程式碼

spark操作物件是一種分散式的資料集合,叫做Resilient Distributed Dataset(RDD)。RDD可以通過hdfs檔案建立,也可以通過RDD轉換得來。

下面就實際操作下,看看效果。我的本地有個檔案——test.txt,內容為:

hello world
haha nihao複製程式碼

可以通過這個檔案建立一個新的RDD

val textFile = sc.textFile("test.txt")
textFile: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21複製程式碼

在Spark中,基於RDD可以作兩種操作——Actions運算元操作以及Transformations轉換操作。

我們可以使用一些運算元操作體驗下:

scala> textFile.count() //RDD有用的數量
res1: Long = 2

scala> textFile.first() //RDD第一行
res3: String = hello world複製程式碼

再執行一些轉換操作,比如使用filter轉換,返回一個新的RDD集合:

scala> val lines = textFile.filter(line=>line.contains("hello"))
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at <console>:23

scala> lines.count()
res4: Long = 1

scala> val lines = textFile.filter(line=>line.contains("haha"))
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at filter at <console>:23

scala> lines.count()
res5: Long = 1

scala> lines.first()
res6: String = haha nihao複製程式碼

更多RDD操作

RDD運算元和轉換可以組成很多複雜的計算,比如我們想找出最多一行中單詞最多的單詞數量:

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
res4: Long = 15複製程式碼

這個操作會把一行通過split切分計數,轉變為一個整型的值,然後建立成新的RDD。reduce操作用來尋找單詞最多的那一行。

使用者可以在任何時候呼叫方法和庫,可以使用Math.max()函式:

scala> import java.lang.Math
import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))
res5: Int = 15複製程式碼

一個很常見的資料操作就是map reduce,這個操作在hadoop中很常見。Spark可以輕鬆的實現Mapreduce任務:

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCounts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[8] at reduceByKey at <console>:28複製程式碼

這裡使用了flatMap,map以及reduceByKey等轉換操作來計算每個單詞在檔案中的數量。為了在shell中顯示,可以使用collect()觸發計算:

scala> wordCounts.collect()
res6: Array[(String, Int)] = Array((means,1), (under,2), (this,3), (Because,1), (Python,2), (agree,1), (cluster.,1), ...)複製程式碼

快取

Spark也支援在分散式的環境下基於記憶體的快取,這樣當資料需要重複使用的時候就很有幫助。比如當需要查詢一個很小的hot資料集,或者執行一個類似PageRank的演算法。

舉個簡單的例子,對linesWithSpark RDD資料集進行快取,然後再呼叫count()會觸發運算元操作進行真正的計算,之後再次呼叫count()就不會再重複的計算,直接使用上一次計算的結果的RDD了:

scala> linesWithSpark.cache()
res7: linesWithSpark.type = MapPartitionsRDD[2] at filter at <console>:27

scala> linesWithSpark.count()
res8: Long = 19

scala> linesWithSpark.count()
res9: Long = 19複製程式碼

看起來快取一個100行左右的檔案很愚蠢,但是如果再非常大的資料集下就非常有用了,尤其是在成百上千的節點中傳輸RDD計算的結果。你也可以通過bin/spark-shell向叢集提交任務,可以參考程式設計指南

獨立應用

要使用spark api寫一個自己的應用也很簡單,可以基於scala、java、python去寫一些簡單的應用。

/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}複製程式碼

注意應用需要定義main()方法。這個程式僅僅是統計檔案中包含字元ab的分別都有多少行。你可以設定YOUR_SPARK_HOME替換自己的檔案目錄。不像之前在shell中的例子那樣,我們需要自己初始化sparkContext。

通過SparkConf構造方法建立SparkContext。

應用依賴於spark api,因此需要在程式中配置sbt的配置檔案——simple.sbt,它宣告瞭spark的依賴關係。

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.7"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.0"複製程式碼

為了讓sbt正確的工作,還需要建立SimpleApp.scala以及simple.sbt。然後就可以執行打包命令,通過spark-submit執行了:

# Your directory layout should look like this 你的工程目錄應該向下面這樣
$ find .
.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala

# Package a jar containing your application 執行sbt命令進行打包
$ sbt package
...
[info] Packaging {..}/{..}/target/scala-2.11/simple-project_2.11-1.0.jar

# Use spark-submit to run your application 通過spark-submit提交任務jar包
$ YOUR_SPARK_HOME/bin/spark-submit \
  --class "SimpleApp" \
  --master local[4] \
  target/scala-2.11/simple-project_2.11-1.0.jar
...
Lines with a: 46, Lines with b: 23複製程式碼

其他地址

通過上面的例子,就可以執行起來自己的Spark應用了。

那麼可以參考下面的連結獲得更多的內容:

  • 為了更深入的學習,可以閱讀Spark程式設計指南
  • 如果想要執行Spark叢集,可以參考部署指南
  • 最後,Spark在examples目錄中內建了多種語言版本的例子,如scala,java,python,r等等。你可以通過下面的命令執行:
# For Scala and Java, use run-example:
./bin/run-example SparkPi

# For Python examples, use spark-submit directly:
./bin/spark-submit examples/src/main/python/pi.py

# For R examples, use spark-submit directly:
./bin/spark-submit examples/src/main/r/dataframe.R複製程式碼

[大資料之Spark]——快速入門

相關文章