資料科學中的 Spark 入門

zhique發表於2015-10-10

Apache Spark 為資料科學提供了許多有價值的工具。隨著 Apache Spark 1.3.1 技術預覽版的釋出，強大的 Data Frame API 也可以在 HDP 上使用資料科學家使用資料探勘和視覺化來幫助構造問題架構並對學習進行微調。Apache Zeppelin 正好能夠幫他們做到這些。

Zeppelin 是一個基於 Web 的 notebook 伺服器。它基於一個直譯器的概念，這個直譯器可以繫結到任何語言或資料處理後端。作為 Zeppelin 後端的一種，Zeppelin 實現了 Spark 直譯器。其他直譯器實現，如 Hive、Markdown、D3 等，也同樣可以在 Zeppelin 中使用。

我們將通過一系列的部落格文章來描述如何結合使用 Zeppelin、Spark SQL 和 MLLib 來使探索性資料科學簡單化。作為這個系列的第一篇文章，我們描述瞭如何為 HDP2.2 安裝/構建 Zeppelin，並揭示一些 Zeppelin 用來做資料探勘的基本功能。

以下假設 HDP 2.2 和 Spark 已經安裝在叢集上。

Spark 可以使用 Ambari 2.0 安裝成一個 service，或者按照這篇文章的描述下載和配置。

無論使用哪種方法安裝，本文將 spark.home 代指 Spark 安裝的根目錄。

構建 Zeppelin

如果可以的話，在一個非 datanode 或 namenode 的叢集節點上構建和執行 Zeppelin。這是為了確保在那個節點上 Zeppelin 有足夠的計算資源。

從 github 獲取 Zeppelin：

git clone https://github.com/apache/incubator-zeppelin.git
cd incubator-zeppelin

1 2	git clone https://github.com/apache/incubator-zeppelin.git cd incubator-zeppelin

使用如下命令構建 Spark 1.3.1 可用的 Zeppelin：

mvn clean install -DskipTests -Pspark-1.3 -Dspark.version=1.3.1 -Phadoop-2.6 -Pyarn

1	mvn clean install -DskipTests -Pspark-1.3 -Dspark.version=1.3.1 -Phadoop-2.6 -Pyarn

使用如下命令構建 Spark 1.2.1 可用的 Zeppelin：

mvn clean install -DskipTests -Pspark-1.2 -Phadoop-2.6 -Pyarn

1	mvn clean install -DskipTests -Pspark-1.2 -Phadoop-2.6 -Pyarn

在之前的步驟中，Zeppelin、Spark 1.3.1 和 Hadoop 2.6 已經構建好了。現在先確定正在使用的 HDP 的版本：

hdp-select status hadoop-client | sed 's/hadoop-client - (.*)/1/'

1	hdp-select status hadoop-client \| sed 's/hadoop-client - (.*)/1/'

這個命令應該輸出類似這樣的版本號：

2.2.4.2-2

2.2.4.2-2

將這個引數記為 hdp.version。

編輯 conf/zeppelin-env.sh 檔案新增以下幾行：

export HADOOP_CONF_DIR=/etc/hadoop/conf
export ZEPPELIN_PORT=10008
export ZEPPELIN_JAVA_OPTS="-Dhdp.version=$hdp.version"

export HADOOP_CONF_DIR=/etc/hadoop/conf

export ZEPPELIN_PORT=10008

export ZEPPELIN_JAVA_OPTS="-Dhdp.version=$hdp.version"

複製 /etc/hive/conf/hive-site.xml到conf/ 資料夾下。

為執行 Zeppelin（比如 zeppelin）的使用者在 HDFS 上建立一個目錄：

su hdfs
hdfs dfs -mkdir /user/zeppelin;hdfs dfs -chown zeppelin:hdfs /user/zeppelin>

1 2	su hdfs hdfs dfs -mkdir /user/zeppelin;hdfs dfs -chown zeppelin:hdfs /user/zeppelin>

使用以下命令執行 Zeppelin：

bin/zeppelin-daemon.sh start

1	bin/zeppelin-daemon.sh start

這行命令會啟動一個 notebook 伺服器並通過埠 10008 提供一個 Web UI。

開啟 http://$host:10008 訪問 notebooks。點選 Interpreter 標籤切換到 Interpreter 頁面設定一些屬性。

配置Zeppelin

為了在YARN客戶端模式下執行直譯器，需要在 $SPARK_HOME/conf/spark-defaults.conf 重寫以下這些屬性：

master yarn-client
spark.driver.extraJavaOptions -Dhdp.version=$hdp.version
spark.home $spark.home
spark.yarn.am.extraJavaOptions -Dhdp.version=$hdp.version
spark.yarn.jar $zeppelin.home/interpreter/spark/zeppelin-spark-0.5.0-SNAPSHOT.jar

master yarn-client

spark.driver.extraJavaOptions -Dhdp.version=$hdp.version

spark.home $spark.home

spark.yarn.am.extraJavaOptions -Dhdp.version=$hdp.version

spark.yarn.jar $zeppelin.home/interpreter/spark/zeppelin-spark-0.5.0-SNAPSHOT.jar

一旦這些配置更新，Zeppelin 會彈框提醒重啟直譯器。確認重啟後直譯器會重新載入配置。

至此，準備工作完成，可以開始使用 Zeppelin notebook 了。

開啟 http://$host:10008 你將看到像截圖一樣的介面：

點選 Create new note 來開啟一個新的 notebook。

在Notebook中編寫Scala

在任一 Ambari 管理的叢集上，ambari-agent 日誌都寫在 /var/log/ambari-agent/ambari-agent.log。

我們將在 Zeppelin 上寫一點 Scala 程式碼來視覺化這些日誌，從中抽取資訊。

為了能看到這些日誌的內容並隨後處理他們，我們將從這個日誌檔案建立一個 RDD。

val ambariLogs = sc.textFile("file:///var/log/ambari-agent/ambari-agent.log")

1	val ambariLogs = sc.textFile("file:///var/log/ambari-agent/ambari-agent.log")

上面的程式碼將文字檔案的內容連結到一個由變數 ambariLogs 代表的 RDD 上。

為了能更好地看到日誌的內容，使用以下程式碼 dump 幾行文字到直譯器終端看看：

ambariLogs.take(10).mkString("n")

1	ambariLogs.take(10).mkString("n")

這行程式碼的輸出會像這樣：

使用Spark SQL

為了進一步分析這些日誌，最好將他們與一個 schema 連結起來，並使用 Spark 強大的 SQL 查詢功能。

Spark SQL 有一個強大的功能，就是它能夠以程式設計方式把 schema 連線到一個 Data Source，並對映到 Scala 條件類。Scala 條件類能夠以型別安全的方式操縱和查詢。

對於當前的分析，ambari 日誌的每一行可以認為是由以空格隔開的四個基本元件組成的。

日誌級別（INFO、DEBUG、WARN等）
日期（YYYY-mm-dd）
時間（HH:mm:ss,SSS格式）
檔名

建立一個條件類來連結這個 schema：

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// this is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

// Define the schema using a case class.
import java.sql.Date
case class Log(level: String, date: Date, fileName: String)

// sc is an existing SparkContext.

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// this is used to implicitly convert an RDD to a DataFrame.

import sqlContext.implicits._

// Define the schema using a case class.

import java.sql.Date

case class Log(level: String, date: Date, fileName: String)

注意：為了方便，這裡將日期和時間合併到一個 Date 物件裡。

import java.text.SimpleDateFormat

val df = new SimpleDateFormat("yyyy-mm-dd HH:mm:ss,SSS")

val ambari = ambariLogs.map { line =>
    val s =  line.split(" ")
    val logLevel = s(0)
    val dateTime = df.parse(s(1) + " " + s(2))
    val fileName = s(3).split(":")(0)
    Log(logLevel,new Date(dateTime.getTime()), fileName)}.toDF()
ambari.registerTempTable("ambari")

import java.text.SimpleDateFormat

val df = new SimpleDateFormat("yyyy-mm-dd HH:mm:ss,SSS")

val ambari = ambariLogs.map { line =>

val s = line.split(" ")

val logLevel = s(0)

val dateTime = df.parse(s(1) + " " + s(2))

val fileName = s(3).split(":")(0)

Log(logLevel,new Date(dateTime.getTime()), fileName)}.toDF()

ambari.registerTempTable("ambari")

初始化一個 dataframe 之後，我們可以使用 SQL 在上面做查詢。Dataframes 是用來接收針對他們而寫的 SQL 查詢，並根據需要將查詢優化成一系列的 Spark 任務。

比如，假設我們想要得到不同日誌級別的事件數量，查詢寫成 SQL 會是這樣的形式：

SELECT level, COUNT(1) from ambari GROUP BY level

1	SELECT level, COUNT(1) from ambari GROUP BY level

但是使用Scala Data Frame API 可以寫成：

ambari.groupBy("level").count()

1	ambari.groupBy("level").count()

這時，我們可以使用非常接近原生 SQL 的查詢：

sqlContext.sql("SELECT level, COUNT(1) from ambari group by level")

1	sqlContext.sql("SELECT level, COUNT(1) from ambari group by level")

這個查詢返回的資料結構是根 DataFrame API 返回的是相同的。返回的資料結構本身是一個 data frame。

這個時候並沒有任何操作被執行：data frames 上的操作都對映到 RDD 相應的操作（在這個例子中）：

RDD.groupBy(...).aggregateByKey(...))

1	RDD.groupBy(...).aggregateByKey(...))

我們可以通過使用 collect() 強制執行這個任務，將結果傳送到 driver 的記憶體中。

使用 Zeppelin 做視覺化

Zeppelin Notebook 有一個強大的功能，那就是你可以在同一個框架裡看到上一個片段的結果集。Zeppelin 的顯示系統接通了標準輸出。

任何以 %table、%img、%html 等直譯器命令為開頭，通過println輸出到標準輸出的字串，都可以被 Zeppelin 的顯示系統所解析。

在我們的例子中，我們想要將每種日誌級別的日誌個數輸出成一個表，所以使用以下程式碼：

import org.apache.spark.sql.Row
val result = sqlContext.sql("SELECT level, COUNT(1) from ambari group by level").map {
     case Row(level: String, count: Long) => {
               level + "t" + count
         }
    }.collect()

import org.apache.spark.sql.Row

val result = sqlContext.sql("SELECT level, COUNT(1) from ambari group by level").map {

case Row(level: String, count: Long) => {

level + "t" + count

}

}.collect()

這段程式碼將 groupby 的輸出整合成表直譯器可以渲染的格式。

%table 要求每行資料都以 n（換行符）分隔，每一列均以 t（製表符）分開，如下所示：

println("%table Log LeveltCountn" + result.mkString("n"))

1	println("%table Log LeveltCountn" + result.mkString("n"))

通過這行程式碼列印出來的結果會是：

總結

資料科學家們使用許多種工具進行工作。Zeppelin 為他們提供了一個新工具來構建出更好的問題。在下一篇文章中，我們將深入討論一個具體的資料科學問題，並展示如何使用 Zeppelin、Spark SQL 和 MLLib 來建立一個使用 HDP、Spark 和 Zeppelin 的資料科學專案。

資料科學入門 (一) —— 資料
2017-10-23
資料科學
如何高效入門資料科學？
2018-06-27
資料科學
Python 資料科學入門
2016-06-21
Python資料科學
用 Python 入門資料科學
2019-09-30
Python資料科學
《資料科學入門》讀後感
2016-12-29
資料科學
成為資料科學家的入門專案
2017-12-29
資料科學
Spark資料分析概念入門
2018-07-21
Spark
Spark入門學習
2018-01-10
Spark
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
《Python入門與資料科學庫》學習筆記
2021-02-12
Python資料科學筆記
O'Reilly精品圖書推薦：資料科學入門
2017-02-17
資料科學
五個給機器學習和資料科學入門者的學習建議
2019-09-17
機器學習資料科學
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
《資料科學入門（第2版）》資源連結清單
2020-12-25
資料科學
足球比賽中的資料科學
2022-12-12
資料科學
人的資料科學與機器資料科學
2016-09-22
資料科學
在Spark和Hadoop上做大規模資料科學
2016-07-07
SparkHadoop資料科學
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
讓科學重回資料科學
2017-03-13
資料科學
資料科學
2021-09-09
資料科學
（資料科學學習手札97）掌握pandas中的transform
2020-10-14
資料科學ORM
資料科學中的非數學特徵工程技術
2016-09-13
資料科學特徵工程
IT公司如何建立一個資料科學部門？
2013-10-02
資料科學
資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
Spark 快速入門
2019-04-24
Spark
Spark入門篇
2020-11-04
Spark
為什麼Spark將成為資料科學家的統一平臺
2015-03-22
Spark資料科學
「Spark從精通到重新入門(二)」Spark中不可不知的動態資源分配
2021-12-15
Spark
spark寫入hive資料
2019-04-09
SparkHive
Spark入門（五）--Spark的reduce和reduceByKey
2019-03-01
Spark
Spark入門（四）--Spark的map、flatMap、mapToPair
2019-02-28
SparkAPTAI
大資料入門課程：Hadoop和spark的效能比較
2018-04-04
大資料HadoopSpark
資料科學技能中，哪些是核心技能，哪些是熱門/新興技能？
2019-10-13
資料科學
資料科學給《紐約時報》輸入活力
2014-09-14
資料科學
Hello Spark! | Spark，從入門到精通
2018-09-18
Spark
Spark SQL | Spark，從入門到精通
2019-01-21
SparkSQL
為什麼Python是資料科學領域的首選語言?Python入門學習
2021-08-23
Python資料科學
spark入門筆記
2018-01-22
Spark筆記