Spark Metrics配置詳解

筆尖的痕發表於2016-03-13

原文網址 : https://blog.csdn.net/myproudcodelife/article/details/50868574

和Hadoop類似，在Spark中也存在很多的Metrics配置相關的引數，它是基於Coda Hale Metrics Library的可配置Metrics系統，我們可以通過配置檔案進行配置，通過Spark的Metrics系統，我們可以把Spark Metrics的資訊報告到各種各樣的Sink，比如HTTP、JMX以及CSV檔案。

　　Spark的Metrics系統目前支援以下的例項：
　　（1）、master：Spark standalone模式的master程式；
　　（2）、worker：Spark standalone模式的worker程式；
　　（3）、executor：Spark executor；
　　（4）、driver：Spark driver程式；
　　（5）、applications：master程式裡的一個元件，為各種應用作彙報。

　　在Spark的Metrics系統主要支援Sink和Source兩種，其中，Sink指定metrics資訊傳送到哪裡，每個instance可以設定一個或多個Sink（這點和Flume很類似）。Sink的原始碼位於org.apache.spark.metrics.sink包中；而Source也是指資訊的來源，它主要分為兩大類：
　　（1）、Spark內部source，比如MasterSource、WorkerSource等，它們會接收Spark元件的內部狀態；
　　（2）、通用source，如：JvmSource，它收集低階別的狀態。

支援的Sink類別

ConsoleSink

　　ConsoleSink是記錄Metrics資訊到Console中。

名稱	預設值	描述
class	org.apache.spark.metrics.sink.ConsoleSink	Sink類
period	10	輪詢間隔
unit	seconds	輪詢間隔的單位

CSVSink

定期的把Metrics資訊匯出到CSV檔案中。

名稱	預設值	描述
class	org.apache.spark.metrics.sink.CsvSink	Sink類
period	10	輪詢間隔
unit	seconds	輪詢間隔的單位
directory	/tmp	CSV檔案儲存的位置

JmxSink

可以通過JMX方式訪問Mertics資訊

名稱	預設值	描述
class	org.apache.spark.metrics.sink.JmxSink	Sink類

MetricsServlet

名稱	預設值	描述
class	org.apache.spark.metrics.sink.MetricsServlet	Sink類
path	VARIES*	Path prefix from the web server root
sample	false	Whether to show entire set of samples for histograms ('false' or 'true') ｜

這個在Spark中預設就開啟了，我們可以在4040埠頁面的URL後面加上/metrics/json檢視

GraphiteSink

名稱	預設值	描述
class	org.apache.spark.metrics.sink.GraphiteSink	Sink類
host	NONE	Graphite伺服器主機名
port	NONE	Graphite伺服器埠
period	10	輪詢間隔
unit	seconds	輪詢間隔的單位
prefix	EMPTY STRING	Prefix to prepend to metric name

GangliaSink

由於Licene的限制，預設沒有放到預設的build裡面，如果需要使用，需要自己編譯（這個會在後面專門介紹）

名稱	預設值	描述
class	org.apache.spark.metrics.sink.GangliaSink	Sink類
host	NONE	Ganglia 伺服器的主機名或multicast group
port	NONE	Ganglia伺服器的埠
period	10	輪詢間隔
unit	seconds	輪詢間隔的單位
ttl	1	TTL of messages sent by Ganglia
mode	multicast	Ganglia網路模式('unicast' or 'multicast')

如何使用

　　在Spark安裝包的$SPARK_HOME/conf路徑下有個metrics.properties檔案（如果不存在，請將metrics.properties.template重新命名為metrics.properties即可），Spark啟動的時候會自動載入它。

　　當然，如果想修改配置檔案位置，我們可以使用-Dspark.metrics.conf=xxx進行修改。

例項

　　下面我將簡單地介紹如何使用Spark Metrics。我只想簡單地開啟ConsoleSink，我們可以如下配置：

01
# User: 過往記憶

02
# Date: 2015-05-05

03
# Time: 上午01:16

04
# bolg: 
http://www.iteblog.com

05
# 本文地址：http://www.iteblog.com/archives/1341

06
# 過往記憶部落格，專注於hadoop、hive、spark、shark、flume的技術部落格，大量的乾貨

07
# 過往記憶部落格微信公共帳號：iteblog_hadoop

08
 

09
*.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink

10
*.sink.console.period=10

11
*.sink.console.unit=seconds

period是ConsoleSink的輪詢週期，unit是ConsoleSink的輪詢週期時間單位。上面是配置所有的例項，如果想單獨配置可以如下：

1
master.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink

2
master.sink.console.period=15

3
master.sink.console.unit=seconds

這個配置可以覆蓋通用配置符（也就是上面的*號）

我們為master、worker、driver和executor開啟jvm source，如下：

01
# User: 過往記憶

02
# Date: 2015-05-05

03
# Time: 上午01:16

04
# bolg: 
http://www.iteblog.com

05
# 本文地址：http://www.iteblog.com/archives/1341

06
# 過往記憶部落格，專注於hadoop、hive、spark、shark、flume的技術部落格，大量的乾貨

07
# 過往記憶部落格微信公共帳號：iteblog_hadoop

08
 

09
master.source.jvm.class=org.apache.spark.metrics.source.JvmSource

10
worker.source.jvm.class=org.apache.spark.metrics.source.JvmSource

11
driver.source.jvm.class=org.apache.spark.metrics.source.JvmSource

12
executor.source.jvm.class=org.apache.spark.metrics.source.JvmSource

　　當然，我們還可以自定義Source，這個需要繼承自org.apache.spark.metrics.source.Source類。關於如何自定義Source，我這裡不介紹了，需要的同學可以去參照Spark原始碼，比如JvmSource類的實現。

Spark REST API & metrics
2018-05-31
SparkRESTAPI
Spark Parquet詳解
2020-09-29
Spark
詳解 Spark 中的 Bucketing
2020-05-15
Spark
Spark 3.x Spark Core詳解 & 效能優化
2022-06-01
Spark優化
centos7 (阿里雲、linux) 單機spark的安裝與配置詳解(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)
2018-12-28
CentOS阿里LinuxSparkJDKHadoop
[大資料] Spark架構詳解
2018-08-02
大資料Spark架構
Spark的兩種核心Shuffle詳解
2021-08-16
Spark
Druid配置詳解
2019-01-10
UI
MyBatis 配置詳解
2023-05-05
MyBatis
nginx配置詳解
2024-10-20
Nginx
iptables配置詳解
2024-06-24
配置pvst詳解
2020-12-09
hive on spark配置
2018-12-01
HiveSpark
本地windows搭建spark環境，安裝與詳細配置(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)
2018-12-28
WindowsSparkJDKHadoop
pycharm下與spark的互動詳細配置說明以及spark 執行簡單例子
2018-12-29
PyCharmSpark單例
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
上萬字詳解Spark Core（建議收藏）
2021-03-17
Spark
大資料開發-Spark Join原理詳解
2021-02-09
大資料Spark
hortonworks/registry配置詳解
2020-07-04
git ssh配置詳解
2019-02-01
Git
Apache的配置詳解
2024-07-01
Apache
Spark 原始碼系列（九）Spark SQL 初體驗之解析過程詳解
2019-04-25
Spark原始碼SQL
nginx 詳解 - 詳細配置說明
2018-11-29
Nginx
nginx 詳解 – 詳細配置說明
2019-03-04
Nginx
Spark Streaming + Spark SQL 實現配置化ET
2021-09-09
SparkSQL
webpack（2）——配置項詳解
2019-03-02
Web
haproxy配置檔案詳解
2018-10-30
redis配置檔案詳解
2018-07-16
Redis
Echars折線配置詳解
2018-07-28
redis 配置檔案詳解
2019-08-14
Redis
Swoft2 配置詳解
2019-11-30
vsftpd.conf 配置詳解
2020-09-25
FTP
Keepalived部署與配置詳解
2019-04-27
Nginx日誌配置詳解
2018-03-08
Nginx
Nginx如何配置HTTPS詳解
2023-03-07
NginxHTTP
php-fpm 配置詳解
2022-05-20
PHP
spark_home的配置
2018-07-30
Spark
Spark安裝與配置
2024-06-08
Spark
pycharm 怎麼配置spark
2021-09-11
PyCharmSpark