20【線上日誌分析】之記錄一次Spark Streaming+Spark SQL的資料傾斜
1.現象
三臺機器都有產生executor,每臺都會產生tasks,但是其中只有一臺的task有input資料,其他機器的tasks都沒有資料。
2.猜想
2.1是不是資料傾斜?
是
2.2是資料量過大,group by時,導致key分佈不均?
比如key1 有98萬,key2有2萬,那麼shuffle時,肯定資料傾斜。但是我剛開始資料量不是很大,所以pass (就算資料量大,也很簡單處理,一般處理時key加上隨機字首數)
2.3是不是資料量太少 不夠分割槽的?
也懷疑過,不過還沒去驗證
2.4 flume流到kafka,是snappy壓縮格式,而spark作為kafka的消費者,雖然能夠自動識別壓縮格式,但是這種snappy格式不支援切分
也懷疑過,不過還沒去修改支援spilt的壓縮格式,也還沒去驗證
2.5 spark streaming分割槽數目是有誰決定的?
使用direct這種模式是由kafka的分割槽數目決定,
使用receiver這種模式由流的數目決定也就是由receiver數目決定。
3.修改分割槽數
[root@sht-sgmhadoopdn-02 kafka]#bin/kafka-topics.sh --alter --zookeeper 172.16.101.58:2181,172.16.101.59:2181,172.16.101.60:2181/kafka --topic logtopic --partitions 3
[root@sht-sgmhadoopdn-02 kafka]# bin/kafka-topics.sh --describe --zookeeper 172.16.101.58:2181,172.16.101.59:2181,172.16.101.60:2181/kafka --topic logtopic
Topic:logtopic PartitionCount:3 ReplicationFactor:3 Configs:
Topic: test Partition: 0 Leader: 3 Replicas: 3,1,2 Isr: 3,1,2
Topic: test Partition: 1 Leader: 1 Replicas: 1,2,3 Isr: 1,2,3
Topic: test Partition: 2 Leader: 2 Replicas: 2,3,1 Isr: 2,3,1
[root@sht-sgmhadoopdn-02 kafka]#
4.驗證(每個executor都有input資料)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30089851/viewspace-2133918/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Spark學習——資料傾斜Spark
- 【Spark篇】---Spark解決資料傾斜問題Spark
- Spark 資料傾斜及其解決方案Spark
- 收集、分析線上日誌資料實戰——ELK
- Spark SQL三種join和資料傾斜的產生和解決辦法SparkSQL
- 大資料SQL優化之資料傾斜解決案例全集大資料SQL優化
- Redis 切片叢集的資料傾斜分析Redis
- Spark效能最佳化篇三:資料傾斜調優Spark
- IoT資料傾斜如何解決
- 資料傾斜解決辦法
- PostgreSQL DBA(193) - 資料傾斜下的HashJoinSQL
- hive優化-資料傾斜優化Hive優化
- Redis 資料傾斜與 JD 開源 hotkey 原始碼分析揭秘Redis原始碼
- 記錄一次spark連線mysql遇到的問題SparkMySql
- 【REDO】Oracle 日誌挖掘,分析歸檔日誌線上日誌主要步驟Oracle
- 【Hive】資料傾斜優化 shuffle, join, group byHive優化
- Hive千億級資料傾斜解決方案Hive
- hadoop 透過cachefile來避免資料傾斜Hadoop
- Laravel sql 日誌記錄LaravelSQL
- [20181225]如何清除註冊的線上日誌.txt
- <Zhuuu_ZZ>Spark專案之log日誌資料分析處理Spark
- 一種自平衡解決資料傾斜的分表方法
- Flume+Spark+Hive+Spark SQL離線分析系統SparkHiveSQL
- 如何解決 Redis 資料傾斜、熱點等問題Redis
- Oracle資料傾斜導致的問題-無繫結變數Oracle變數
- Oracle資料傾斜導致的問題-有繫結變數Oracle變數
- Spark SQL:實現日誌離線批處理SparkSQL
- 日誌分析必備指令集【來自一段線上日誌的檢視的經歷】
- 記錄一次專案資料採集分析-NEWC資料洩漏
- 五款傾斜攝影與三維資料處理工具介紹:GISBox、Cesiumlab、OSGBLab、靈易智模、傾斜伴侶
- 實戰 | Hive 資料傾斜問題定位排查及解決Hive
- 如何解決Hive中經常出現的資料傾斜問題Hive
- 傾斜攝影三維模型的立體裁剪的問題分析模型
- Cesium傾斜模型單體化模型
- 數倉效能最佳化:傾斜最佳化-表示式計算傾斜的hint最佳化
- Cris 的 Spark SQL 筆記SparkSQL筆記
- spark學習筆記--Spark SQLSpark筆記SQL
- 資料分析師之SQL入門SQL
- laravel5.7 不記錄 sql 報錯日誌,自定義日誌資訊LaravelSQL