20【線上日誌分析】之記錄一次Spark Streaming+Spark SQL的資料傾斜
1.現象
三臺機器都有產生executor,每臺都會產生tasks,但是其中只有一臺的task有input資料,其他機器的tasks都沒有資料。
2.猜想
2.1是不是資料傾斜?
是
2.2是資料量過大,group by時,導致key分佈不均?
比如key1 有98萬,key2有2萬,那麼shuffle時,肯定資料傾斜。但是我剛開始資料量不是很大,所以pass (就算資料量大,也很簡單處理,一般處理時key加上隨機字首數)
2.3是不是資料量太少 不夠分割槽的?
也懷疑過,不過還沒去驗證
2.4 flume流到kafka,是snappy壓縮格式,而spark作為kafka的消費者,雖然能夠自動識別壓縮格式,但是這種snappy格式不支援切分
也懷疑過,不過還沒去修改支援spilt的壓縮格式,也還沒去驗證
2.5 spark streaming分割槽數目是有誰決定的?
使用direct這種模式是由kafka的分割槽數目決定,
使用receiver這種模式由流的數目決定也就是由receiver數目決定。
3.修改分割槽數
[root@sht-sgmhadoopdn-02 kafka]#bin/kafka-topics.sh --alter --zookeeper 172.16.101.58:2181,172.16.101.59:2181,172.16.101.60:2181/kafka --topic logtopic --partitions 3
[root@sht-sgmhadoopdn-02 kafka]# bin/kafka-topics.sh --describe --zookeeper 172.16.101.58:2181,172.16.101.59:2181,172.16.101.60:2181/kafka --topic logtopic
Topic:logtopic PartitionCount:3 ReplicationFactor:3 Configs:
Topic: test Partition: 0 Leader: 3 Replicas: 3,1,2 Isr: 3,1,2
Topic: test Partition: 1 Leader: 1 Replicas: 1,2,3 Isr: 1,2,3
Topic: test Partition: 2 Leader: 2 Replicas: 2,3,1 Isr: 2,3,1
[root@sht-sgmhadoopdn-02 kafka]#
4.驗證(每個executor都有input資料)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30089851/viewspace-2133918/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Spark學習——資料傾斜Spark
- 【Spark篇】---Spark解決資料傾斜問題Spark
- Spark 資料傾斜及其解決方案Spark
- Spark SQL三種join和資料傾斜的產生和解決辦法SparkSQL
- Redis 切片叢集的資料傾斜分析Redis
- 大資料SQL優化之資料傾斜解決案例全集大資料SQL優化
- Hive資料傾斜Hive
- Spark效能最佳化篇三:資料傾斜調優Spark
- 大資料常見問題之資料傾斜大資料
- 18【線上日誌分析】之Spark on Yarn配置日誌Web UI(HistoryServer服務)SparkYarnWebUIServer
- 資料傾斜解決辦法
- IoT資料傾斜如何解決
- 收集、分析線上日誌資料實戰——ELK
- hive優化-資料傾斜優化Hive優化
- 記錄一次spark連線mysql遇到的問題SparkMySql
- PostgreSQL DBA(193) - 資料傾斜下的HashJoinSQL
- Hive千億級資料傾斜解決方案Hive
- 【Hive】資料傾斜優化 shuffle, join, group byHive優化
- Redis 資料傾斜與 JD 開源 hotkey 原始碼分析揭秘Redis原始碼
- 15【線上日誌分析】之基於Spark Streaming+Saprk SQL開發OnLineLogAanlysis2(Final)SparkSQL
- hadoop 透過cachefile來避免資料傾斜Hadoop
- 21【線上日誌分析】之記錄一個flume-ng的tail -f引數所誘發的血案AI
- 10【線上日誌分析】之基於Spark Streaming開發OnLineLogAanlysis1Spark
- 淺析 Hadoop 中的資料傾斜(R0.1)Hadoop
- 06【線上日誌分析】之KafkaOffsetMonitor監控工具的搭建Kafka
- 09【線上日誌分析】之基於Spark Streaming Direct方式的WordCount最詳細案例(java版)SparkJava
- SQL 記錄資料庫連線數資訊SQL資料庫
- 16【線上日誌分析】之grafana-4.1.1 Install和新建日誌分析的DashBoardGrafana
- 一種自平衡解決資料傾斜的分表方法
- 如何解決 Redis 資料傾斜、熱點等問題Redis
- Oracle中利用函式索引處理資料傾斜案例Oracle函式索引
- 巧用函式索引解決資料傾斜列查詢函式索引
- <Zhuuu_ZZ>Spark專案之log日誌資料分析處理Spark
- Oracle資料傾斜導致的問題-有繫結變數Oracle變數
- Oracle資料傾斜導致的問題-無繫結變數Oracle變數
- Flume+Spark+Hive+Spark SQL離線分析系統SparkHiveSQL
- Laravel sql 日誌記錄LaravelSQL
- css具有傾斜效果的橫條CSS