Impala

歷精圖治發表於2018-12-31

1:Hive 基與mapreduce mapreduce基於硬碟
#!/bin/bash
a=5
b=6
c=7
echo "$a $b c"echoc" echo 'a $b $c’
執行結果:
5 $b 7
$a $b $c

sed ‘s/wo/ni/g’ sed.txt g代表的意思? 全域性
sort -t : -nrk 3 sort.sh

薄弱點: 重聽
開窗函式
矽谷影音 hive
shell cut sed awk sort
shuffle
impala : 第四章 重聽 impala的資料型別 impalad 架構
全量和增量的區別?
流式資料:
離線資料:

推測執行演算法 :
備份任務推測完成時刻 = 當前時刻 + 執行完成任務的平均時間在這裡插入圖片描述

flume難點:
a3.sources.r3.fileHeader = true
#是否按照時間滾動資料夾
a3.sinks.k3.hdfs.round = true
#檔案的滾動與Event數量無關
a3.sinks.k3.hdfs.rollCount = 0
#忽略所有以.tmp結尾的檔案,不上傳
a3.sources.r3.ignorePattern = ([^ ]*.tmp)

channel 選擇器: default
replicating 全部複製
mutiplexing 選擇那些資料可以放到那些channel裡面
攔截器:拿到event事件 可以獲取header 和body 對裡面資料進行修改
header和body中的資料?

telnet hadoop102 44444, flume能否接收到?
#設定檔案型別,可支援壓縮 其它幾種 型別
a3.sinks.k3.hdfs.fileType = DataStream
a1.sources.r1.selector.type = replicating
a1.sinkgroups.g1.processor.selector = round_robin
failover:故障轉移
load_balance 負載均衡 和故障轉移
在這裡插入圖片描述

ctrl+H 檢視實現類