替代ELK:ClickHouse+Kafka+FlieBeat,哪個更香?

Linksla發表於2024-02-01

背景

SaaS 服務未來會面臨資料安全、合規等問題。公司的業務需要沉澱一套私有化部署能力,幫助業務提升行業競爭力。為了完善平臺系統能力、我們需要沉澱一套資料體系幫助運營分析活動效果、提升運營能力。
然而在實際的開發過程中,如果直接部署一套大資料體系,對於使用者來說將是一筆比較大的伺服器開銷。為此我們選用折中方案完善資料分析能力。

Easticsearch vs Clickhouse

ClickHouse是一款高效能列式分散式資料庫管理系統,我們對ClickHouse進行了測試,發現有下列優勢:
ClickHouse寫入吞吐量大,單伺服器日誌寫入量在50MB到200MB/s,每秒寫入超過60w記錄數,是ES的5倍以上。在ES中比較常見的寫Rejected導致資料丟失、寫入延遲等問題,在ClickHouse中不容易發生。
查詢速度快,官方宣稱資料在pagecache中,單伺服器查詢速率大約在2-30GB/s;沒在pagecache的情況下,查詢速度取決於磁碟的讀取速率和資料的壓縮率。經測試ClickHouse的查詢速度比ES快5-30倍以上。
ClickHouse比ES伺服器成本更低。一方面ClickHouse的資料壓縮比比ES高,相同資料佔用的磁碟空間只有ES的1/3到1/30,節省了磁碟空間的同時,也能有效的減少磁碟IO,這也是ClickHouse查詢效率更高的原因之一;另一方面ClickHouse比ES佔用更少的記憶體,消耗更少的CPU資源。我們預估用ClickHouse處理日誌可以將伺服器成本降低一半。


成本分析

備註:在沒有任何折扣的情況下,基於aliyun分析

環境部署

zookeeper 叢集部署

    
    yum install java-1.8.0-openjdk-devel.x86_64
    
    /etc/profile 配置環境變數
    
    更新系統時間
    
    yum install  ntpdate
    
    ntpdate asia.pool.ntp.org
    
    
    
    mkdir zookeeper mkdir ./zookeeper/data mkdir ./zookeeper/logs
    wget  --no-check-certificate tar -zvxf apache-zookeeper-3.7.1-bin.tar.gz -C /usr/zookeeper
    export ZOOKEEPER_HOME=/usr/zookeeper/apache-zookeeper-3.7.1-bin export PATH=$ZOOKEEPER_HOME/bin:$PATH
    進入ZooKeeper配置目錄 cd $ZOOKEEPER_HOME/conf
    新建配置檔案 vi zoo.cfg
    tickTime=2000 initLimit=10 syncLimit=5 dataDir=/usr/zookeeper/data dataLogDir=/usr/zookeeper/logs clientPort=2181 server.1=zk1:2888:3888 server.2=zk2:2888:3888 server.3=zk3:2888:3888
    在每臺伺服器上執行,給zookeeper建立myid echo "1" > /usr/zookeeper/data/myid echo "2" > /usr/zookeeper/data/myid echo "3" > /usr/zookeeper/data/myid
    進入ZooKeeper bin目錄 cd $ZOOKEEPER_HOME/bin sh zkServer.sh start

    Kafka 叢集部署

      
      mkdir -p /usr/kafka
      
      chmod 777 -R /usr/kafka
      
      wget  --no-check-certificate 
      
      tar -zvxf kafka_2.12-3.2.0.tgz -C /usr/kafka
      
      
      
      不同的broker Id 設定不一樣,比如 1,2,3 broker.id=1 listeners=PLAINTEXT://ip:9092 socket.send.buffer.bytes=102400 socket.receive.buffer.bytes=102400 socket.request.max.bytes=104857600 log.dir=/usr/kafka/logs num.partitions=5 num.recovery.threads.per.data.dir=3 offsets.topic.replication.factor=2 transaction.state.log.replication.factor=3 transaction.state.log.min.isr=3 log.retention.hours=168 log.segment.bytes=1073741824 log.retention.check.interval.ms=300000 zookeeper.connect=zk1:2181,zk2:2181,zk3:2181 zookeeper.connection.timeout.ms=30000 group.initial.rebalance.delay.ms=0
      後臺常駐程式啟動kafka nohup /usr/kafka/kafka_2.12-3.2.0/bin/kafka-server-start.sh /usr/kafka/kafka_2.12-3.2.0/config/server.properties   >/usr/kafka/logs/kafka.log >&1 &
      /usr/kafka/kafka_2.12-3.2.0/bin/kafka-server-stop.sh
      $KAFKA_HOME/bin/kafka-topics.sh --list --bootstrap-server  ip:9092
      $KAFKA_HOME/bin/kafka-console-consumer.sh --bootstrap-server ip:9092 --topic test --from-beginning
      $KAFKA_HOME/bin/kafka-topics.sh  --create --bootstrap-server  ip:9092  --replication-factor 2 --partitions 3 --topic xxx_data

      FileBeat  部署

        
        sudo rpm 
        --import 
        
        
        
        Create a file with a .repo extension ( for example, elastic.repo) in your /etc/yum.repos.d/ directory and add the following lines: 在/etc/yum.repos.d/ 目錄下建立elastic.repo
        [elastic -8.x] name=Elastic repository for 8.x packages baseurl= 8.x/yum gpgcheck= 1 gpgkey= KEY-elasticsearch enabled= 1 autorefresh= 1 type=rpm-md
        yum install filebeat systemctl enable filebeat chkconfig --add filebeat

        FileBeat 配置檔案說明,坑點1(需設定 keys_under_root: true )。如果不設定kafka的訊息欄位如下:

        檔案目錄:/etc/filebeat/filebeat.yml

          
          filebeat.inputs:
          
          - type: log
          
            enabled: true
          
            paths:
          
              - /root/logs/xxx/inner/*.log
          
            json:  
          
          如果不設定該索性,所有的資料都儲存在message裡面,這樣設定以後資料會平鋪。
          
                 keys_under_root: true 
          
          output.kafka:
          
            hosts: ["kafka1:9092", "kafka2:9092", "kafka3:9092"]
          
            topic: 'xxx_data_clickhouse'
          
            partition.round_robin:
          
                      reachable_only: false
          
                      required_acks: 1
          
                      compression: gzip
          
          processors: 
          
          剔除filebeat 無效的欄位資料
          
              - drop_fields:  
          
                  fields: ["input", "agent", "ecs", "log", "metadata", "timestamp"]
          
                  ignore_missing: false
          
          
          
          nohup ./filebeat -e -c /etc/filebeat/filebeat.yml > /user/filebeat/filebeat.log & 輸出到filebeat.log檔案中,方便排查

          Clickhouse 部署

            
            檢查當前CPU是否支援SSE 4.2,如果不支援,需要透過原始碼編譯構建
            
            grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"
            
            返回 "SSE 4.2 supported" 表示支援,返回 "SSE 4.2 not supported" 表示不支援
            
            
            
            建立資料儲存目錄,將它建立到大容量磁碟掛載的路徑 mkdir -p /data/clickhouse 修改/etc/hosts檔案,新增clickhouse節點 舉例: 10.190.85.92 bigdata-clickhouse-01 10.190.85.93 bigdata-clickhouse-02
            伺服器效能引數設定: cpu頻率調節,將CPU頻率固定工作在其支援的最高執行頻率上,而不動態調節,效能最好 echo 'performance' | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
            記憶體調節,不要禁用 overcommit echo 0 | tee /proc/sys/vm/overcommit_memory
            始終禁用透明大頁(transparent huge pages)。它會干擾記憶體分配器,從而導致顯著的效能下降 echo 'never' | tee /sys/kernel/mm/transparent_hugepage/enabled
            首先,需要新增官方儲存庫: yum install yum-utils rpm --import < yum-config-manager --add-repo <
            檢視clickhouse可安裝的版本: yum list | grep clickhouse 執行安裝命令: yum -y install clickhouse-server clickhouse-client
            修改/etc/clickhouse-server/config.xml配置檔案,修改日誌級別為information,預設是trace <level>information</level> 執行日誌所在目錄:
            正常日誌 /var/log/clickhouse-server/clickhouse-server.log 異常錯誤日誌 /var/log/clickhouse-server/clickhouse-server.err.log
            檢視安裝的clickhouse版本: clickhouse-server --version clickhouse-client --password
            sudo clickhouse stop sudo clickhouse tart sudo clickhouse start

            總結
            

            整個部署的過程踩了不少坑,尤其是filebeat yml的引數設定。clickhouse 的配置說明我會再更新一篇跟大家同步一下過程中踩的坑。很久沒有更新部落格了,經常看到部落格35歲以後怎麼辦的問題。
            說實話我自己也沒想好以後怎麼辦,核心還是持續的學習&輸出。不斷的構建自己的護城河,不管是技術專家、業務專家、架構、管理等。個人建議如果能持續寫程式碼就奮戰在一線,管理徹底與公司繫結。除非你是有名的大廠,這另外看。

            如果所在的公司缺乏較大的行業影響力,個人感覺可以奮戰在一線,未來選擇新的工作。考量更多的還是行業影響、商業sense、技術架構能力。


            來源:juejin.cn/post/7120880190003085320


            來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70013542/viewspace-3006059/,如需轉載,請註明出處,否則將追究法律責任。

            相關文章