大資料技術棧,主要有哪些

非洲羚羊發表於2020-06-15

往大資料方向發展需要學哪些技術?網上一搜真是指不勝屈。對於小白來說,實在是一頭霧水,到底哪些是當下流行的?哪些是必須要先學會的?流行?主次搞不清。為了解決這些疑惑,羚羊專門花了些時間,  挨個技術去研究對比歸類,大概總結出以下的技術點:

檔案儲存: Hadoop HDFS、GFS、KFS、Tachyon
離線計算: Hadoop MapReduce、Spark
流式、實時計算:flink、Storm、JStorm、Spark Structured Streaming、Heron、Spark Streaming
儲存格式:kudu、ORC、Apache Parquet、CarbonData
資料庫: HBase、Redis、MongoDB、Couchbase、LevelDB、Apache Cassandra、Ignite、TiDB
資源管理: YARN、Mesos
日誌收集: Flume、Scribe、Logstash、FileBeat
訊息系統: Kafka、StormMQ、ZeroMQ、RabbitMQ、Confluent Platform
線上、離線查詢搜尋分析: Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid、ClickHouse、Elasticsearch
資料視覺化查詢分析工具:Apache Zeppelin、Kibana
分散式協調服務:Zookeeper
叢集管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager
資料同步: Sqoop、DataX、Cannal、Maxwell、Debezium、DataBus
任務排程: Azkaban、Oozie
資料安全:Apache Eagle
機器學習、資料探勘:Spark MLLib、Mahout

 下圖是羚羊根據當下流行的大資料技術點,結合之前的專案經驗,基於HDFS檔案系統搭建了一個基本的、通用的完整大資料平臺技術架構。一切的技術都是來源於不同的需求場景,所以根據不同的產品需求搭建出來的技術架構也會有差異。

大資料架構

【版權宣告】

本文版權歸作者(深圳伊人網網路有限公司)和部落格園共有,歡迎轉載,但未經作者同意必須在文章頁面給出原文連結,否則保留追究法律責任的權利。如您有任何商業合作或者授權方面的協商,請給我留言:siqing0822@163.com

相關文章