大資料都學什麼?

好程式設計師發表於2020-09-01

  大資料都學什麼? 大資料(big data) ,指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產,下面給大家看一下大資料都需要學點什麼。

   第一階段為JAVASE+MYSQL+JDBC ,主要學習一些 Java 語言的概念,如字元、流程控制、物件導向、程式執行緒、列舉反射等,學習 MySQL 資料庫的安裝解除安裝及相關操作,學習 JDBC 的實現原理以及 Linux 基礎知識,是大資料剛入門階段。

   第二階段為分散式理論簡介,主要講解CAP 理論、資料分佈方式、一致性、 2PC 3PC 、大資料整合架構。涉及的知識點有 Consistency 一致性、 Availability 可用性、 Partition tolerance 分割槽容忍性、資料量分佈、 2PC 流程、 3PC 流程、雜湊方式、一致性雜湊等。

   第三階段為資料儲存與計算(離線場景),主要講解協調服務ZK(1T) 、資料儲存 hdfs(2T) 、資料儲存 alluxio(1T) 、資料採集 flume 、資料採集 logstash 、資料同步 Sqoop(0.5T) 、資料同步 datax(0.5T) 、資料同步 mysql-binlog(1T) 、計算模型 MR DAG(1T) hive(5T) Impala(1T) 、任務排程 Azkaban 、任務排程 airflow 等。

   第四部分為數倉建設,主要講解數倉倉庫的歷史背景、離線數倉專案- 伴我汽車( 5T )架構技術解析、多維資料模型處理 kylin 3.5T )部署安裝、離線數倉專案 - 伴我汽車升級後加入 kylin 進行多維分析等;

   第五階段為分散式計算引擎。主要講解計算引擎、scala 語言、 spark 、資料儲存 hbase redis kudu ,並透過某 p2p 平臺專案實現 spark 多資料來源讀寫。

   第六階段為資料儲存與計算(實時場景),主要講解資料通道Kafka 、實時數倉 druid 、流式資料處理 flink SparkStreaming ,並透過講解某交通大數讓你可以將知識點融會貫通。

   第七階段為資料搜尋,主要講解elasticsearch ,包括全文搜尋技術、 ES 安裝操作、 index 、建立索引、增刪改查、索引、對映、過濾等。

   第八階段為資料治理,主要講解資料標準、資料分類、資料建模、圖儲存與查詢、後設資料、血緣與資料質量、Hive Hook Spark Listener 等。

   第九階段為BI 系統,主要講解 Superset Graphna 兩大技術,包括基本簡介、安裝、資料來源建立、表操作以及資料探索分析。

   第十節段為資料探勘,主要講解機器學習中的數學體系、Spark Mlib 機器學習演算法庫、 Python scikit-learn 機器學習演算法庫、機器學習結合大資料專案。

   大資料課程體系是衡量一家大資料培訓是否專業的重要評價標準。大資料培訓課程是否科學和專業,直接決定著課程是否能夠滿足企業的用人要求、學員能否容易吸收等問題; 同時好的課程能夠讓學員在最短的時間裡學到最多的和最有用的大資料知識。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2716332/,如需轉載,請註明出處,否則將追究法律責任。

相關文章