大資料學習:怎樣進行大資料的入門級學習?

andy888168發表於2019-10-11

大資料學習:怎樣進行大資料的入門級學習?

首先學習大資料需要對學習一門程式語言進行入門程式設計, 一般是選擇 Java Python, 現在主流的方向是以 Java 作為入門程式語言學習 , 因為後期的 Spark 需要使用 scala 語言進行程式設計 , Scala Java 有千世萬縷的聯絡 , 所以建議從 Java 開始學習 ,JavaEE 方法向可以適當的學習一些 SSM, 大資料主要是對資料進行處理 , JavaEE 端沒有太大的需求 , 其次需要學習的是資料庫 MySQL 作為廣泛使用的一個資料庫 , 可以作為入手 , 安裝簡單方便學習利於上手 , 並且可以學習 SQL 為後期學習 Hive 做準備 .

這些學習完成後, 可以開始接觸 Hadoop 生態圈 ,Hadoop 自身的三大元件 HDFS,MapReduce,Yarn 先入手學習 , 現有分散式思想 , 前面學習的 Java 語言也是 MapReduce 計算框架的程式語言 , 學習這些之後可以開始學習 Hive 資料倉儲 , 主要是先學習基礎操作前期學習了 SQL 語言而 Hive 程式語言是類 SQL 語言叫做 HQL, 上手起來會比較快 , 然後學習數倉建模 , 接下來做一個關於資料倉儲的專案 , 在專案中學習 Flume,sqoop anzkaban.Hbase 資料庫也可以學習 , 使用方式可能跟傳統資料庫不一樣 , 需要注意 : 二級索引 ,rowkey, 列簇等應用 . 這部分學習完畢基本上 Hadoop 部分的日常開發是可以了 .

除了Hadoop 這個部分外 , 可以學習另外一個計算分析引擎 Spark,Spark 是基於記憶體的計算引擎 , 獨有的 RDD 依賴和血緣關係、 DAG Stage spark 在計算資料時資料更快 ,spark 預設使用的是 scala 語言編寫 ,scala 語言和 Java 語言類似 , 之前有 Java 基礎上手 Scala 語言相對容易並且 Spark 中分為 SparkCore 核心 ,SparkSQL 對接 Hive,SparkStreaming 實時 , 這些都可以完成日常離線和實時開發 , 而且 SparkStreaming 作為老牌的實時引擎相對使用比較廣而且穩定 , 並且集合訊息中介軟體 Kafka 可以做到實時資料消費 , 新型的 Flink 實時計算引擎也可以學習 , 現在是阿里巴巴推薦使用的 . 最後在做一些 spark 專案基本上就可以完成學習了

材料的話不建議看書, 因為書不是每個人都會去認真看的可以去找一些影片看 , 千鋒好程式大資料課程推出了很多優質免費的學習影片可以看看 , 書可以在系統學習完後再補充看 .

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69947096/viewspace-2659538/,如需轉載,請註明出處,否則將追究法律責任。

相關文章