大資料初學者怎樣學習?Java工程師怎麼轉行大資料?

web前端開發交流發表於2018-09-21

最近好多人都在問我,大資料怎麼學,java怎麼轉大資料,今天就給大家分享一下。

大資料初學者怎樣學習 或Java工程師怎麼轉大資料

大資料現在很火很熱,但是怎麼學習呢?下面我給大家分享一下:
大資料學習群119599574

首先給大家普及一下大資料相關知識大資料的4大特徵:

1.資料在體量方面很大,比如說文字,有各種各樣的來源,有電子書|實體書|雜誌|報刊等,它們的資料大吧。

2.資料的型別多種多樣,有些是結構化的資料,像存在Oracle,MySQL這些傳統的資料庫裡的資料,一般都是結構化,可以是還有非結構化,比如HTML,WORD,execl等格式。

3.它們的價值密度低,這樣說吧,你比如說觀看一條資料好像價值也不大,但是分析所有的資料之後呢?總會挖掘出一些 重要的東西。

4.處理這些資料的速度要快。比如像Hadoop技術的MapReduce計算框架,相比傳統的資料庫處理速度要快,它的吞吐量 特別的大,再比如Spark,Spark在記憶體方面計算比Hadoop快100倍,在磁碟方面計算快10倍。

大資料的方向的工作有 大資料運維工程師、大資料開發工程師、資料分析、資料探勘、架構師等。

大資料的技術有

大資料初學者怎樣學習 或Java工程師怎麼轉大資料?

  • Hadoop HDFS檔案系統 MR計算模型

  • Hive資料倉儲

  • HBase資料庫

  • Flume日誌收集

  • Kafka訊息系統

  • Storm流式計算

  • Spark生態圈:Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX

  • Zookeeper協調系統

  • NOSQL資料庫:Redis、MongoDB

  • 機器學習:Mahout

看到這麼多技術是不是有點暈呢?該怎麼學習呢?

大資料初學者怎樣學習 或Java工程師怎麼轉大資料?

  1. 先學Hadoop Hadoop框架中由兩大模組組成,一個HDFS(Hadoop Distributed File System),是用來儲存需要處理的資料,另外一個是MapReduce,是Hadoop的處理資料的計算模型。

  2. 學習一門資料庫,像MySQL學點SQL吧

  3. Hive 只要你會SQL,你就會使用它。hive是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行執行。

  4. HBase HBase即Hadoop DataBase,Hadoop的資料庫,HBase是一種 "NoSQL" 資料庫,即不是RDBMS ,不支援SQL作為主要訪問手段。

  5. Sqoop Sqoop是遷移資料工具,可以在很多資料庫之間來遷移,

  6. Flume Flume是一個分散式的海量日誌採集和傳輸框架,一個高可用的,高可靠的,分散式的海量日誌採集、聚合和傳輸的系統,Flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,Flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

  7. Kafka 使用Kafka完成資料的一次收集,多次消費。它是一個分散式、支援分割槽的(partition)、多副本的(replica),基於zookeeper協調的分散式訊息系統。

  8. Spark基於記憶體計算的框架 Spark Core最為重要再學SparkSQL、Spark Streaming、圖計算、機器學習

  9. Storm實時的流計算框架。

後期可以學習機器學習Mahout

基本就是這樣的學習順序。加油學習吧。大資料學習資料分享群119599574

相關文章