小白如何學習大資料?需要多長時間

金羅老師發表於2019-03-16

近年來,大資料、雲端計算、區塊鏈、人工智慧等技術風靡全球,非常火熱,大資料學習成了很多人的首先,但面對大資料學習,是選擇自學,還是參加大資料的培訓,成了很多人考慮的問題。

面對社會的壓力,生活的壓力,很多人員不滿足於現狀的工作狀態,亦或是想要提高自己的能力,追求更完美的生活狀態,亦或者是對於大資料技術有著熱情的追求,不管出於什麼樣的原因,不得承認,大資料技術是目前比較熱門的網際網路技術之一。由此,有很多小白想學習,卻找不到如何入門,怎麼學習,以下個人簡單的解答一下,僅供參考!


在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
 

大資料涉及到的元件技術非常的多,需要我們逐一學習。各個元件之間相互配合,熟練運用,還是需要下苦功夫的。

學習大資料,該從何學起呢?

 

那麼對於各個元件之間,在處理大資料專案流程中,是該怎麼分配的呢,是如何整合完成整個專案的呢?可以看下下面的圖幫我們我們們解答疑惑。

學習大資料,該從何學起呢?

 

大資料目前發展更新迭代比較快,從Hadoop,spark,storm到最新的flink,太多的東西需要去學習,需要追隨IT技術的發展,可能會讓我們產生一種挫敗感,剛剛學會Hadoop,又有新的技術產生,還需要去學習。其實不斷地學習肯定是需要的!但是工作中我覺得無需糾結誰會替代誰,要有大局觀和生態意識,一切一應用場景出發,以公司專案出發。只要能夠完成,就是好的,無可替代的。

一、學習大資料需要的基礎

1、java SE、EE(SSM)

90%的大資料框架都是Java寫的

2、MySQL

SQL on Hadoop

3、Linux

大資料的框架安裝在Linux作業系統上

在有了上面的技術基礎支撐之後,便可以開始我們的大資料開發工程師的鍛造之旅了,可以根據以下三個大的方面進行學習,當然了,中間需要穿插一些專案練習,將理論和實戰相關聯才能成長的很快!

二、大資料技術需要學什麼

1、大資料離線分析

一般處理T+1資料(T:可能是1天、一週、一個月、一年)

a、Hadoop :一般不選用新版本,踩坑難解決

(common、HDES、MapReduce、YARN)

環境搭建、處理資料的思想

b、Hive:大資料的資料倉儲

經過寫SQL對資料進行操作,類似於MySQL資料庫的sql

c、HBase:基於HDFS的NOSQL資料庫

面向列儲存

d、協作框架:

sqoop(橋樑:HDFS《==》RDBMS)

flume:蒐集日誌檔案中的資訊

e、排程框架

anzkaban

瞭解:crotab(Linux自帶)

zeus(Alibaba)

Oozie(cloudera)

f、前沿框架擴充套件:

kylin、impala、ElasticSearch(ES)

2、大資料實時分析

以spark框架為主

Scala:OOP(物件導向程式設計)+FP(函式是程式設計)

sparkCore:類比MapReduce

sparkSQL:類比hive

sparkStreaming:實時資料處理

kafka:訊息佇列

前沿框架擴充套件:flink

阿里巴巴:blink

3、大資料機器學習

spark MLlib:機器學習庫

pyspark程式設計:Python和spark的結合

以上就是大資料的學習路線,有興趣的朋友,也可以瞭解下人工智慧和物聯網。

 

 

相關文章