帶領大家淺談如何學習大資料

大資料學習發表於2019-08-04

最近幾年,大資料火了起來,吸引著越來越多的人加入到學習大資料的隊伍之中,其中0基礎的小白也有不少,甚至有的連程式語言不太瞭解,所以說有些同學就對自己失去了信心,認為自己學習不了大資料,那麼這肯定是錯誤的。那麼在這裡,我簡單的帶領大家去了解一下大資料到底應該如何學習

一.學習大資料的理論知識

首先肯定要先帶領大家瞭解什麼是大資料,對吧?大資料要架構在什麼介質之上,應用在什麼場景,你才可以知道自己到底想不想學大資料,如果你只聽名字高大上就來學習的話,等你學了一段時間後,才發現自己不喜歡,那對於你來說是不是屬於時間成本和金錢成本的浪費.所以大家要先了解一下到底什麼是大資料

帶領大家淺談如何學習大資料

二.基礎程式語言

當你已經足夠了解什麼是大資料,大資料是做什麼的之後,你覺得自己感興趣。那麼恭喜你。接下來你就要進入我們們整個大資料之旅了,你想進入到大資料行業那麼肯定要學會寫程式,也就是程式語言,那麼我們該學什麼程式語言呢?沒錯,就是java,因為我們的道路是大資料,所以也不需要深入java,只需要學完javaSE也就夠了.

如果你想要學好大資料最好加入一個好的學習環境,可以來這個Q群251956502 這樣大家學習的話就比較方便,還能夠共同交流和分享資料

三.資料庫以及linux作業系統

學完程式語言後,我們接下來肯定會學習資料庫,因為我們的資料需要儲存,那資料庫從哪兒開始學呢?先從最簡單的mysql關係型資料庫開始學,當然你還有精力和時間的話,也可以再學習下Oracle資料庫,這兩個資料庫學習完之後,還有學習linux作業系統,因為企業伺服器使用的大多都是linux作業系統,並且是無介面版本

四.大資料生態

Hadoop:

那麼前面的基礎打好以後,我們就要進入大資料生態的學習了,從hadoop(離線分散式處理框架)開始,先從四大核心元件入手,也就是hdfs(解決了大資料怎麼存的問題),MapReduce(解決了大資料怎麼算的問題),yarn(資源排程器),common(公共類庫),四大核心元件學習完成以後,就要學習下我們hadoop的外部依賴元件,比如Zookeeper(提供細條服務),Sqoop(資料遷移), hive(資料倉儲),hbase(列式儲存資料庫),

Spark

學習完我們hadoop之後,還要學我們另外一個分散式離線計算框架:Spark,因為我們的Spark比我們的hadoop要快,首先是基於記憶體,還有是因為DAG有向無環圖.那麼首先學習Spark就要學習

Scala(函數語言程式設計語言),kafka(訊息中介軟體訊息佇列),sparksql,spark core,sparkstreaming(微批實時處理),spark Structure streaming(spark批流融合),redies(記憶體資料庫)

Flink

當下比較火熱的,2016年推廣使用的,我們阿里的分支推出了blink,今年繼續會使用flink,flink已經支撐起阿里的整個體系,螞蟻,高德,淘寶,菜鳥物流整個計算模型都是使用flink的,去年阿里把flink收購了,當下來講就非常火熱。

重點

五.專案實戰

自然不必多說,大家出去找工作就能夠看到公司標準,都要求領域內的工作經驗,實操很重要,同時也是對學習的知識的一個鞏固和落地.


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2652648/,如需轉載,請註明出處,否則將追究法律責任。

相關文章