大資料學習路線
大資料學習步驟
上面雖然列出來了很多框架,但是最開始學習的時候沒必要全部都學,就算是在工作中,這些框架也不一定會全部用到。
下面我就大致列一下,各種框架的一個學習步驟吧:
很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:199427210,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
注意:下面列出來的順序只是個人建議,可以根據個人實際情況來調整順序
linux基礎和javase基礎【包含mysql】
這些是基本功,剛開始也不可能學的很精通,最起碼要對linux中的一些基本的命令混個臉熟,後面學習各種框架的時候都會用到,用多了就熟悉了。javase的話建議主要看物件導向,集合,io,多執行緒,以及jdbc操作即可。
zookeeper
zookeeper是很多大資料框架的基礎,中文名稱是動物園的意思,因為目前的大資料框架的圖示很多都是動物的形狀,所以zookeeper其實就是可以管理很多大資料框架的。針對這個框架,主要掌握如何搭建單節點和叢集,以及掌握如何在zkcli客戶端下對zookeeper的節點進行增刪改查操作即可。
hadoop
目前企業中一般都是用hadoop2.x的版本了,所以就沒有必要再去學hadoop1.x版本了,hadoop2.x主要包含三大塊
hdfs 前期,主要學習hdfs的一些命令即可,上傳,下載,刪除,移動,檢視等命令…
mapreduce
這個需要重點學習下,要理解mr的原理以及程式碼實現,雖然現在工作中真正寫mr的程式碼次數很少了,但是原理還是要理解的。
yarn
前期瞭解即可,只需要知道yarn是一個資源排程平臺,主要負責給任務分配資源即可,yarn不僅可以給mapreduce任務排程資源,還可以為spark任務排程資源…yarn是一個公共的資源排程平臺,所有滿足條件的框架都可以使用yarn來進行資源排程。
hive
hive是一個資料倉儲,所有的資料都是儲存在hdfs上的,具體【資料倉儲和資料庫】的區別大家可以去網上搜尋一下,有很多介紹。其實如果對mysql的使用比較熟悉的話,使用hive也就簡單很多了,使用hive主要是寫hql,hql是hive的sql語言,非常類似於mysql資料庫的sql,後續學習hive的時候主要理解一些hive的語法特性即可。其實hive在執行hql,底層在執行的時候還是執行的
mapredce程式
注意:其實hive本身是很強大的,資料倉儲的設計在工作中也是很重要的,但是前期學習的時候,主要先學會如何使用就好了。後期可以好好研究一下hive。
hbase
hbase是一個nosql 資料庫,是一個key-value型別的資料庫,底層的資料儲存在hdfs上。在學習hbase的時候主要掌握 row-key的設計,以及列簇的設計。要注意一個特點就是,hbase基於rowkey查詢效率很快,可以達到秒級查詢,但是基於列簇中的列進行查詢,特別是組合查詢的時候,如果資料量很大的話,查詢效能會很差。
redis
redis也是一個nosql 資料庫和key-value型別的資料庫,但是這個資料庫是純基於記憶體的,也就是redis資料庫中的資料都是儲存在記憶體中的,所以它的一個特點就是適用於快速讀寫的應用場景,讀寫可以達到10W次/秒,但是不適合儲存海量資料,畢竟機器的記憶體是有限的,當然,redis也支援叢集,也可以儲存大量資料。在學習redis的時候主要掌握string,list,set,sortedset,hashmap這幾種資料型別的區別以及使用,還有pipeline管道,這個在批次入庫資料的時候是非常有用的,以及transaction事務功能。
flume
flume是一個日誌採集工具,這個還是比較常用的,最常見的就是採集應用產生的日誌檔案中的資料。一般有兩個流程,一個是flume採集資料儲存到kafka中,為了後面使用storm或者sparkstreaming進行實時處理。另一個流程是flume採集的資料落盤到hdfs上,為了後期使用hadoop或者spark進行離線處理。在學習flume的時候其實主要就是學會看flume官網的文件,學習各種組建的配置引數,因為使用flume就是寫各種的配置。
kafka
kafka 是一個訊息佇列,在工作中常用於實時處理的場景中,作為一箇中間緩衝層,例如,flume->kafka->storm/sparkstreaming。學習kafka主要掌握topic,partition,replicate等的概念和原理。
storm
storm是一個實時計算框架,和hadoop的區別就是,hadoop是對離線的海量資料進行處理,而storm是對實時新增的每一條資料進行處理,是一條一條的處理,可以保證資料處理的時效性。學習storm主要學習topology的編寫,storm並行度的調整,以及storm如何整合kafka實時消費資料。
spark
spark 現在發展的也很不錯,也發展成了一個生態圈,spark裡面包含很多技術,spark core,spark steaming,spark mlib,spark graphx。
spark生態圈裡麵包含的有離線處理spark core,和實時處理spark streaming,在這裡需要注意一下,storm和spark streaming ,兩個都是實時處理框架,但是主要區別是:storm是真正的一條一條的處理,而spark streaming 是一批一批的處理。
spark中包含很多框架,在剛開始學習的時候主要學習spark core和spark streaming即可。這個一般搞大資料的都會用到。spark mlib和spark graphx 可以等後期工作需要或者有時間了在研究即可。
elasticsearch
elasticsearch是一個適合海量資料實時查詢的全文搜尋引擎,支援分散式叢集,其實底層是基於lucene的。在查詢的時候支援快速模糊查詢,求count,distinct,sum,avg等操作,但是不支援join操作。elasticsearch目前也有一個生態圈,elk(elasticsearch logstash kibana)是一個典型的日誌收集,儲存,快速查詢出圖表的一整套解決方案。在學習elasticsearch的時候,前期主要學習如何使用es進行增刪改查,es中的index,type,document的概念,以及es中的mapping的設計。
目前暫且列出來這麼多吧,大資料生態圈目前還有很多比較好的技術框架,這個就需要等大家以後工作之後再去擴充套件了。
其實上面列出來的這十幾個框架,在學習的時候,要專門挑一兩個著重研究一下,最好針對,底層原理,最佳化,原始碼等部分有所涉獵,這麼的話可以在面試過程中脫穎而出。不要想著把每一個框架都搞精通,目前是不現實的,其實就算是在工作中也不會每一個框架都會用的很深。
如果能過對上面的框架都大致會使用,並且對某一兩個框架研究的比較深的話,其實想去找一份滿意的大資料工作也就水到渠成了。
上面說的這麼多,是根據博主最近幾年的一些經驗總結吧,如果大家有什麼觀點可以在下面留言討論。
最終,大家還是要落於找專案來提升自己,必須要有做專案的經驗。現在網際網路時代,別跟我說,找不到學習的資源。谷歌百度你懂的… !!!
其實,說白了,大家還是要在入門之後,有了一定經驗,更多還是要去看官網。這是最重要!包括動手去實踐,多敲命令!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561003/viewspace-2646579/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料學習路線圖大資料
- 大資料最佳學習路線大資料
- 大資料經典學習路線大資料
- java轉大資料的學習路線Java大資料
- 大資料經典學習路線,必看!!大資料
- 大資料,雲端計算學習路線大資料
- 大資料學習方法,學大資料需要的基礎和路線大資料
- 大資料學習入門規劃?和學習路線大資料
- 大資料學習路線圖 讓你精準掌握大資料技術學習大資料
- 小白如何學習大資料開發,大資料學習路線是怎樣的?大資料
- 大資料工程師-學習路線-轉大資料工程師
- 好程式設計師大資料學習路線之大資料自學路線二程式設計師大資料
- 好程式設計師大資料學習路線之大資料自學路線一程式設計師大資料
- 什麼是大資料?零基礎如何學習大資料?(附學習路線)大資料
- 什麼是大資料?大資料學習路線和就業方向大資料就業
- 大資料學習路線分享Master的jps大資料AST
- 計算機小白大資料學習線路圖計算機大資料
- 資料科學、資料工程學習路線資料科學
- 好程式設計師大資料學習路線分享大資料之字串程式設計師大資料字串
- 零基礎大資料學習線路詳解大資料
- 大資料經典學習路線(及供參考)大資料
- 大資料Hadoop系統性學習路線圖大資料Hadoop
- 大資料學習路線(自己制定,從零開始)大資料
- 好程式設計師大資料學習路線分享Hbase指令學習程式設計師大資料
- 零基礎學習大資料人工智慧,學習路線篇!大資料人工智慧
- 資料庫學習線路圖資料庫
- 想自學大資料開發 鄭州大資料學習路線是什麼大資料
- 10個最熱門的大資料技術,附上大資料學習路線大資料
- 好程式設計師大資料學習路線分享Map學習筆記程式設計師大資料筆記
- 好程式設計師大資料學習路線分享HDFS學習總結程式設計師大資料
- 好程式設計師大資料學習路線分享hdfs學習乾貨程式設計師大資料
- 好程式設計師大資料學習路線分享Actor學習筆記程式設計師大資料筆記
- 大資料學習路線教程圖,如何快速入門Spark大資料Spark
- 好程式設計師大資料學習路線分享MAPREDUCE程式設計師大資料
- 好程式設計師大資料學習路線分享SparkSQl程式設計師大資料SparkSQL
- 大資料學習路線指南(最全知識點總結)大資料
- 好程式設計師大資料學習路線分享大資料之執行緒程式設計師大資料執行緒
- 雲端計算大資料學習路線課程大綱資料:hive入門操作大資料Hive