大資料學習步驟

大資料學習路線

　　上面雖然列出來了很多框架，但是最開始學習的時候沒必要全部都學，就算是在工作中，這些框架也不一定會全部用到。

下面我就大致列一下，各種框架的一個學習步驟吧：

很多初學者，對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解，想學習的同學歡迎加入大資料學習qq群：199427210，有大量乾貨（零基礎以及進階的經典實戰）分享給大家，並且有清華大學畢業的資深大資料講師給大家免費授課，給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

注意：下面列出來的順序只是個人建議，可以根據個人實際情況來調整順序

linux基礎和javase基礎【包含mysql】

這些是基本功，剛開始也不可能學的很精通，最起碼要對linux中的一些基本的命令混個臉熟，後面學習各種框架的時候都會用到，用多了就熟悉了。javase的話建議主要看物件導向，集合，io，多執行緒，以及jdbc操作即可。

zookeeper

zookeeper是很多大資料框架的基礎，中文名稱是動物園的意思，因為目前的大資料框架的圖示很多都是動物的形狀，所以zookeeper其實就是可以管理很多大資料框架的。針對這個框架，主要掌握如何搭建單節點和叢集，以及掌握如何在zkcli客戶端下對zookeeper的節點進行增刪改查操作即可。

hadoop

目前企業中一般都是用hadoop2.x的版本了，所以就沒有必要再去學hadoop1.x版本了，hadoop2.x主要包含三大塊

hdfs 前期，主要學習hdfs的一些命令即可，上傳，下載，刪除，移動，檢視等命令…

mapreduce

這個需要重點學習下，要理解mr的原理以及程式碼實現，雖然現在工作中真正寫mr的程式碼次數很少了，但是原理還是要理解的。

yarn

前期瞭解即可，只需要知道yarn是一個資源排程平臺，主要負責給任務分配資源即可，yarn不僅可以給mapreduce任務排程資源，還可以為spark任務排程資源…yarn是一個公共的資源排程平臺，所有滿足條件的框架都可以使用yarn來進行資源排程。

hive

hive是一個資料倉儲，所有的資料都是儲存在hdfs上的，具體【資料倉儲和資料庫】的區別大家可以去網上搜尋一下，有很多介紹。其實如果對mysql的使用比較熟悉的話，使用hive也就簡單很多了，使用hive主要是寫hql，hql是hive的sql語言，非常類似於mysql資料庫的sql，後續學習hive的時候主要理解一些hive的語法特性即可。其實hive在執行hql，底層在執行的時候還是執行的

mapredce程式

注意：其實hive本身是很強大的，資料倉儲的設計在工作中也是很重要的，但是前期學習的時候，主要先學會如何使用就好了。後期可以好好研究一下hive。

hbase

hbase是一個nosql 資料庫，是一個key-value型別的資料庫，底層的資料儲存在hdfs上。在學習hbase的時候主要掌握 row-key的設計，以及列簇的設計。要注意一個特點就是，hbase基於rowkey查詢效率很快，可以達到秒級查詢，但是基於列簇中的列進行查詢，特別是組合查詢的時候，如果資料量很大的話，查詢效能會很差。

redis

redis也是一個nosql 資料庫和key-value型別的資料庫，但是這個資料庫是純基於記憶體的，也就是redis資料庫中的資料都是儲存在記憶體中的，所以它的一個特點就是適用於快速讀寫的應用場景，讀寫可以達到10W次/秒，但是不適合儲存海量資料，畢竟機器的記憶體是有限的，當然，redis也支援叢集，也可以儲存大量資料。在學習redis的時候主要掌握string，list，set，sortedset，hashmap這幾種資料型別的區別以及使用，還有pipeline管道，這個在批次入庫資料的時候是非常有用的，以及transaction事務功能。

flume

flume是一個日誌採集工具，這個還是比較常用的，最常見的就是採集應用產生的日誌檔案中的資料。一般有兩個流程，一個是flume採集資料儲存到kafka中，為了後面使用storm或者sparkstreaming進行實時處理。另一個流程是flume採集的資料落盤到hdfs上，為了後期使用hadoop或者spark進行離線處理。在學習flume的時候其實主要就是學會看flume官網的文件，學習各種組建的配置引數，因為使用flume就是寫各種的配置。

kafka

kafka 是一個訊息佇列，在工作中常用於實時處理的場景中，作為一箇中間緩衝層，例如，flume->kafka->storm/sparkstreaming。學習kafka主要掌握topic，partition，replicate等的概念和原理。

storm

storm是一個實時計算框架，和hadoop的區別就是，hadoop是對離線的海量資料進行處理，而storm是對實時新增的每一條資料進行處理，是一條一條的處理，可以保證資料處理的時效性。學習storm主要學習topology的編寫，storm並行度的調整，以及storm如何整合kafka實時消費資料。

spark

spark 現在發展的也很不錯，也發展成了一個生態圈，spark裡面包含很多技術，spark core，spark steaming，spark mlib，spark graphx。

spark生態圈裡麵包含的有離線處理spark core，和實時處理spark streaming，在這裡需要注意一下，storm和spark streaming ，兩個都是實時處理框架，但是主要區別是：storm是真正的一條一條的處理，而spark streaming 是一批一批的處理。

spark中包含很多框架，在剛開始學習的時候主要學習spark core和spark streaming即可。這個一般搞大資料的都會用到。spark mlib和spark graphx 可以等後期工作需要或者有時間了在研究即可。

elasticsearch

elasticsearch是一個適合海量資料實時查詢的全文搜尋引擎，支援分散式叢集，其實底層是基於lucene的。在查詢的時候支援快速模糊查詢，求count，distinct，sum，avg等操作，但是不支援join操作。elasticsearch目前也有一個生態圈，elk(elasticsearch logstash kibana)是一個典型的日誌收集，儲存，快速查詢出圖表的一整套解決方案。在學習elasticsearch的時候，前期主要學習如何使用es進行增刪改查，es中的index，type，document的概念，以及es中的mapping的設計。

目前暫且列出來這麼多吧，大資料生態圈目前還有很多比較好的技術框架，這個就需要等大家以後工作之後再去擴充套件了。

其實上面列出來的這十幾個框架，在學習的時候，要專門挑一兩個著重研究一下，最好針對，底層原理，最佳化，原始碼等部分有所涉獵，這麼的話可以在面試過程中脫穎而出。不要想著把每一個框架都搞精通，目前是不現實的，其實就算是在工作中也不會每一個框架都會用的很深。

如果能過對上面的框架都大致會使用，並且對某一兩個框架研究的比較深的話，其實想去找一份滿意的大資料工作也就水到渠成了。

上面說的這麼多，是根據博主最近幾年的一些經驗總結吧，如果大家有什麼觀點可以在下面留言討論。

最終，大家還是要落於找專案來提升自己，必須要有做專案的經驗。現在網際網路時代，別跟我說，找不到學習的資源。谷歌百度你懂的… !!!

其實，說白了，大家還是要在入門之後，有了一定經驗，更多還是要去看官網。這是最重要！包括動手去實踐，多敲命令！

大資料學習路線

相關文章