好程式設計師大資料培訓分享Hadoop入門學習線路圖

好程式設計師發表於2020-06-21

  好程式設計師大資料培訓分享Hadoop 入門學習線路圖, Hadoop 是系統學習大資料的必會知識之一, Hadoop 裡面包括幾個元件 HDFS MapReduce YARN HDFS 是儲存資料的地方就像我們電腦的硬碟一樣檔案都儲存在這個上面, MapReduce 是對資料進行處理計算的。 YARN 是一種新的 Hadoop 資源管理器,可為上層應用提供統一的資源管理和排程,它的引入為叢集在利用率、資源統一管理和資料共享等方面帶來了巨大好處。

   如何入門Hadoop 學習,不妨從以下這些知識點學起,希望我的分享能對大家的學習有幫助:

   先附一張大資料學習線路圖:

   Zookeeper

   這是個萬金油,安裝Hadoop HA 的時候就會用到它,以後的 Hbase 也會用到它。它一般用來存放一些相互協作的資訊,這些資訊比較小一般不會超過 1M ,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的 run 起來就可以了。

   Mysql

   我們學習完大資料的處理了,接下來學習學習小資料的處理工具mysql 資料庫,因為一會裝 hive 的時候要用到, mysql 需要掌握到什麼層度那?你能在 Linux 上把它安裝好,執行起來,會配置簡單的許可權,修改 root 的密碼,建立資料庫。這裡主要的是學習 SQL 的語法,因為 hive 的語法和這個非常相似。     

   Sqoop

   這個是用於把Mysql 裡的資料匯入到 Hadoop 裡的。當然你也可以不用這個,直接把 Mysql 資料表匯出成檔案再放到 HDFS 上也是一樣的,當然生產環境中使用要注意 Mysql 的壓力。

   Hive

   這個東西對於會SQL 語法的來說就是神器,它能讓你處理大資料變的很簡單,不會再費勁的編寫 MapReduce 程式。

   Oozie

   既然學會Hive 了,我相信你一定需要這個東西,它可以幫你管理你的 Hive 或者 MapReduce Spark 指令碼,還能檢查你的程式是否執行正確,出錯了給你發報警並能幫你重試程式,最重要的是還能幫你配置任務的依賴關係。    

   Hbase

   這是Hadoop 生態體系中的 NOSQL 資料庫,他的資料是按照 key value 的形式儲存的並且 key 是唯一的,所以它能用來做資料的排重,它與 MYSQL 相比能儲存的資料量大很多。所以他常被用於大資料處理完成之後的儲存目的地。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2699792/,如需轉載,請註明出處,否則將追究法律責任。

相關文章