大資料hadoop7天視訊教程全套

es6t7sqo發表於2014-09-29

加QQ:2521238762獲取最新教程



課程介紹:

       本課程是在傳智7天hadoop課程基礎上擴充的。限於傳智只有我一人講課,課程排不開,只有7天,實在太少,我打算通過YY講學的內容更多,
把自己想講的一些內容加進去.課程只多,不會少.
    課程中會貫穿一個電信專案的例子講個各個知識點。最後會用黑馬論壇日誌作為專案講述。本次課程不加入特別綜合的大型的hadoop專案。
適用人群:hadoop零基礎,或者轉行做hadoop的人士。
預期目標:通過該課程的學習,我期望達到以下三個目標:
1、對hadoop、zookeeper、hbase、hive、sqoop、flume、pig的理論體系有個系統掌握,對核心知識能夠掌握;閱讀市面上的各種圖書和各種文章不再有困難;
2、能夠在linux環境搭建hadoop、hbase等的偽分佈和分佈模式,進入公司後可以自己搭建環境;
3、能夠使用java語言、shell命令列兩種方式操作hadoop、zookeeper、hbase、hive、sqoop等,進入公司可以直接上手工作,不需要二次培訓。
課程時長:初級班414分鐘,中級班408分鐘,高階版322分鐘,專案實戰221分鐘。總課時1365分鐘,是全國hadoop網路培訓課時最長的。
試聽視訊:可以從超人學院官網下載,下載地址是:http://www.crxy.cn/channel/videodown
培訓效果:吳超老師是傳智的北京、上海、廣州校區和黑馬程式設計師的唯一hadoop講師。通過在20多個班級、大約1000小時的講課時長的磨練,本課程已經非常適合零基礎入門和提高,能夠讓僅具有java基礎的大學畢業生可以上手工作。


課程安排:
01) Linux基礎操作
本節講解linux基礎操作,主要是在命令列下進行檔案系統的操作,這是hadoop學習的基礎,後面的所有視訊都是基於linux操作的。鑑於很多學員沒有linux基礎,特增加該內容。

02) 搭建偽分佈實驗環境
本節是最基本的課程,屬於入門級別,主要講述在linux單機上面安裝hadoop的偽分佈模式,在linux叢集上面安裝hadoop叢集。對於不熟悉linux的同學, 課程中會簡單的講解常用的linux命令。這兩種是必須要掌握的。通過現在的教學發現,很多同學並不能正確的配置叢集環境。
知識點簡單羅列:
Ø Hadoop概念、版本、歷史
Ø Hadoop和核心組成介紹及hdfs、mapreduce體系結構
Ø Hadoop的叢集結構
Ø Hadoop偽分佈的詳細安裝步驟
Ø 如何通過命令列和瀏覽器觀察hadoop

03) 介紹HDFS體系結構及shell、java操作方式
本節是對hadoop核心之一——hdfs的講解。hdfs是所有hadoop操作的基礎,屬於基本的內容。對本節內容的理解直接影響以後所有課程的學習。在本節學習中,我們會講述hdfs的體系結構,以及使用shell、java不同方式對hdfs的操作。在工作中,這兩種方式都非常常用。學會了本節內容,就可以自己開發網盤應用了。在本節學習中,我們不僅對理論和操作進行講解,也會講解hdfs的原始碼,方便部分學員以後對hadoop原始碼進行修改。最後,還要講解hadoop的RPC機制,這是hadoop執行的基礎,通過該節學習,我們就可以明白hadoop是怎麼明白的了,就不必糊塗了,本節內容特別重要。
知識點簡單羅列:
Ø Hdfs體系結構詳述
Ø NameNode、DataNode、SecondaryNameNode體系結構
Ø 如果保證namenode的高可靠
Ø Datanode中block的劃分原理和儲存方式
Ø 如何修改namenode、datanode資料儲存位置
Ø 如何使用命令列操縱hdfs
Ø 如何使用java操作hdfs
Ø 介紹rpc機制
Ø 通過檢視原始碼,知曉hadoop是建構在rpc之上的
Ø 通過檢視hdfs原始碼,知曉客戶端是如何與Namenode通過rpc通訊的

04) 介紹MapReduce體系結構及各種演算法(1)
本節開始對hadoop核心之一——mapreduce的講解。mapreduce是hadoop的核心,是以後各種框架執行的基礎,這是必須掌握的。在本次講解中,掌握mapreduce執行的詳細過程,以單詞計數為例,講解mapreduce的詳細執行過程。還講解hadoop的序列化機制和資料型別,並使用自定義型別實現電信日誌資訊的統計。
知識點簡單羅列:
Ø Mapreduce原理
Ø Mapreduce執行的八大步驟
Ø 詳細講述如何使用mapreduce實現單詞計數功能
Ø 詳細講述如何覆蓋Mapper功能、如何覆蓋Reducer功能。在各種hadoop認證中,這是考察重點
Ø 詳細講述hadoop的自定義型別Writable介面
Ø 通過電信上網日誌例項講述如何自定義hadoop型別
Ø 通過原始碼講述hadoop是如何讀取hdfs檔案,並且轉化為鍵值對,供map方法呼叫的

05) 介紹MapReduce體系結構及各種演算法(2)
本節繼續講解mapreduce,會把舊api的用法、計數器、combiner、partitioner、排序演算法、分組演算法等全部講解完畢。通過這兩次課程學習,學員可以把整個mapreduce的執行細節搞清楚,把各個可擴充套件點都搞明白。本節內容在目前市面可見的圖書、視訊中還沒有發現如此全面的哪。
知識點簡單羅列:
Ø 講解新舊api的區別,如何使用舊api完成操作
Ø 介紹如何打包成jar,在命令列執行hadoop程式
Ø 介紹hadoop的內建計數器,以及自定義計數器
Ø 介紹了合併(combiner)概念、為什麼使用、如何使用、使用時有什麼限制條件
Ø 介紹了hadoop內建的分割槽(partitioner)概念、為什麼使用、如何使用
Ø 介紹了hadoop內建的排序演算法,以及如何自定義排序規則
Ø 介紹了hadoop內建的分組演算法,以及如何自定義分組規則
Ø 介紹了mapreduce的常見應用場景,以及如何實現mapreduce演算法

06) 介紹Hadoop叢集
hadoop就業主要是兩個方向:hadoop工程師和hadoop叢集管理員。我們課程主要培養工程師。本節內容是面向叢集管理員的,主要講述叢集管理的知識。
知識點簡單羅列:
Ø 如何搭建hadoop叢集
Ø 如何動態增加hadoop從節點
Ø 如何動態修改hdfs的副本數
Ø 如何使用一些常用管理命令
Ø 如何理解安全模式
Ø 如何檢視日誌等

07) 介紹zookeeper操作
本節內容與hadoop關係不大,只是在hbase叢集安裝時才用到。但是,zookeeper在分散式專案中應用較多。
知識點簡單羅列:
Ø Zookeeper是什麼
Ø 搭建zookeeper叢集環境
Ø 如何使用命令列操作zookeeper
Ø 如何使用java操作zookeeper

08) 介紹HBase體系結構及基本操作
hbase是個好東西,在以後工作中會經常遇到,特別是電信、銀行、保險等行業。本節講解hbase的偽分佈和叢集的安裝,講解基本理論和各種操作。我們通過對hbase原理的講解,讓大家明白為什麼hbase會這麼適合大資料的實時查詢。最後講解hbase如何設計表結構,這是hbase優化的重點。
知識點簡單羅列:
Ø Hbase是什麼
Ø Hbase資料模型
Ø Hbase儲存模型
Ø Hbase的命令列操作
Ø Hbase的java操作
Ø 如何使用mapreduce向hbase批量匯入資料

09) 介紹pig操作
Pig是另一套hadoop處理大資料的方法,底層呼叫的是mapreduce,但是入門的門檻低,書寫自由靈活,書寫效率與java程式碼相比非常高,在企業中有較多應用。本節hadoop講解pig的理論、操作。
知識點簡單羅列:
Ø Pig是什麼
Ø Pig的資料型別、操作
Ø 使用pig完成前面的電信上網日誌的統計工作

10) 介紹Hive體系結構及基本操作
Hive作為hadoop領域的資料倉儲,支援sql功能,類似於mysql操作,非常好用,在企業中應用非常廣泛。
知識點簡單羅列:
Ø Hive是什麼
Ø Hive的體系結構,hive中的表在hdfs中是如何儲存的
Ø 講解如何在linux安裝mysql,如何使用mysql作為hive的metastore
Ø 通過例項詳細講述hive的內部表、分割槽表、外部表、桶表
Ø 介紹檢視
Ø 介紹hive的自定義函式

11) 介紹Sqoop操作
sqoop適用於在關聯式資料庫與hdfs之間進行雙向資料轉換的,在企業中,非常常用。
知識點簡單羅列:
Ø Sqoop是什麼
Ø 通過例項講解Sqoop如何把mysql中的資料匯入到hdfs中
Ø 通過例項講解Sqoop如何把hdfs中的資料匯出到mysql中
Ø Sqoop如何做成job,方便以後快速執行

12) Flume操作
Flume是cloudera公佈的分散式日誌收集系統,是用來把各個的伺服器中資料收集,統一提交到hdfs或者其他目的地,是hadoop儲存資料的來源,企業中非常流行。
知識點簡單羅列:
Ø Flume是什麼
Ø 詳細Flume的體系結構
Ø 講述如何書寫flume的agent配置資訊
Ø 講述flume如何動態監控資料夾中檔案變化
Ø 講述flume如何把資料匯入到hdfs中
Ø 通過例項講解如何通過flume動態監控日誌檔案變化,然後匯入到hdfs中

13) 論壇日誌分析專案
    該專案的資料來自於黑馬程式設計師(http://edu.csdn.net/)論壇的日誌,該專案是為本課程量身定做的,非常適合我們hadoop課程學習。有的同學覺得應該介紹更多專案,其實做過幾個專案後,就會發現專案的思路是相同的,只是業務不同而已。大家寫過這個專案後,就對hadoop的各個框架在專案中是如何使用的,有個比較清晰的認識,對hadoop與javaEE結合有個比較清晰的認識了。

相關文章