前言：

     關於Hadoop課程及認證證照的事，想著整理一下，可能覺得有用的。

     首先我所知道的在做Hadoop認證的有兩家，Hortonworks跟Cloudera。因為工作的原因接觸Cloudera比較多，所以就只能講講Cloudera的認證了。

主要認證

      我只知道7門課：

      1、CCAH（Cloudera Apache Hadoop管理員），

      2、CCDH（Cloudera Apache Hadoop開發者），

      3、Cloudera Hbase，

      4、Cloudera Data Analyst(資料分析)，

      5、Designing and Building Big Data Applications（資料建模），

      6、Cloudera Introduction to Data Science（資料科學家），

      7、Cloudera Developer Training for Apache Spark

詳細介紹：

1、【Cloudera Apache Hadoop管理員】（透過考試可頒發CCAH全球認證證照）
    課時：4天/24小時
    學習系統管理的概念和Apache Hadoop的最佳實踐，
    從安裝和配置到負載均衡和調優。
    這個4天的的課程透過動手時間來賦予你部署的經驗，
    以及更多的安全方面的經驗和故障排除。
    課程結束後，學員被鼓勵去參加Cloudera和Apache Hadoop管理員（CCAH）考試。
    【課程內容】
    1、Hadoop分散式檔案系統（HDFS）
    2、YARN/MapReduce的工作原理
    3、如何最佳化Hadoop機群所需要的硬體配置
    4、搭建Hadoop機群所需要考慮的網路因素
    5、Hadoop機群維護和控制
    6、如何利用Hadoop配置選項進行系統效能調優
    7、如何利用FairScheduler為多使用者提供服務級別保障
    8、Hadoop機群維護和監控
    9、如何使用Flume從動態生成的檔案載入到Hadoop
    10、如何使用Sqoop從關係型資料載入資料
    11、Hadoop生態系統工具（如Hive、Impala、Pig和Base）
    【學員基礎】
    具備基本Linux系統管理經驗。不需要事先掌握Hadoop相關知識。
    【授課形式】

    案例教學+上機實踐

2、【Cloudera Apache Hadoop程式設計師課程】（透過考試可頒發CCDH全球認證證照）
    課時：4天/24小時
    學習Hadoop分散式檔案系統（HDFS）基礎和MapReduce框架以及如何利用其API來編寫程式，
    討論為更大型的工作流程而設計技術。
    這門4天的課程涵蓋了為MapReduce程式修復漏洞和最佳化效能所需的高階技巧。
    程式設計師課程也引入了Apache生態專案比如Hive、Pig、HBase、Flume和Oozie。
    在完成課程後，學員被鼓勵參加Cloudera認證Apache Hadoop程式設計師（CCDH）考試。
    【課程內容】
    1、MapReduce與HDFS核心知識以及如何編寫MapReduce程式
    2、Hadoop開發的最佳實踐，除錯、實現工作流及通用演算法
    3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的元件
    4、按需定製WritableComparables與InputFormats處理複雜的資料型別
    5、利用MapReduce編寫、執行連線操作以整合不同資料集合
    6、用於現實世界資料分析所需的高階HadoopAPI主題
    7、用Java寫MapReduce程式，用Streaming寫MapReduce程式
    8、除錯MapReduce程式碼的策略，利用localjobrunner在本地測試MapReduce程式碼
    9、Partitioners和Reducers如何一起工作,定製化Partitioners
    10、定製Writable和WritableComparable
    11、用SequenceFile和Avro資料檔案儲存二進位制資料
    【學員基礎】
    該課程適合具有一定程式設計經驗的程式開發人員。由於課程中需要完成Hadoop相關程式設計練習，熟悉Java者優先
    【授課形式】

    案例教學+上機實踐

3、【Cloudera Apache HBase課程】（透過考試可頒發CCSHB全球認證證照）

    課時：4天
    學習如何將HBase作為一個分散式的資料儲存以實現低延遲的查詢和高擴充套件的吞吐。
    這4天的課程涵蓋了HBase架構、資料模型、Java API及其他高階課題和最佳實踐。
    完成該課程後，學員被鼓勵參加cloudera認證Apache HBase專家（CCSHB）考試來驗證和認證其Hadoop經驗。

    【課程內容】
    1、什麼是HBase、為什麼要用HBase，HBase和RDBMS，HBase的給予和索取
    2、HBase系統管理API，HBase Shell、建立表、HBase Java API、系統管理呼叫
    3、透過HBase API訪問資料，API的使用、資料檢索、在shell新增和更新資料、刪除資料
    4、用API新增、更新資料，Scan API、高階API技術、使用Eclipse
    5、叢集元件、HBase如何擴充套件，HBase寫路徑、讀路徑，壓縮和拆分
    6、HBase的安裝、配置及其安全性
    7、HBase daemnon、ZooKeeper、HBase系統管理
    8、複製、備份、MapeRduce和HBase叢集
    9、HBase裡RowKey設計，從關聯式資料庫到HBase表結構設計，以應用為中心的設計
    10、列族、表結構設計的考慮點、熱點處理
    11、HBase生態系統：OpenTSDB、Kiji、HBase和hive

    【學員基礎】
    該課程適合需要使用HBase的開發員和管理員。
    預備的資料庫和資料建模的經驗有幫助，但不是必須的。
    預備的Java知識有幫助，Hadoop經驗不是必須的，
    但是cloudera的Apache Hadoop開發培訓課是個絕佳的基礎。

    【授課形式】
    案例教學+上機實踐

4、【Cloudera 資料分析課程】

    課時：3天
    針對任何需要在Hadoop上實時地透過SQL和熟悉的指令碼來管理、操縱和查詢大型複雜資料的人。
    學習Apache Pig、Apache Hive和Cloudera Impala如何透過過濾聯接和其他使用者自定義的功能
    來支援資料的轉型和分析。

    【課程內容】
    1、Hadoop生態圈、實驗場景介紹、用Hadoop工具匯入資料
    2、pig的特性、使用案例、和pig互動、pig Latin語法、Field定義、用pig執行ETL流程
    3、pig處理複雜資料，複雜/nested巢狀的資料型別、用pig分析廣告戰役的資料
    4、pig的多資料組操作，pig連結多資料組、用pig分析離散的資料組
    5、用流處理和UDFs擴充套件pig，Macros和Imports、contributed functions，用其他語言和pig一起處理資料
    6、pig故障排查和最佳化，用web介面排查一個故障的任務、Data取樣和故障排查、理解執行計劃、提高pig任務效能
    7、hive表結構和資料儲存、對比hive和傳統資料庫、hive vs.pig、hive使用案例
    8、hive的關係資料分析、資料管理、文字處理、最佳化及擴充套件，在shell、指令碼和hue上執行hive查詢
    9、impala和hive、pig、關聯式資料庫的不同、使用impala shell
    10、取樣impala分析資料，過濾、排序and limiting results，提升impala效能，impala的互動式分析
    11、對比map reduce、pig、hive、impala和關聯式資料庫

    【學員基礎】
    該課程適合有SQL經驗和基本UNIX和Linux命令的資料分析師、業務分析師和管理員
    事先無需Java和Apache Hadoop的經驗

    【授課形式】
    案例教學+上機實踐

5、【Designing and Building Big Data Applications】（資料建模）

    課時：4天
    學習運用Apache Hadoop和企業資料樞紐中的關聯工具來分析和解決實際問題，
    你會遍歷其設計和建立的整個過程，包括資料匯入，決定恰當的檔案格式來儲存，
    處理預存的資料，及用一個容易理解消化的形式向終端使用者呈現結果。
    這門4天的課程面向那些需要研發高度業務相關的應用的資料家。

    【課程內容】
    1、定義使用Data Sets,Metadata管理、Apache Avro、Avro Schemas演變
    2、什麼是the Kite SDK ,Fundamental Data Module基礎概念Concepts，用Kite SDK建立新資料組
    3、用Apache Sqoop輸入關係資料，基本輸入、限制結果、提升Sqoop效能、Sqoop 2
    4、用Apache Flume捕獲資料，Flume自定義組開發、使用Flume自定義攔截器寫Avro物件
    5、採用Apache Oozie管理工作流，定義Oozie工作流，驗證、封包、部署，Oozie的Hue使用者介面
    6、用Apache Crunch處理資料管道，對比Crunch和Java mapreduce，應用Crunch projects，Crunch API的工具分級
    7、使用Apache Hive裡的表格，Basic Query Syntax,在Hive裡採用RegexSerDe
    8、開發使用者定義功能，實現一個使用者定義功能，用Impala執行互動式查詢，資料和後設資料管理
    9、理解Cloudera Search，Search架構、支援的檔案格式
    10、用Cloudera Search建立索引，Collection and Schema Management，Morphlines
    11、Solr Query Sybtax,採用Hue建立搜尋UI，透過JDBC訪問Impala,用Impala和Search增強定製的web應用

    【學員基礎】
    該課程最適合需要使用Hadoop及其相關工具來解決現實問題的程式設計師、工程師和架構師。
    學員應該預先參加過cloudera的Apache Hadoop程式設計師培訓或有相當的實踐經驗。
    需要良好的Java知識，熟悉Linux。SQL經驗會有幫助。

    【授課形式】
    案例教學+上機實踐

6、【Cloudera Introduction to Data Science】(資料科學家)

    課時：3天
    資料科學家建立資訊平臺來提出和回答以前不敢想象的問題。
    學習資料學如何幫助公司降低成本，提升利潤，改進產品，留住客戶和發現新機會。
    這門3天的課程姜幫助學員理解資料科學家做什麼，他們解決什麼問題，
    在不同的行業裡他們解決實際問題的方法。

    【課程內容】
    1、使用案例：金融、零售、廣告業、電信和公用事業、醫療和藥品
    2、專案週期裡的步伐、實驗場景介紹
    3、資料採集：資料來源、採集技術
    4、評估輸入資料：資料格式、資料質量、資料數量
    5、資料轉型：匿名化、檔案格式轉換、聯結資料組
    6、資料分析和統計模式：統計與機率的關係、描述性統計、統計推斷
    7、機械學習基礎：機械學習的3C、Naive Bayes分類器、資料和演算法的重要性
    8、推薦系統簡介：什麼是決策系統、協同過濾的型別、推薦系統的侷限
    9、Apache Mahout是什麼（不是什麼），可用性和安裝、使用Mahout基於條目的推薦系統
    10、用Apache Mahout實現推薦系統：二值、數值偏好的相似性度量，打分
    11、實驗和評估、產品部署及更多

    【學員基礎】
    該課程適合有Apache Hadoop基本知識如HDFS、
    MapReduce、Hadoop Streaming和Apache Hive的開發人員、資料分析師和統計師。
    學員應熟練指令碼語言：建議熟練Python，而Perl或ruby只需熟悉即可。

    【授課形式】
    案例教學+上機實踐

7、【Cloudera Apache Spark程式設計師課程】

    課時：3天
    採用Apache Spark來建立整合了批處理，流計算和互動式分析的完整，統一的大資料應用。
    學習編寫複雜的並行應用來履行更快的商業決策和更好的使用者產出，並將其應用到廣泛的應用場景，架構和行業。
    這門3天的課程針對那些希望在應用的速度，易用性和高階分析方面進行最佳化的程式設計師和軟體工程師。

    【課程內容】
    1、用Spark shell執行互動式資料分析
    2、Spark的彈性分散式資料集（Resilient Distributed Datasets）的特性
    3、Spark怎樣執行在一個叢集上（一個獨立的Spark叢集）
    4、Spark的並行程式設計、編寫Spark應用、用Spark處理流資料
    5、RDD Partitions和HDFS資料區域性性、使用Partitions、並行操作
    6、Spark應用對比Spark shell、建立Spark context、配置Spark shell屬性
    7、Spark Streaming簡介、開發Spark Streaming應用
    8、Streaming的Word Count、其他Streaming操作、滑動視窗操作
    9、Spark、Hadoop和企業資料樞紐（EDH）
    10、Spark和Hadoop生態圈、Spark和MapReduce
    11、Caching and Persistence（RDD溯源、Caching快取簡介、分散式持久化機制）

    【學員基礎】
    該課程適合具有一定程式設計經驗的程式開發人員，課程樣例和練習涉及到Python和Scala語言。
    需要Linux的基本知識，事先無需Hadoop經驗。

    【授課形式】
    案例教學+上機實踐

Cloudera hadoop認證總結

相關文章