Hadoop

百科名片

Hadoop示意圖

一個分散式系統基礎架構，由Apache基金會開發。使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。充分利用叢集的威力高速運算和儲存。Hadoop實現了一個分散式檔案系統（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上。而且它提供高傳輸率（high throughput）來訪問應用程式的資料，適合那些有著超大資料集（large data set）的應用程式。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問（streaming access）檔案系統中的資料。

Hadoop名字的起源

展開

Hadoop名字的起源

　　Hadoop這個名字不是一個縮寫，它是一個虛構的名字。該專案的建立者，Doug Cutting如此解釋Hadoop的得名：“這個名字是我孩子給一個棕黃色的大象樣子的填充玩具命名的。我的命名標準就是簡短，容易發音和拼寫，沒有太多的意義，並且不會被用於別處。小孩子是這方面的高手。”[Hadoop: The Definitive Guide]

hadoop起源

　　Hadoop 由 Apache Software Foundation 公司於 2005 年秋天作為 Lucene的子

hadoop logo

專案 Nutch的一部分正式引入。它受到最先由 Google Lab 開發的 Map/Reduce 和 Google File System(GFS) 的啟發。2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的專案中。

　　Hadoop 是最受歡迎的在 Internet 上對搜尋關鍵字進行內容分類的工具，但它也可以解決許多要求極大伸縮性的問題。例如，如果您要 grep 一個 10TB 的巨型檔案，會出現什麼情況？在傳統的系統上，這將需要很長的時間。但是 Hadoop 在設計時就考慮到這些問題，採用並行執行機制，因此能大大提高效率。

諸多優點

　　Hadoop 是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設計算元素和儲存會失敗，因此它維護多個工作資料副本，確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的，因為它以並行的方式工作，透過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級資料。此外，Hadoop 依賴於社群伺服器，因此它的成本比較低，任何人都可以使用。

　　Hadoop是一個能夠讓使用者輕鬆架構和使用的分散式計算平臺。使用者可以輕鬆地在Hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點：

　　⒈高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴；

　　⒉高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的，這些集簇可以方便地擴充套件到數以千計的節點中。

　　⒊高效性。Hadoop能夠在節點之間動態地移動資料，並保證各個節點的動態平衡，因此處理速度非常快。

　　⒋高容錯性。Hadoop能夠自動儲存資料的多個副本，並且能夠自動將失敗的任務重新分配。

　　Hadoop帶有用 Java 語言編寫的框架，因此執行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫，比如 C++。

hadoop架構

　　Hadoop 有許多元素構成。其最底部是 Hadoop Distributed File Syst

Hadoop 叢集的簡化檢視

em（HDFS），它儲存 Hadoop 叢集中所有儲存節點上的檔案。HDFS（對於本文）的上一層是 MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成。

HDFS

　　對外部客戶機而言，HDFS 就像一個傳統的分級檔案系統。可以建立、刪除、移動或重新命名檔案，等等。但是 HDFS 的架構是基於一組特定的節點構建的（參見圖 1），這是由它自身的特點決定的。這些節點包括 NameNode（僅一個），它在 HDFS 內部提供後設資料服務；DataNode，它為 HDFS 提供儲存塊。由於僅存在一個 NameNode，因此這是 HDFS 的一個缺點（單點失敗）。

　　儲存在 HDFS 中的檔案被分成塊，然後將這些塊複製到多個計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大小（通常為 64MB）和複製的塊數量在建立檔案時由客戶機決定。NameNode 可以控制所有檔案操作。HDFS 內部的所有通訊都基於標準的 TCP/IP 協議。

NameNode

　　NameNode 是一個通常在 HDFS 例項中的單獨機器上執行的軟體。它負責管理檔案系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將檔案對映到 DataNode 上的複製塊上。對於最常見的 3 個複製塊，第一個複製塊儲存在同一機架的不同節點上，最後一個複製塊儲存在不同機架的某個節點上。注意，這裡需要您瞭解叢集架構。

　　實際的 I/O 事務並沒有經過 NameNode，只有表示 DataNode 和塊的檔案對映的後設資料經過 NameNode。當外部客戶機傳送請求要求建立檔案時，NameNode 會以塊標識和該塊的第一個副本的 DataNode IP 地址作為響應。這個 NameNode 還會通知其他將要接收該塊的副本的 DataNode。

　　NameNode 在一個稱為 FsImage 的檔案中儲存所有關於檔案系統名稱空間的資訊。這個檔案和一個包含所有事務的記錄檔案（這裡是 EditLog）將儲存在 NameNode 的本地檔案系統上。FsImage 和 EditLog 檔案也需要複製副本，以防檔案損壞或 NameNode 系統丟失。

DataNode

　　DataNode 也是一個通常在 HDFS 例項中的單獨機器上執行的軟體。Hadoop 叢集包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織，機架透過一個交換機將所有系統連線起來。Hadoop 的一個假設是：機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。

　　DataNode 響應來自 HDFS 客戶機的讀寫請求。它們還響應建立、刪除和複製來自 NameNode 的塊的命令。NameNode 依賴來自每個 DataNode 的定期心跳（heartbeat）訊息。每條訊息都包含一個塊報告，NameNode 可以根據這個報告驗證塊對映和其他檔案系統後設資料。如果 DataNode 不能傳送心跳訊息，NameNode 將採取修復措施，重新複製在該節點上丟失的塊。

檔案操作

　　可見，HDFS 並不是一個萬能的檔案系統。它的主要目的是支援以流的形式訪問寫入的大型檔案。如果客戶機想將檔案寫到 HDFS 上，首先需要將該檔案快取到本地的臨時儲存。如果快取的資料大於所需的 HDFS 塊大小，建立檔案的請求將傳送給 NameNode。NameNode 將以 DataNode 標識和目標塊響應客戶機。同時也通知將要儲存檔案塊副本的 DataNode。當客戶機開始將臨時檔案傳送給第一個 DataNode 時，將立即透過管道方式將塊內容轉發給副本 DataNode。客戶機也負責建立儲存在相同 HDFS 名稱空間中的校驗和（checksum）檔案。在最後的檔案塊傳送之後，NameNode 將檔案建立提交到它的持久化元資料儲存（在 EditLog 和 FsImage 檔案）。

Linux 叢集

　　Hadoop 框架可在單一的 Linux 平臺上使用（開發和除錯時），但是使用存放在機架上的商業伺服器才能發揮它的力量。這些機架組成一個 Hadoop 叢集。它透過叢集拓撲知識決定如何在整個叢集中分配作業和檔案。Hadoop 假定節點可能失敗，因此採用本機方法處理單個計算機甚至所有機架的失敗。

叢集系統

　　Google的資料中心使用廉價的Linux PC機組成叢集，在上面執行各種應用。即使是分散式開發的新手也可以迅速使用Google的基礎設施。核心元件是3個：

　　⒈GFS（Google File System）。一個分散式檔案系統，隱藏下層負載均衡，冗餘複製等細節，對上層程式提供一個統一的檔案系統API介面。Google根據自己的需求對它進行了特別最佳化，包括：超大檔案的訪問，讀操作比例遠超過寫操作，PC機極易發生故障造成節點失效等。GFS把檔案分成64MB的塊，分佈在叢集的機器上，使用Linux的檔案系統存放。同時每塊檔案至少有3份以上的冗餘。中心是一個Master節點，根據檔案索引，找尋檔案塊。詳見Google的工程師釋出的GFS論文。

　　⒉MapReduce。Google發現大多數分散式運算可以抽象為MapReduce操作。Map是把輸入Input分解成中間的Key/Value對，Reduce把Key/Value合成最終輸出Output。這兩個函式由程式設計師提供給系統，下層設施把Map和Reduce操作分佈在叢集上執行，並把結果儲存在GFS上。

　　⒊BigTable。一個大型的分散式資料庫，這個資料庫不是關係式的資料庫。像它的名字一樣，就是一個巨大的表格，用來儲存結構化的資料。

　　以上三個設施Google均有論文發表。

應用程式

　　Hadoop 的最常見用法之一是 Web 搜尋。雖然它不是惟一的軟體框架應用程式，但作為一個並行資料處理引擎，它的表現非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程，它受到 Google開發的啟發。這個流程稱為建立索引，它將 Web 爬行器檢索到的文字 Web 頁面作為輸入，並且將這些頁面上的單詞的頻率報告作為結果。然後可以在整個 Web 搜尋過程中使用這個結果從已定義的搜尋引數中識別內容。

　　MapReduce　　

　最簡單的 MapReduce 應用程式至少包含 3 個部分：一個 Map 函式、一個 Reduce 函式和一個 main 函式。main 函式將作業控制和檔案輸入/輸出結合起來。在這點上，Hadoop 提供了大量的介面和抽象類，從而為 Hadoop 應用程式開發人員提供許多工具，可用於除錯和效能度量等。

　　MapReduce 本身就是用於並行處理大資料集的軟體框架。MapReduce 的根源是函式性程式設計中的 map 和 reduce 函式。它由兩個可能包含有許多例項（許多 Map 和 Reduce）的操作組成。Map 函式接受一組資料並將其轉換為一個鍵/值對列表，輸入域中的每個元素對應一個鍵/值對。Reduce 函式接受 Map 函式生成的列表，然後根據它們的鍵（為每個鍵生成一個鍵/值對）縮小鍵/值對列表。

　　這裡提供一個示例，幫助您理解它。假設輸入域是 one small step for man,one giant leap for mankind。在這個域上執行 Map 函式將得出以下的鍵/值對列表：

　　（one,1） (small,1） (step,1） (for,1） (man,1）

MapReduce 流程的概念流

(one,1） (giant,1） (leap,1） (for,1） (mankind,1）

　　如果對這個鍵/值對列表應用 Reduce 函式，將得到以下一組鍵/值對：

　　（one,2） (small,1） (step,1） (for,2） (man,1）（giant,1） (leap,1） (mankind,1）

　　結果是對輸入域中的單詞進行計數，這無疑對處理索引十分有用。但是，現在假

顯示處理和儲存的物理分佈的 Hadoop 叢集

設有兩個輸入域，第一個是 one small step for man，第二個是 one giant leap for mankind。您可以在每個域上執行 Map 函式和 Reduce 函式，然後將這兩個鍵/值對列表應用到另一個 Reduce 函式，這時得到與前面一樣的結果。換句話說，可以在輸入域並行使用相同的操作，得到的結果是一樣的，但速度更快。這便是 MapReduce 的威力；它的並行功能可在任意數量的系統上使用。圖 2 以區段和迭代的形式演示這種思想。

　　現在回到 Hadoop 上，它是如何實現這個功能的？一個代表客戶機在單個主系統上啟動的 MapReduce 應用程式稱為 JobTracker。類似於 NameNode，它是 Hadoop 叢集中惟一負責控制 MapReduce 應用程式的系統。在應用程式提交之後，將提供包含在 HDFS 中的輸入和輸出目錄。JobTracker 使用檔案塊資訊（物理量和位置）確定如何建立其他 TaskTracker 從屬任務。MapReduce 應用程式被複制到每個出現輸入檔案塊的節點。將為特定節點上的每個檔案塊建立一個惟一的從屬任務。每個 TaskTracker 將狀態和完成資訊報告給 JobTracker。圖 3 顯示一個示例叢集中的工作分佈。

　　Hadoop 的這個特點非常重要，因為它並沒有將儲存移動到某個位置以供處理，而是將處理移動到儲存。這透過根據叢集中的節點數調節處理，因此支援高效的資料處理。

開源實現

　　Hadoop是專案的總稱，起源於作者兒子的一隻玩具大象的名字。主要是由HDFS、MapReduce和Hbase組成。

　　HDFS是Google File System（GFS）的開源實現。

　　MapReduce是Google MapReduce的開源實現。

　　HBase是Google BigTable的開源實現。

　　這個分散式框架很有創造性，而且有極大的擴充套件性，使得Google在系統吞吐量上有很大的競爭力。因此Apache基金會用Java實現了一個開源版本，支援Fedora、Ubuntu等Linux平臺。雅虎和矽谷風險投資公司Benchmark Capital 6月28日聯合宣佈，他們將聯合成立一家名為Hortonworks的新公司，接管被廣泛應用的資料分析軟體Hadoop的開發工作。

　　Hadoop實現了HDFS檔案系統和MapRecue。使用者只要繼承MapReduceBase，提供分別實現Map和Reduce的兩個類，並註冊Job即可自動分散式執行。

　　目前Release版本是0.20.205.0。還不成熟，但是已經叢集規模已經可以達到4000個節點，是在Yahoo！實驗室中構建的。下面是此叢集的相關資料：

　　· 4000 節點

　　· 2 x quad core Xeons@2.5ghz per 節點

　　· 4 x 1TB SATA Disk per 節點

　　· 8G RAM per 節點

　　· 千兆頻寬 per 節點

　　· 每機架有40個節點

　　· 每個機架有4千兆乙太網上行鏈路

　　· Redhat Linux AS4 （Nahant update 5）

　　· Sun Java JDK1.6.0_05 - b13

　　· 所以整個叢集有30000多個CPU，近16PB的磁碟空間！

　　HDFS把節點分成兩類：NameNode和DataNode。NameNode是唯一的，程式與之通訊，然後從DataNode上存取檔案。這些操作是透明的，與普通的檔案系統API沒有區別。

　　MapReduce則是JobTracker節點為主，分配工作以及負責和使用者程式通訊。

　　HDFS和MapReduce實現是完全分離的，並不是沒有HDFS就不能MapReduce運算。

　　Hadoop也跟其他雲端計算專案有共同點和目標：實現海量資料的計算。而進行海量計算需要一個穩定的，安全的資料容器，才有了Hadoop分散式檔案系統（HDFS，Hadoop Distributed File System）。

　　HDFS通訊部分使用org.apache.hadoop.ipc，可以很快使用RPC.Server.start()構造一個節點，具體業務功能還需自己實現。針對HDFS的業務則為資料流的讀寫，NameNode/DataNode的通訊等。

　　MapReduce主要在org.apache.hadoop.mapred，實現提供的介面類，並完成節點通訊（可以不是hadoop通訊介面），就能進行MapReduce運算。

　　目前這個專案還在進行中，還沒有到達1.0版本，和Google系統的差距也非常大，但是進步非常快，值得關注。

　　另外，這是雲端計算（Cloud Computing）的初級階段的實現，是通向未來的橋樑。

　　Hadoop的發音音標 [hædu:p]

Hadoop主要子專案

　　Hadoop Common: 在0.20及以前的版本中，包含HDFS、MapReduce和其他專案公共內容，從0.21開始HDFS和MapReduce被分離為獨立的子專案，其餘內容為Hadoop Common

　　HDFS: Hadoop 分散式檔案系統 (Distributed File System) － HDFS (Hadoop Distributed File System)

　　MapReduce：平行計算框架，0.20前使用 org.apache.hadoop.mapred 舊介面，0.20版本開始引入org.apache.hadoop.mapreduce的新API

　　HBase: 類似Google BigTable的分散式NoSQL列資料庫。（HBase 和 Avro 已經於2010年5月成為頂級 Apache 專案）

　　Hive：資料倉儲工具，由Facebook貢獻。

　　Zookeeper：分散式鎖設施，提供類似Google Chubby的功能，由Facebook貢獻。

　　Avro：新的資料序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。

Hadoop研究

　　Hadoop是原Yahoo的Doug Cutting根據Google釋出的學術論文研究而來。Doug Cutting給這個Project起了個名字，就叫Hadoop。其實Hadoop也是Doug Cutting的孩子的玩具的名字，一個可愛的黃色小象。

　　現在，Doug Cutting在Cloudera公司。Cloudera的Hadoop是商用版。不同於Apache的開源版。

　　如果要研究Hadoop的話，在下載Apache的版本是一種不錯的選擇。

　　只研究Apache版本的，不足以對Hadoop的理念理解。再對Cloudera版本的研究，會更上一層樓。

　　現在美國的AsterData，也是Hadoop的一個商用版，AsterData的MPP理念，Applications Within理念等等，

　　也都是值得研究。

　　Google的成功已經說明了RDB的下一代就是Nosql（Not Only SQL），比如說GFS，Hadoop等等。

　　Hadoop作為開源的版本來說，其魅力更是不可估量。

　　上文中說到Google的學術論文，其中包涵有：

　　Google File System（大規模分散檔案系統）

　　MapReduce （大規模分散FrameWork）

　　BigTable（大規模分散資料庫）

　　Chubby（分散鎖服務）

　　這四大InfrastructureSoftware的陳述。

　　說起Google的GFS和Hadoop，不僅讓我想起了，Unix和Linux。

　　由Unix而來的開源Linux，現在更是家喻戶曉了。很多大型公司都啟用Linux作為伺服器。

　　相信不久的將來，Hadoop會像Linux一樣，席捲全球，惠及全球。

Hadoop大事記

　　2012年7月童小軍開始編寫EasyHadoop 實戰操作手冊，為Hadoop零基礎入門讀物。

　　2012年5月2日--來自北京暴風科技股份有限公司（暴風影音）的童小軍透過認證考試，成為首位在國內完成培訓並獲得美國Cloudera公司認證的Apache Hadoop開發工程師（Cloudera Certified Developer for Apache Hadoop ，CCDH）。

　　2012年5月 EasyHadoop開源社群推出hadoop的資料倉儲增強版本EsayHive，解決了Hive倉庫視覺化操作問題。

　　2012年4月 EasyHadoop開源社群推出第一個hadoop漢化版本

　　2012年3月 EasyHadoop開源社群推出第一個easyhadoop視覺化介面版本

　　2012年2月25日- 至今持續建設EasyHadoop開源社群行業技術論壇，帶領團隊成功組織五次Hadoop技術分享活動，分享Hadoop使用技能。活動受到來自百度、騰訊、新浪、阿里巴巴、藍訊等的上百位Hadoop工程師廣泛參與和支援。

　　2012年1月18日 EasyHadoop推出EasyHadoop快速安裝指令碼，大大簡化Apache 社群Hadoop版本的安裝和部署工作。

　　2012年1月7日暴風影音的童小軍聯合一群hadoop的愛好者，開始建設EasyHadoop開源社群，並在國內普及Hadoop技術應用，致力於讓Hadoop大資料分析更簡單。

　　2011年12月-- Apache Hadoop技術領導者Cloudera公司授予深圳市易思博資訊科技有限公司為Apache Hadoop中國區培訓合作伙伴，Apache Hadoop技術授權培訓認證正式進入中國。

　　2009年4月-- 贏得每分鐘排序，59秒內排序500 GB（在1400個節點上）和173分鐘內排序100 TB資料（在3400個節點上）。

　　2009年3月-- 17個叢集總共24 000臺機器。

　　2008年10月-- 研究叢集每天裝載10 TB的資料。

　　2008年4月-- 贏得世界最快1 TB資料排序在900個節點上用時209秒。

　　2007年4月-- 研究叢集達到兩個1000個節點的叢集。

　　2007年1月-- 研究叢集到達900個節點。

　　2006年12月-- 標準排序在20個節點上執行1.8個小時，100個節點3.3小時，500個節點5.2小時，900個節點7.8個小時。　

　　2006年11月-- 研究叢集增加到600個節點。

　　2006年5月-- 標準排序在500個節點上執行42個小時（硬體配置比4月的更好）。

　　2006年5月-- 雅虎建立了一個300個節點的Hadoop研究叢集。

　　2006年4月-- 標準排序（10 GB每個節點）在188個節點上執行47.9個小時。

　　2006年2月-- 雅虎的網格計算團隊採用Hadoop。

　　2006年2月-- Apache Hadoop專案正式啟動以支援MapReduce和HDFS的獨立發展。

　　2006年1月-- Doug Cutting加入雅虎。

　　2005年12月-- Nutch移植到新的框架，Hadoop在20個節點上穩定執行。

　　2004年-- 最初的版本（現在稱為HDFS和MapReduce）由Doug Cutting和Mike Cafarella開始實施。

Hadoop在中國

Apache Hadoop授權培訓證照

　　Cloudera公司位於美國矽谷，是全球第一也是最大一家投身於Hadoop開源軟體開發和釋出免費Hadoop安裝包的軟體公司。同時，Cloudera公司還為大中小型企業提供一系列最具權威性的、基於Hadoop的新型資料平臺和服務，涵蓋金融，醫療健康，數字媒體，廣告，網路和電信等各行各業。目前，網際網路正從資料爆炸進一步發展到海量資料分析和挖掘的時代，為適應這一發展需求，Cloudera公司基於Hadoop的解決方案為海量資料儲存和處理提供了經濟、高效、高安全性和高可靠性的保障，必將為中國企業邁進海量資料分析和挖掘時代的大門提供金鑰匙。

　　2011年12月，Cloudera公司授予深圳市易思博資訊科技有限公司為Apache Hadoop中國區培訓合作伙伴，Apache Hadoop技術授權培訓認證正式進入中國。

　　深圳市易思博資訊科技有限公司是中國一家領先的軟體專案實訓服務供應商。12年來，公司不斷為高校和企業提供全面的軟體教育解決方案，專案領域涉及電信、金融、電子商務等。公司總部設在深圳，在印度普那和中國設有多個分公司，擁有超過180名軟體開發和系統諮詢專家，以及超過35位專案經理。

　　有關深圳市易思博資訊科技有限公司的Apache Hadoop授權培訓方面的資訊，可以參閱Cloudera公司的官方網站。

　　2012年1月7日，首位在國內獲得美國Cloudera公司認證的Apache Hadoop開發工程師童小軍，聯合一群hadoop開發愛好者成立Easyhadoop開源社群，並在國內普及Hadoop技術應用，致力於讓Hadoop大資料分析更簡單。

EasyHadoop開源社群

　　EasyHadoop開源社群讓hadoop更易用、更easy ！　

　　Easyhadoop開源社群^[1]由國內第一個獲得美國Cloudera公司認證的Apache Hadoop開發工程師童小軍發起建立，匯聚了一群來自各大公司的一線hadoop開發愛好者，如百度、阿里、暴風、藍訊、淘寶、人民搜尋、隨視、億贊普、福祿克等公司。

　　EasyHadoop是國內最早專注於Hadoop開發、應用、推廣的機構組織，提供hadoop大資料解決方案、培訓、諮詢，推出的EasyHadoop版本更易於開發，功能更強大。

　　2012年1月7日開始建設EasyHadoop開源社群，並在國內普及Hadoop技術應用，致力於讓Hadoop大資料分析更簡單。

　　2012年1月18日推出EasyHadoop快速安裝指令碼，大大簡化Apache 社群Hadoop版本的安裝和部署工作。

　　2012年2月25日- 至今持續建設EasyHadoop開源社群行業技術論壇，帶領團隊成功組織五次Hadoop技術分享活動，分享Hadoop使用技能。活動受到來自百度、騰訊、新浪、阿里巴巴、藍訊等的上百位Hadoop工程師廣泛參與和支援。

　　2012年7月開始編寫EasyHadoop 實戰操作手冊，為Hadoop零基礎入門讀物。

　　EasyHadoop專注於hadoop的研發、應用和普及，獲得了眾多的第一：

　　國內第一個推出hadoop的資料倉儲增強版本EsayHive，解決了Hive倉庫視覺化操作問題。

　　國內第一個推出hadoop漢化版本

　　國內第一個推出hadoop視覺化介面版本

　　國內第一個推出EasyHadoop開源版本

　　國內第一個推出Hadoop一鍵安裝指令碼軟體

　　國內最早推出hadoop開發者技術講座

　　國內第一批專注Hadoop培訓的專業講師

　　國內第一個專注hadoop開放的社會開源軟體組織

　　國內第一個專注hadoop的開發者社群網站

　　國內最大規模的hadoop開發者QQ群，幾乎匯聚國內各大公司做hadoop一線開發的工程師

Hadoop認證

　　Cloudera公司目前主要提供Apache Hadoop開發工程師認證（Cloudera CertifiedDeveloper for Apache Hadoop ，CCDH）和Apache Hadoop管理工程師認證（Cloudera CertifiedAdministrator for Apache Hadoop ，CCAH），更多相關資訊，請參閱Cloudera公司官方網站。

　　在中國，Apache Hadoop開發工程師認證（Cloudera CertifiedDeveloper for Apache Hadoop ，CCDH）和Apache Hadoop管理工程師認證（Cloudera CertifiedAdministrator for Apache Hadoop ，CCAH）主要由Cloudera公司透過授權培訓合作伙伴深圳市易思博資訊科技有限公司提供，認證考試透過，將獲得Cloudera公司總部頒發的認證證照。

　　2012年5月2日，深圳市易思博資訊科技有限公司舉辦的國內首屆美國Cloudera公司授權Apache Hadoop開發工程師培訓班在北京順利結業，來自北京暴風科技股份有限公司（暴風影音）的童小軍率先透過認證考試，成為首位在國內完成培訓並獲得美國Cloudera公司認證的Apache Hadoop開發工程師（Cloudera Certified Developer for Apache Hadoop ，CCDH）。

　　更多有關Apache Hadoop認證方面的資訊，可以參閱深圳市易思博資訊科技有限公司Apache Hadoop培訓網站——軟酷網。

[@more@]

分散式平臺

Hadoop

百科名片

Hadoop名字的起源

hadoop起源

諸多優點

hadoop架構

HDFS

NameNode

DataNode

檔案操作

Linux 叢集

叢集系統

應用程式

開源實現

Hadoop主要子專案

Hadoop研究

Hadoop大事記

Hadoop在中國

EasyHadoop開源社群

Hadoop認證

相關文章