關於Apache Hadoop的常見問題解答

TechTarget發表於2013-10-11

  過去幾年來,開源技術 Apache Hadoop 在 BI 和資料倉儲專業人士當中已經變得相當流行。在本篇教程中,我們將通過回答一些關於 Hadoop 的常見問題來解釋它的概念。

 

  什麼是 Apache Hadoop?

  Apache Hadoop 是一款免費的,基於 Java 的程式設計框架,專為分散式計算環境下的超大資料量並行處理而設計。Hadoop 支援以容錯方式擴充套件,可以從一臺計算機擴充套件到數千臺。這種擴充套件性意味著處理叢集中的個體計算機可以是比較廉價的,而叢集本身也很有彈性。有了 Hadoop,應用程式可以在成千上萬個處理節點上處理 PB 級的資料量。

  誰為 Hadoop 提供支援和資金呢?

  Hadoop 是 Apache 軟體基金會的專案之一。為 Hadoop 專案提供主要貢獻的是來自全球的開發者們。Hadoop 子專案由世界上最大的網際網路公司支援,包括 Facebook 和雅虎。

  為什麼 Hadoop 會如此流行?

  Hadoop 之所以流行,部分原因是因為世界上最大的網際網路企業都在用它來分析非結構化資料,這是不爭的事實。Hadoop 支援分散式應用處理數千 EB 的資料。

  Hadoop 適用於哪些業務場景?

  Hadoop 作為一款並行資料處理可擴充套件系統,對於分析大資料集非常有用。例如:搜尋演算法,市場風險分析,網上零售資料探勘,使用者行為分析。Hadoop 的擴充套件性對企業很有吸引力,因為他們處理的資料都有指數級增長的特性。Hadoop 的另一個核心競爭力是它可以處理結構化資料和非結構化資料,支援各種資料來源。

  企業選擇 Hadoop 有何挑戰?

  1. 對許多企業來說,Hadoop 框架很有吸引力,因為它給企業提供了分析資料的能力,不管資料量有多大。然而,不是所有企業都擁有專業能力來進行分析併產生商業價值的。

  2. 擴充套件和優化的 Hadoop 計算叢集涉及大量程式設計工作,這對資料分析開發人員來說可能會有一定的障礙。

  3. Hadoop 的設計原本並不具備太多安全功能,而這一點對於敏感企業資料通常也是必須要求的。

  4. 其它問題還包括與現存資料庫和應用的整合,並且缺乏全行業範圍內的最佳實踐。

  Hadoop 發展歷程是怎樣的呢?

  Hadoop 原本來自於谷歌一款名為 MapReduce 的程式設計模型包。谷歌的 MapReduce 框架可以把一個應用程式分解為許多平行計算指令,跨大量的計算節點執行非常巨大的資料集。使用該框架的一個典型例子就是在網路資料上執行的搜尋演算法。

  Hadoop 最初只與網頁索引有關,迅速發展成為分析大資料的領先平臺。Cloudera 是一家企業軟體公司,該公司在 2008 年開始提供基於 Hadoop 的軟體和服務。

  GoGrid 是一家雲端計算基礎設施公司,在 2012 年,該公司與 Cloudera 合作加速了企業採納基於 Hadoop應用的步伐。Dataguise 公司是一家資料安全公司,同樣在 2012 年該公司推出了一款針對 Hadoop 的資料保護和風險評估。

  Apache Hadoop 配套專案

  Apache 軟體基金會維護著 Hadoop 的幾個配套專案:

  Apache Cassandra 是一款為大資料量場景設計的資料庫管理系統。它的關鍵特性是容錯、擴容、Hadoop整合性和複製支援。

  Hbase 是非關係型的支援容錯的分散式資料庫,專為儲存大量稀疏資料而設計。

  Hive 是為 Hadoop 設計的資料倉儲系統,支援簡單資料彙總。

  Apache Pig 由建立資料分析程式的高階語言組成,還包括評估那些應用程式的基礎。

  Apache ZooKeeper 是用於分散式應用的一款集中服務。它維護配置資訊,並提供命名註冊、分散式同步和組服務。

  Chukwa 是一個資料收集系統,可以監控大型分散式系統,包括分析結果的一個工具包。

  Apache Mahout 專案的目的是生成豐富的實現,在 Hadoop 平臺,可擴充套件的機器學習演算法。

相關文章