關於Apache Hadoop的常見問題解答
過去幾年來,開源技術 Apache Hadoop 在 BI 和資料倉儲專業人士當中已經變得相當流行。在本篇教程中,我們將通過回答一些關於 Hadoop 的常見問題來解釋它的概念。
什麼是 Apache Hadoop?
Apache Hadoop 是一款免費的,基於 Java 的程式設計框架,專為分散式計算環境下的超大資料量並行處理而設計。Hadoop 支援以容錯方式擴充套件,可以從一臺計算機擴充套件到數千臺。這種擴充套件性意味著處理叢集中的個體計算機可以是比較廉價的,而叢集本身也很有彈性。有了 Hadoop,應用程式可以在成千上萬個處理節點上處理 PB 級的資料量。
誰為 Hadoop 提供支援和資金呢?
Hadoop 是 Apache 軟體基金會的專案之一。為 Hadoop 專案提供主要貢獻的是來自全球的開發者們。Hadoop 子專案由世界上最大的網際網路公司支援,包括 Facebook 和雅虎。
為什麼 Hadoop 會如此流行?
Hadoop 之所以流行,部分原因是因為世界上最大的網際網路企業都在用它來分析非結構化資料,這是不爭的事實。Hadoop 支援分散式應用處理數千 EB 的資料。
Hadoop 適用於哪些業務場景?
Hadoop 作為一款並行資料處理可擴充套件系統,對於分析大資料集非常有用。例如:搜尋演算法,市場風險分析,網上零售資料探勘,使用者行為分析。Hadoop 的擴充套件性對企業很有吸引力,因為他們處理的資料都有指數級增長的特性。Hadoop 的另一個核心競爭力是它可以處理結構化資料和非結構化資料,支援各種資料來源。
企業選擇 Hadoop 有何挑戰?
1. 對許多企業來說,Hadoop 框架很有吸引力,因為它給企業提供了分析資料的能力,不管資料量有多大。然而,不是所有企業都擁有專業能力來進行分析併產生商業價值的。
2. 擴充套件和優化的 Hadoop 計算叢集涉及大量程式設計工作,這對資料分析開發人員來說可能會有一定的障礙。
3. Hadoop 的設計原本並不具備太多安全功能,而這一點對於敏感企業資料通常也是必須要求的。
4. 其它問題還包括與現存資料庫和應用的整合,並且缺乏全行業範圍內的最佳實踐。
Hadoop 發展歷程是怎樣的呢?
Hadoop 原本來自於谷歌一款名為 MapReduce 的程式設計模型包。谷歌的 MapReduce 框架可以把一個應用程式分解為許多平行計算指令,跨大量的計算節點執行非常巨大的資料集。使用該框架的一個典型例子就是在網路資料上執行的搜尋演算法。
Hadoop 最初只與網頁索引有關,迅速發展成為分析大資料的領先平臺。Cloudera 是一家企業軟體公司,該公司在 2008 年開始提供基於 Hadoop 的軟體和服務。
GoGrid 是一家雲端計算基礎設施公司,在 2012 年,該公司與 Cloudera 合作加速了企業採納基於 Hadoop應用的步伐。Dataguise 公司是一家資料安全公司,同樣在 2012 年該公司推出了一款針對 Hadoop 的資料保護和風險評估。
Apache Hadoop 配套專案
Apache 軟體基金會維護著 Hadoop 的幾個配套專案:
Apache Cassandra 是一款為大資料量場景設計的資料庫管理系統。它的關鍵特性是容錯、擴容、Hadoop整合性和複製支援。
Hbase 是非關係型的支援容錯的分散式資料庫,專為儲存大量稀疏資料而設計。
Hive 是為 Hadoop 設計的資料倉儲系統,支援簡單資料彙總。
Apache Pig 由建立資料分析程式的高階語言組成,還包括評估那些應用程式的基礎。
Apache ZooKeeper 是用於分散式應用的一款集中服務。它維護配置資訊,並提供命名註冊、分散式同步和組服務。
Chukwa 是一個資料收集系統,可以監控大型分散式系統,包括分析結果的一個工具包。
Apache Mahout 專案的目的是生成豐富的實現,在 Hadoop 平臺,可擴充套件的機器學習演算法。
相關文章
- 關於CleanMyMac常見問題與解答Mac
- APatch常見問題解答
- Apache 常見問題Apache
- Mac有防火牆嗎?關於Mac防火牆常見的問題解答Mac防火牆
- RapidWeaver 8常見問題解答API
- Ubuntu 常見問題和解答Ubuntu
- Rhinoceros 6 for Mac的常見問題解答ROSMac
- [譯] HTTP/2 常見問題解答HTTP
- NSIS 之 NsDialogs 常見問題解答
- 關於“等保保護”最常見問題解答!
- 有關超聲波感測器的常見問題解答
- 犀牛Rhinoceros 6 for Mac的常見問題解答ROSMac
- 業務規則的常見問題解答
- Screaming Frog SEO Spider常見問題解答IDE
- 小遊戲引擎常見問題解答遊戲引擎
- 關於ImageView的幾個常見問題View
- MySQL關於事務常見的問題MySql
- 關於HTTP和HTTPS常見問題HTTP
- Python程式設計常見問題與解答Python程式設計
- SOLIDWORKS認證考試常見問題解答Solid
- SAP document builder一些常見問題的解答UI
- 恆創科技:有關伺服器虛擬化的常見問題解答伺服器
- GNU GPL 許可證常見問題解答(三)
- 全志RV1108常見問題操作解答
- MongoDB常見問題解答:時間與時區MongoDB
- 域名解析常見問題盤點及解答
- 關於PaddleSharp GPU使用 常見問題記錄GPU
- [個人筆記] 關於linux的常見問題合集筆記Linux
- 關於Java異常最常見的八大問題Java
- FAQ | PerfDog 常見問題解答第二期
- Hadoop常見面試題Hadoop面試題
- 程式碼簽名、驅動簽名的常見問題解答
- Hadoop測試常見問題和測試方法Hadoop
- 前端入門-day2(常見css問題及解答)前端CSS
- 【答疑】物件儲存OSS常見問題解答(工具類1)物件
- 【FAQ】統一掃碼服務常見問題及解答
- 【等保】二級等保常見問題解答彙總
- 【過等保】2022年過等保常見問題解答
- 【FAQ】申請Health Kit許可權的常見問題及解答