Hadoop 是由 Java 語言編寫的,在分散式伺服器叢集上儲存海量資料並執行分散式分析應用的開源框架,其核心部件是 HDFS 與 MapReduce。
HDFS 為海量的資料提供了儲存,而 MapReduce 為海量的資料提供了計算。
可以把 HDFS 理解為一個分散式的,有冗餘備份的,可以動態擴充套件的用來儲存大規模資料的大硬碟。
把 MapReduce 理解成為一個計算引擎,按照 MapReduce 的規則編寫 Map 計算 Reduce 計算的程式,可以完成計算任務。
YARN:Hadoop 2 開始使用的資源管理框架。
HBase:Google分散式資料庫Bigtable的開源實現,是一個高可靠、高效能、面向列、可伸縮的分散式資料庫,主要用來儲存非結構化和半結構化的鬆散資料。為了提高資料可靠性和健壯性,發揮HBase處理大資料量等功能,一般使用HDFS作為HBase的底層資料儲存方式。
MapReduce:分散式計算框架。
Hive:是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行執行。
技術專欄主要包含如下內容:
-
Hadoop大資料技術生態系統和基礎知識
-
CentOS 7 單機安裝最新版Hadoop v3.1.2以及配置和簡單測試
-
Hadoop v3.1.2 單機偽分散式安裝、配置和測試
-
Hadoop分散式檔案系統HDFS核心概念、體系結構和資料讀寫過程
-
Hadoop分散式檔案系統HDFS 常用API以及應用例項
-
Java應用中HDFS客戶端遠端連線Hadoop FileSystem異常情況分析和解決辦法
-
Hadoop列式資料庫HBase 資料模型、系統架構和執行機制-快速入門
-
列式資料庫HBase v2.2.3 最新版安裝單機模式、啟動和簡單練習shell命令
-
列式資料庫HBase v2.2.3 最新版偽分散式模式配置、啟動執行
-
大資料快速讀寫-HBase 常用的Shell命令
-
大資料快速讀寫-HBase Java API程式設計例項-HBaseConn和HBaseUtil工具類
-
大資料快速讀寫-HBase Java API程式設計例項-單元測試和shell命令驗證
-
HBase表的設計原則,包括預分割槽、列族設計、RowKey設計
-
【專案例項】基於Elasticsearch對HBase中的資料建立二級索引實現海量資料快速查詢-1
-
【專案例項】基於Elasticsearch對HBase中的資料建立二級索引實現海量資料快速查詢-2
-
【專案例項】基於Elasticsearch對HBase中的資料建立二級索引實現海量資料快速查詢-3
-
【專案例項】基於Elasticsearch對HBase中的資料建立二級索引實現海量資料快速查詢-4
-
Hadoop分散式離線計算框架-MapReduce體系結構和工作流程
-
Hadoop分散式離線計算框架-MapReduce和YARN
-
MapReduce程式設計實踐-基於IDEA/Maven實現單詞詞頻統計-Part 1
-
MapReduce程式設計實踐-基於IDEA/Maven實現單詞詞頻統計-Part 2
-
Hadoop叢集資源管理排程框架-YARN
-
YARN/MapReduce程式設計實踐-WordCount on YARN程式碼編寫
-
YARN/MapReduce程式設計實踐-WordCount on YARN編譯打包執行
-
YARN/MapReduce程式設計實踐-實現檔案合併和去重
-
YARN/MapReduce程式設計實踐-實現對輸入檔案的排序
-
Hadoop v3.1大資料技術快速入門技術專欄-專案例項原始碼
-
Hadoop資料倉儲框架Hive快速入門-簡介、系統架構和執行流程
-
Hadoop資料倉儲框架-Hive v3.1.2最新版安裝和配置(含MySQL)-Part 1
-
Hadoop資料倉儲框架-Hive v3.1.2最新版安裝和配置(含MySQL)-Part 2
-
Hive程式設計實踐-Hive中常用HiveQL操作
-
Hive程式設計實踐-分割槽表(Partition)和分桶表(Bucket)-Part 1
-
Hive程式設計實踐-分割槽表(Partition)和分桶表(Bucket)-Part 2
-
Hive程式設計實踐-Hive ACID和事務表支援的詳細操作和快速入門
-
Hive程式設計實踐-WordCount應用例項
-
Hive程式設計實踐-內建函式和使用者自定義函式(含示例專案原始碼)-Part 1
-
Hive程式設計實踐-內建函式和使用者自定義函式(含示例專案原始碼)-Part 2
-
Hive程式設計實踐-透過Java和JDBC驅動訪問Hive,附例項專案原始碼
-
Hive高階特性-HiveServer2配置啟動和Beeline的基本操作
-
Impala 實時性互動查詢分析工具
-
Hadoop和關係型資料庫的資料傳輸工具-Sqoop入門
-
分散式訊息佇列Kafka-資料互動樞紐
-
Apache Kudu構建高效能實時資料分析儲存系統 -入門簡介
從實戰出發,透過理論講解-環境搭建-專案案例實戰,讓初學者快速掌握hadoop大資料技術。