大資料的核心模組有很多，像 Hadoop 、 spark 、 kafka 等都是比較重要的，但也不僅僅只是這三塊。今天我們就來了解一下 Azkaban ，瞭解他的使用和簡介，才能更好的幫助我們去學習大資料。

Azkaban 是什麼？

是由 Linkedin 開源的一個批量工作流任務排程器。用於在一個工作流內以一個特定的順序執行一組工作和流程。

Azkaban 定義了一種 KV 檔案 (properties) 格式來建立任務之間的依賴關係，並提供一個易於使用的 web 使用者介面維護和跟蹤你的工作流。

它有如下功能特點：

Web 使用者介面

方便上傳工作流

認證 / 授權 ( 許可權的工作 )

能夠殺死並重新啟動工作流

模組化和可插拔的外掛機制

工作流和任務的日誌記錄和審計

方便設定任務之間的關係

排程工作流

專案工作區

為什麼需要 Azkaban ？

一個完整的資料分析系統通常都是由大量任務單元組成

shell 指令碼程式

java 程式

mapreduce 程式

hive 指令碼等

各任務單元之間存在時間先後及前後依賴關係 , 為了很好地組織起這樣的複雜執行計劃，需要一個工作流排程系統來排程執行；

例如，我們可能有這樣一個需求，某個業務系統每天產生 20G 原始資料，我們每天都要對其進行處理，處理步驟如下所示：

通過 Hadoop 先將原始資料同步到 HDFS 上；

藉助 MapReduce 計算框架對原始資料進行轉換，生成的資料以分割槽表的形式儲存到多張 Hive 表中；

需要對 Hive 中多個表的資料進行 JOIN 處理，得到一個明細資料 Hive 大表；

將明細資料進行各種統計分析，得到結果報表資訊；

需要將統計分析得到的結果資料同步到業務系統中，供業務呼叫使用。

以上就是關於 Azkaban 的解析了，如果想了解更多詳情，請點選成都加米穀大資料官網咖！成都大資料培訓學校、大資料開發培訓、資料分析與挖掘，零基礎班本月正在招生中，課程大綱及試學視訊可免費獲取！

大資料學習—Azkaban的解析

相關文章