大資料學習—Azkaban的解析

加米穀大資料發表於2021-10-14

大資料的核心模組有很多,像 Hadoop spark kafka 等都是比較重要的,但也不僅僅只是這三塊。今天我們就來了解一下 Azkaban ,瞭解他的使用和簡介,才能更好的幫助我們去學習大資料。

Azkaban 是什麼

是由 Linkedin 開源的一個批量工作流任務排程器。用於在一個工作流內以一個特定的順序執行一組工作和流程。

Azkaban 定義了一種 KV 檔案 (properties) 格式來建立任務之間的依賴關係,並提供一個易於使用的 web 使用者介面維護和跟蹤你的工作流。

它有如下功能特點:

Web 使用者介面

方便上傳工作流

認證 / 授權 ( 許可權的工作 )

能夠殺死並重新啟動工作流

模組化和可插拔的外掛機制

工作流和任務的日誌記錄和審計

方便設定任務之間的關係

排程工作流

專案工作區

為什麼需要 Azkaban

一個完整的資料分析系統通常都是由大量任務單元組成

shell 指令碼程式

java 程式

mapreduce 程式

hive 指令碼等

各任務單元之間存在時間先後及前後依賴關係 , 為了很好地組織起這樣的複雜執行計劃, 需要一個工作流排程系統來排程執行;

例如,我們可能有這樣一個需求,某個業務系統每天產生 20G 原始資料,我們每天都要對 其進行處理,處理步驟如下所示:

通過 Hadoop 先將原始資料同步到 HDFS 上;

藉助 MapReduce 計算框架對原始資料進行轉換,生成的資料以分割槽表的形式儲存到 多張 Hive 表中;

需要對 Hive 中多個表的資料進行 JOIN 處理,得到一個明細資料 Hive 大表;

將明細資料進行各種統計分析,得到結果報表資訊;

需要將統計分析得到的結果資料同步到業務系統中,供業務呼叫使用。

以上就是關於 Azkaban 的解析了, 如果想了解更多詳情,請點選成都加米穀大資料官網咖!成都大資料培訓學校、大資料開發培訓、資料分析與挖掘,零基礎班本月正在招生中,課程大綱及試學視訊可免費獲取!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70005624/viewspace-2808945/,如需轉載,請註明出處,否則將追究法律責任。

相關文章