資料排程
ob和Task有幾種不同語境下的區別:
spark語境下
在Spark中,Task是一個Job進行切割後執行的最小運算單元。一般情況下,一個rdd有多少個partition,就會有多少個Task,因為每一個Task只是處理一個partition上的資料。而Task進行組合分批後,被稱為stage。Spark會為不同的stage以及不同的Task設好前後依賴,來保證整個Job執行的正確性和完整性,最後一個resultTask結束意味著Job成功執行。
Job>stage>Task
hadoop語境下
Hadoop一個作業稱為一個Job,Job裡面分為Map Task和Reduce Task階段,每個Task都在自己的程式中執行,當Task結束時,程式也會隨之結束。
Job>Task
某排程產品語境下
Task:一個任務。
TaskType:任務型別,如ETL、MR Job、Simple。
Job:作業,任務在執行過程中的一次執行。
綜上所述,Job、Task不同語境下,他們的關係是不一樣的,所以在不同的資料排程產品中,要注意他們的區別。
總結一下,資料排程,就是一個任務何時執行,何時結束以及正確的處理任務之間的依賴關係。我們需要關注的首要重點是在正確的時間點啟動正確的作業,確保作業按照正確的依賴關係及時準確的執行。
②工作流:任務狀態(中斷&執行)、任務管理or治理(型別、變更)、任務型別、任務分片。
③排程策略:就緒&超時;重試&重試次數&重試用時。
④任務隔離:任務和執行的關係等。
我們可以按DAG工作流類、定時分片系統分為兩類:
一種是DAG工作流類系統:oozie、azkaban、chronos、lhotse
如果選擇了DAG工作流這種方式,就要注意時間、完成度,保證豐富靈活的觸發機制。
推薦閱讀:
[1].
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69949806/viewspace-2923091/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【Spark篇】---Spark資源排程和任務排程Spark
- Flink排程之排程器、排程策略、排程模式模式
- 大資料學習筆記(十五)-大資料排程框架大資料筆記框架
- 開源公開課丨大資料排程系統 Taier 任務排程介紹大資料AI
- Linux核心排程分析(程式排程)Linux
- OPPO大資料離線任務排程系統OFLOW大資料
- Spark中資源排程和任務排程Spark
- 5、基礎篇-資源排程
- 反映在基於資料感知的智慧資料預處理和智慧排程
- OPPO大資料計算叢集資源排程架構演進大資料架構
- 大資料場景下Volcano高效排程能力實踐大資料
- Go語言排程器之主動排程(20)Go
- Go排程器系列(3)圖解排程原理Go圖解
- Android系統“資源排程框架”Android框架
- 排程器簡介,以及Linux的排程策略Linux
- Go排程器系列(2)巨集觀看排程器Go
- Go語言排程器之排程main goroutine(14)GoAI
- 任務排程
- spark排程管理Spark
- async-await:協作排程 vs 搶佔排程AI
- k8s排程器介紹(排程框架版本)K8S框架
- spark on yarn 的資源排程器設定.SparkYarn
- 資料排程元件:基於Azkaban協調時序任務執行元件
- MySQL資料庫環境如何調整磁碟IO排程演算法MySql資料庫演算法
- 輸入銷售單排程明細資料時的注意事項
- 2.2.5排程演算法:時間片輪轉、優先順序排程、多級反饋排程演算法
- [典藏版] Golang 排程器 GMP 原理與排程全分析Golang
- 程式排程演算法Linux程式排程演算法演算法Linux
- 資料匯流排模式模式
- 【資料結構】快排!!!資料結構
- 實戰儲存過程排程過程儲存過程
- 開源大資料排程系統 Taier 技術公開課 ——Taier 資料開發介紹大資料AI
- Go 排程模型 GPMGo模型
- Laravel 任務排程Laravel
- Laravel Scheme排程LaravelScheme
- 07 系統排程
- linux程式排程Linux
- goroutine 排程器(scheduler)Go