資料開發提效有秘訣!離線開發BatchWorks 六大典型場景拆解

數棧DTinsight發表於2023-04-12

回顧大資料的發展歷程,一句話概括就是海量資料的高效處理。在當今快節奏、不斷變化的市場環境下,優秀的開發效率已經成為企業數字化轉型的必備條件。

是一款專注離線資料ELT開發的產品,採用先進的大資料生態底層技術,具備高效能且功能豐富的大資料處理能力,對 、資料倉儲建設提供有效支撐,是企業建設資料中臺、資料倉儲,加速數字化轉型的基礎設施。

經過6年多的打磨已經服務於包括金融、教育、政企、零售等多個行業在內的300+客戶,在開發效率提升方面發揮了巨大的價值。本文將從多個專案實施過程中遇到的6個典型場景來介紹一下離線開發BatchWorks 在 上的一些解決方案,與大家共同探討。

場景一:大批次資料快速遷移

問:客戶數倉計劃從 Oracle 遷移到 Hadoop,初始化需要完成幾萬張表的資料同步,如何快速進行大批次 hive 表的建立並做資料抽取?

答:BatchWorks 支援連線資料來源進行關係型資料庫到包括 Hive 在內的多目標資料庫之間的 ,可一次性完成大批次表的自動建立和同步任務的生成,支援按日期增量和全量兩種資料同步方式。考慮到同一時間點啟動大量資料同步任務會造成資料庫壓力過大,還可支援任務併發數的配置。

file

場景二:SQL 邏輯的複用和批次管理

問:一條業務線上有20+產品,每個產品的資料分析由一個 SQL 任務完成,所有產品的任務邏輯完全一致且需要保持變更同步,而實際業務在快速變化,資料開發每次調整業務邏輯都需要每個 SQL 任務分別手動變更,經常出現調整錯漏的情況,如何解決?

答: ,使用者可把在大量任務中通用的業務 SQL 邏輯抽象出來作為元件進行維護,不同的產品只需引用元件並配置 和字元引數,即可快速完成任務配置。當業務變更時只要調整元件的邏輯就能實現所有引用此元件任務的 。

一個簡單例子:業務方需要對不同產品的使用者群體做年齡分層,可建立元件做年齡篩選,配置以下輸入輸出引數:

• 輸入引數:資料來源表

• 輸出引數:年齡層中的最大最小值(字串)、資料輸出表

file實現從產品1中篩選出年齡為20-30的使用者資料,在建立任務時選擇上述元件配置年齡輸入引數和資料來源表,並指定寫入的結果表:

file

場景三:計算結果跨任務複用

問:任務存在上下游依賴時,下游任務可能需要直接使用上游部分任務的計算結果,同時使用者不希望建太多臨時表,或產生一些額外的重複計算,如何解決?

答:BatchWorks 支援了任務 ,上游任務的計算結果可進行 ,直接被下游計算引用。

一個簡單例子:從業務庫完成銷售明細表資料採集清洗,按天彙總後將銷售金額最高的門店資料輸出 sales_1d 任務,從 sales_details 中透過輸入引數獲取日期資料,然後將當天最高銷售資料對應的門店透過輸出引數輸出傳遞至下游的同步任務,同步任務篩選此門店資料同步至 oceanbase。

file file

場景四:任務依賴自動解析

問:當任務較多且依賴關係複雜時,依賴關係的配置會佔用一定的工作量,尤其在對任務做了修改後,依賴關係可能會有更新不及時/漏更新的情況,發現問題時往往已經到了下游環節,如何解決?

答:BatchWorks 支援了 ,選擇此功能進行依賴任務配置時,平臺將對當前任務進行 SQL 解析,得到來源表和結果表,並尋找來源表的產出任務,使用者可從這些推薦任務裡選擇全部或部分任務新增到上游依賴,也可直接選擇自動依賴,當 SQL 調整時自動進行上游依賴的更新。

file

場景五:任務異常快速排查

問:離線例項的執行流程涉及例項上游依賴檢查、到達計劃時間檢查、資源檢查、質量校驗等多個環節,執行過程出現異常時僅透過日誌難以直觀地進行問題溯源,問題處理不及時直接影響下游業務,如何解決?

答:BatchWorks 支援 對例項的執行過程進行分析,將例項排程流程及每個流程當前的狀態、節點時間全部展示,使用者可直觀地看到當前例項的執行階段和異常原因。

比如在進行上游依賴異常檢查時,BatchWorks 將構建以當前例項為末位節點的 ,尋找直接導致其未執行的根源任務組,快速直達阻塞點。此外針對 SparkSQL,可監控其指標健康狀況並給出調參建議,針對 HiveSQL 可觀測執行過程中資源使用變化情況,從而可進一步進行任務調優。

file file

場景六:以使用者組為單位的使用者管理

問:某公司的資料開發團隊不定期會有一些人員調整,因業務量大、開發專案比較多,人員調整後開發平臺上的維護十分繁瑣。例如有新員工入職,需要將其新增到相關的多個開發專案中並賦予不同的角色,任務告警值班時需要新增進對應的告警規則中等等,增加管理員的使用者管理成本且容易缺漏,如何解決?

答:BatchWorks 的使用者中心支援以使用者組為單位的使用者管理,每個使用者可被新增進一個或多個使用者組。專案新增使用者、告警圈選使用者時均可以使用者組的方式進行配置。後續增刪使用者時僅需在使用者中心的使用者組內進行操作,即可完成人員->專案/角色等的快速調整。

file

《資料治理行業實踐白皮書》下載地址:


想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2945172/,如需轉載,請註明出處,否則將追究法律責任。

相關文章