數棧技術分享:產品經理線上官方解答數棧小知識

數棧DTinsight發表於2021-05-28

使用袋鼠雲數棧的某教育行業客戶,在之前的資訊化過程中建設了多個系統,已經意識到自身資料孤立的現狀,面對TB級的資料量,需要更高效的方式進行資料治理和分析,為業務方提供高質量資料。

其實,資料治理不僅僅是教育行業使用者的痛點,同樣也是其他行業進行大資料平臺建設和資料應用,最亟需解決的難題。

針對這一問題,袋鼠雲數棧基於十年實踐經驗沉澱的多種校驗規則,打造了完整的全流程資料質量閉環管理機制,同時支援資料遷移&邏輯變更的雙表逐行校驗場景。

類似以下問題,袋鼠雲數棧都能統統搞定!

Q1:

有很多ETL任務,任務執行正常,由於資料來源有變動,或開發修改了程式碼,測試不充分,導致資料經常出問題。最後還是業務方發現後,才反饋給開發排查原因。

An:

使用數棧可對關鍵任務配置資料質量校驗規則,任務跑完產出資料,並經過質量校驗透過後,才流入到下游,給到資料需求方。

Q2:

開發人員維護ETL任務,由於業務規則的變更或者新需求的迭代,需要經常修改ETL任務邏輯。每次修改後比對資料,耗費大量的時間。

An:

使用數棧透過資料質量產品的雙表校驗功能,自動比對修改前,修改後的資料,輸出比對結果,無需人工干預。

Q3:

需要把在某平臺執行的任務遷移到另外一個平臺,同時保證遷移前後資料的一致性。以往則需要人工或寫程式進行校驗,真的是費時費力。

An:

使用數棧透過資料質量產品的雙表校驗功能,自動比對遷移前後的兩個平臺的資料,輸出比對結果。

Q4:

在資料抽取的過程中,數棧能否對資料的正確性進行判斷?

An:

對這個問題,數棧可以提供2個解決方法:一種是在資料同步環節就進行髒資料相關的配置;還有一種是在資料加工全流程環節進行資料質量監控的配置;

也就是說,從資料的同步到整個資料加工全流程,袋鼠雲數棧都非常重視資料質量和資料治理,保障使用者數字化建設過程資料資產的高質量。

解法一:髒資料配置

在資料同步執行的過程中可能會出現因主鍵衝突、格式轉換錯誤等各種原因造成部分資料無法正常寫入,不能被正常寫入的資料即被視為“髒資料”。

髒資料配置在資料同步配置模組中,在資料同步任務的通道控制步驟中,可配置是否需要記錄髒資料,並可指定儲存髒資料的表名、生命週期。


那麼如何檢視髒資料,對資料質量做到心中有數?

在數棧-任務管理-髒資料管理模組中可以檢視髒資料的產生趨勢、產生髒資料最多的任務,以及每一張產生髒資料表的情況:

髒資料產生趨勢

選中某個任務後,可以檢視此任務在最近一段時間產生髒資料的數量,支援最近3天、7天、30天、60天的資料檢視。

髒資料產生TOP30任務

透過觀察產生髒資料數量較大的任務,可以針對性的排查此任務的配置資訊、源資料庫的資料質量等問題,及時解決問題。

解法二:資料質量配置

作為資料資產管理的一部分,資料質量的保障與提升是一個大資料平臺所需的必備功能。通常含義的資料質量包括及時性、完整性、一致性、有效性、準確性。

資料質量模組可以根據不同的業務場景,針對資料表提供錶行數、空值數、空值率、重複數、重複率等二十餘種統計函式,校驗方法支援固定值檢測、1天波動檢測、7天波動值變化檢測、30天波動值檢測、7天平均波動檢測、30天平均波動檢測,告警閥值支援靈活的自定義。

那麼如何使用數棧建立質量監控任務?

建立質量監控任務分為以下3個步驟:

Step1:選擇資料來源,選擇需要校驗的表

點選頂部選單的規則配置-新建監控規則,進入配置頁面,選擇需要進行檢測的資料表(表名為 muyun_test),點選下一步。

Step2:針對全表、每個欄位配置校驗規則

進入監控規則步驟,點選新增欄位規則,並選中id欄位,統計函式選擇空值數,校驗方法為固定值,閾值配置為=0,點選儲存,並點選下一步。

Step3:排程週期配置

選擇排程週期為天,其他引數無需修改,點選新建,即可完成配置。


數棧資料質量模組支援MySQL,Oracle,SQL Server,PostgreSQL,Hive,MaxCompute等多種資料來源,滿足大多數場景下的質量校驗需求。

基於阿里資料生產的實戰經驗,數棧內建20餘種校驗規則,支援表級、欄位級2類規則,並提供欄位級、表級校驗報告,具備歷史資料統計功能,輔助使用者定位資料質量的問題根源。


是雲原生—站式資料中臺PaaS,我們在github和gitee上有一個有趣的開源專案: , FlinkX是一個基於Flink的批流統一的資料同步工具,既可以採集靜態的資料,也可以採集實時變化的資料,是全域、異構、批流一體的資料同步引擎。大家喜歡的話請給我們點個 star!star!star!

github開源專案:

gitee開源專案:https://gitee.com/dtstack_dev_0/flinkx




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2774421/,如需轉載,請註明出處,否則將追究法律責任。

相關文章