數棧技術分享:產品經理線上官方解答數棧小知識
使用袋鼠雲數棧的某教育行業客戶,在之前的資訊化過程中建設了多個系統,已經意識到自身資料孤立的現狀,面對TB級的資料量,需要更高效的方式進行資料治理和分析,為業務方提供高質量資料。
其實,資料治理不僅僅是教育行業使用者的痛點,同樣也是其他行業進行大資料平臺建設和資料應用,最亟需解決的難題。
針對這一問題,袋鼠雲數棧基於十年實踐經驗沉澱的多種校驗規則,打造了完整的全流程資料質量閉環管理機制,同時支援資料遷移&邏輯變更的雙表逐行校驗場景。
類似以下問題,袋鼠雲數棧都能統統搞定!
Q1:
有很多ETL任務,任務執行正常,由於資料來源有變動,或開發修改了程式碼,測試不充分,導致資料經常出問題。最後還是業務方發現後,才反饋給開發排查原因。
An:
使用數棧可對關鍵任務配置資料質量校驗規則,任務跑完產出資料,並經過質量校驗透過後,才流入到下游,給到資料需求方。
Q2:
開發人員維護ETL任務,由於業務規則的變更或者新需求的迭代,需要經常修改ETL任務邏輯。每次修改後比對資料,耗費大量的時間。
An:
使用數棧透過資料質量產品的雙表校驗功能,自動比對修改前,修改後的資料,輸出比對結果,無需人工干預。
Q3:
需要把在某平臺執行的任務遷移到另外一個平臺,同時保證遷移前後資料的一致性。以往則需要人工或寫程式進行校驗,真的是費時費力。
An:
使用數棧透過資料質量產品的雙表校驗功能,自動比對遷移前後的兩個平臺的資料,輸出比對結果。
Q4:
在資料抽取的過程中,數棧能否對資料的正確性進行判斷?
An:
對這個問題,數棧可以提供2個解決方法:一種是在資料同步環節就進行髒資料相關的配置;還有一種是在資料加工全流程環節進行資料質量監控的配置;
也就是說,從資料的同步到整個資料加工全流程,袋鼠雲數棧都非常重視資料質量和資料治理,保障使用者數字化建設過程資料資產的高質量。
解法一:髒資料配置
在資料同步執行的過程中可能會出現因主鍵衝突、格式轉換錯誤等各種原因造成部分資料無法正常寫入,不能被正常寫入的資料即被視為“髒資料”。
髒資料配置在資料同步配置模組中,在資料同步任務的通道控制步驟中,可配置是否需要記錄髒資料,並可指定儲存髒資料的表名、生命週期。
那麼如何檢視髒資料,對資料質量做到心中有數?
在數棧-任務管理-髒資料管理模組中可以檢視髒資料的產生趨勢、產生髒資料最多的任務,以及每一張產生髒資料表的情況:
髒資料產生趨勢
選中某個任務後,可以檢視此任務在最近一段時間產生髒資料的數量,支援最近3天、7天、30天、60天的資料檢視。
髒資料產生TOP30任務
透過觀察產生髒資料數量較大的任務,可以針對性的排查此任務的配置資訊、源資料庫的資料質量等問題,及時解決問題。
解法二:資料質量配置
作為資料資產管理的一部分,資料質量的保障與提升是一個大資料平臺所需的必備功能。通常含義的資料質量包括及時性、完整性、一致性、有效性、準確性。
資料質量模組可以根據不同的業務場景,針對資料表提供錶行數、空值數、空值率、重複數、重複率等二十餘種統計函式,校驗方法支援固定值檢測、1天波動檢測、7天波動值變化檢測、30天波動值檢測、7天平均波動檢測、30天平均波動檢測,告警閥值支援靈活的自定義。
那麼如何使用數棧建立質量監控任務?
建立質量監控任務分為以下3個步驟:
Step1:選擇資料來源,選擇需要校驗的表
點選頂部選單的規則配置-新建監控規則,進入配置頁面,選擇需要進行檢測的資料表(表名為 muyun_test),點選下一步。
Step2:針對全表、每個欄位配置校驗規則
進入監控規則步驟,點選新增欄位規則,並選中id欄位,統計函式選擇空值數,校驗方法為固定值,閾值配置為=0,點選儲存,並點選下一步。
Step3:排程週期配置
選擇排程週期為天,其他引數無需修改,點選新建,即可完成配置。
數棧資料質量模組支援MySQL,Oracle,SQL Server,PostgreSQL,Hive,MaxCompute等多種資料來源,滿足大多數場景下的質量校驗需求。
基於阿里資料生產的實戰經驗,數棧內建20餘種校驗規則,支援表級、欄位級2類規則,並提供欄位級、表級校驗報告,具備歷史資料統計功能,輔助使用者定位資料質量的問題根源。
是雲原生—站式資料中臺PaaS,我們在github和gitee上有一個有趣的開源專案: , FlinkX是一個基於Flink的批流統一的資料同步工具,既可以採集靜態的資料,也可以採集實時變化的資料,是全域、異構、批流一體的資料同步引擎。大家喜歡的話請給我們點個 star!star!star!
github開源專案:
gitee開源專案:https://gitee.com/dtstack_dev_0/flinkx
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2774421/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 數棧技術分享:數棧如何保障企業資料安全和隱私?
- 數棧產品分享:乾貨解讀資料中臺產品「模組化」設計思路
- 淺談數棧產品裡的 Descriptions 元件元件
- 數棧產品分享:基於StreamWorks構建實時大資料處理平臺大資料
- 數棧產品分享:Kafka—實時離不開的那個TAKafka
- 數棧技術分享:開源·數棧-擴充套件FlinkSQL實現流與維表的join套件SQL
- 數棧產品中的程式碼編譯器編譯
- 產品經理要懂多少技術?
- 產品經理的技術之痛
- 產品經理要懂多少技術
- 許可權控制在數棧產品的實踐
- 數棧產品分享:簡析資料中臺如何透過DataAPI實現資料共享API
- 軟體產品經理需要技術嗎?
- Java技術轉(兼顧)產品經理——讀《快速轉行做產品經理》有感Java
- 產品經理的知識結構是什麼
- 產品經理的面試經驗分享面試
- 數棧技術分享:到底什麼是資料中臺?終於有人說清楚了!
- 數棧技術分享:解讀MySQL執行計劃的type列和extra列MySql
- 快速創業之全棧技術棧創業全棧
- 螞蟻金融科技亮相金融博覽會,全棧式技術產品助力企業數字化轉型全棧
- 關於 React 效能最佳化和數棧產品中的實踐React
- 不懂技術的產品經理該怎麼做?
- 剖析公司技術棧
- 《深入react技術棧》之樣式處理React
- 面經手冊 · 第1篇《認知自己的技術棧盲區》
- 《人人都是產品經理》筆記分享筆記
- wemall全棧移動商城技術架構分享全棧架構
- 谷歌產品經理眼中的產品經理谷歌
- [轉] 細數Javascript技術棧中的四種依賴注入JavaScript依賴注入
- Activity 知識梳理(2) Activity 棧
- 數棧技術分享:詳解FlinkX中的斷點續傳和實時採集斷點
- 數棧技術大牛分享:雲原生大資料系統架構的實踐和思考大資料架構
- 產品經理必知:產品需求的4層關係
- 產品經理如何幫助減少技術債務 ?
- 技術人如何與產品經理相愛相殺
- 沒有技術背景,也能勝任產品經理
- 【Spring技術棧】初識Spring Data JPASpring
- 產品經理