阿里雲Clouder認證
二、使用MaxCompute進行資料質量核查
1. 課程目標
(1) 影響資料質量的因素
(2) 瞭解MaxCompute(DataIDE)產品
(3) 通過DataIDE設計資料質量監控流程
(4) 獨立解決常見的資料質量監控需求
(5)目錄
- 資料質量相關概念
- 資料質量影響因素
- 資料質量問題型別
- MaxCompute、DataIDE介紹
- 電商資料分析平臺資料質量核查
- 實驗任務:MaxCompute資料質量核查
複製程式碼
2. 資料質量基本介紹
(1)什麼是資料
- 資料有很多種,最簡單的就是數字,也可以是文字、影象、聲音等等。
- 資料是用來做分析的。
(2)什麼是資料質量
- 資料質量顧名思義就是資料的質量;
- 資料質量是資料分析結論有效性和準確性的基礎,也是最重要的前提和保障;
- 資料質量是資料分析應用的基礎,為了獲得可靠的資料,企業必須密切關注資料質量,企業必須密切關注資料質量,資料質量將是直接影響系統應用成功的關鍵。
(3)什麼是資料質量管理
- 資料質量管理,是指對資料從計劃、獲取、儲存、共享、維護、應用、消亡生命週期的每個階段裡可能引發的各類資料質量問題,進行識別、度量、監控、預警等一系列管理活動。
- 資料質量管理,不僅包含了對資料質量的改善,同時還包含了對組織的改善。針對資料的改善和管理,主要包括資料分析、資料評估、資料清洗、資料監控、錯誤預警等內容。針對組織的改善和管理,主要包括確立組織資料質量改進目標、評估組織流程、制定組織流程改善計劃、制定組織監督稽核機制、實施改進、評估改善效果等多個環節。
(4)為什麼進行資料質量管理
- 企業的資料質量與業績之間存在著直接聯絡,高質量的資料可以使公司保持競爭力,並在經濟動盪時期立於不敗之地。
- 大資料時代,如果沒有良好的資料質量,大資料將會對決策產生誤導,甚至產生不可估量的結果。
- 目前,分析系統中的資料流轉和處理環節越來越多,資料管理越來越複雜,資料質量出錯的環節也就越顯增多。
- 為保證資料更好的為公司及企業的戰略提供正確、有力的支撐,必須要保證資料質量的準確,進而必須要進行嚴格的資料質量監控,以保證資料的可靠性、高質量。
2. 資料質量影響因素
(1)因素一:需求過程引發
- 需求過程引發的問題主要指需求設計、開發、測試、上線等過程中引發的資料質量問題。
- 此類問題的原因主要是因為需求過程中的管理機制和流程不健全導致。
(2)因素二:資料來源引發
- 資料來源引發的問題是指由於上游資料來源不完善或不規範,導致下游系統受到影響,出現資料質量問題。
- 資料來源引發的資料質量問題是分析系統資料質量問題的主要來源,主要體現在如下幾個方面:
- 資訊不正確
- 資訊不完整
- 資訊不一致
(3)因素三:統計口徑引發
- 統計口徑引發的問題主要指KPI、報表等指標口徑中存在的資料質量問題,包括指標準確性、一致性及完整性的問題等。
- 此類問題產生的原因主要有以下情況:
- 不同源系統或不同業務部門,對相同名稱的指標定義和口徑不同,造成最終的指標統計結果出現差異;
- 業務部門在描述或定義指標口徑時,存在許多不明確和不完善的地方,造成了指標口徑的二義性。
(4)因素四:系統自身
- 系統自身問題主要是指系統在開發建設、日常運營和維護過程中引發的資料質量問題、系統升級資料丟失問題,比如資料模型質量問題、系統升級資料資訊丟失問題、ETL*<是英文Extract-Transform-Load的縮寫,用來描述將資料從來源端經過抽取(extract)、互動轉換(transform)、載入(load)至目的端的過程>資料清洗<資料清洗是指發現並糾正資料檔案中可識別的錯誤的最後一道程式,包括檢查資料一致性,處理無效值和缺失值等。與問卷稽核不同,錄入後的資料清理一般是由計算機而不是人工完成>*不夠徹底問題,原因主要有:
- 資料倉儲的建設過程中,由於缺乏規範化、體系化的建設思路,造成系統架構、資料模型。處理流程等不夠優化和合理,從而帶來資料質量問題;
- 在系統運營中,由於普遍缺乏完善的日常管理和維護流程,在處理、監控資料時,沒有可以依據和規範的處理手段,導致操作出現失誤或遺漏,造成資料質量問題。
3. 資料質量問題型別
(1)錯誤值
- 由於欄位型別與實際存放資料差異,或錄入資訊出錯而導致的資料錯誤。
(2)重複值
- 資料記錄中存在完全一樣的重複記錄,或從業務上理解不可能存在的關鍵資訊出現重複記錄。
(3)資料不一致
- 資料的記錄是否符合規範,是否與前後及其他資料集合保持統一。資料的一致性主要包括資料記錄的規範和資料邏輯的一致性。
(4)資料完整性
- 資料的記錄和資訊是否完整,是否存在缺失的情況。
(5)缺失值
- 正常的資料資訊記錄中,存在資訊缺失的情況;
- 資料的缺失主要有記錄的缺失和記錄中的某個欄位資訊的缺失,兩者都會造成統計結果的不準確,完整性是資料質量最基礎的保障。
(6)異常值
- 資料記錄中出現明顯的資料偏差或者資料錯誤的記錄。
4. MaxCompute、DataIDE介紹
(1)MaxCompute簡介
- 大資料計算服務(MaxCompute,原ODPS)由阿里雲自主研發,提供針對TB/PB級資料、實時性要求不高的分散式處理能力,應用於資料分析、挖掘、商業智慧等領域。
- **分散式:**採用分散式叢集架構、跨叢集技術突破、機群規模可以根據需要靈活擴充套件
- **安全:**自動儲存容錯機制、所有計算在沙箱中執行、保障資料高安全性、高可靠性
- **易用:**準API的方式提供服務、高併發高吞吐量數後上傳下載、全面支援基於SQL的資料處理
- **管理與授權:**支援多使用者管理協同分析資料、支特多種方式對使用者許可權管理、配置靈活的資料訪問控制策略
(2)資料開發(Data IDE)簡介
- 大資料開發整合環境(Data IDE),提供視覺化開發介面、離線任務排程運維、快速資料整合、多人協同工作等功能,為您提供一個高效、安全的離線資料開發環境。並且擁有強大的Open API為資料應用開發者提供良好的再創作生態。
- 資料開發:
- 視覺化的業務流程設計器
- 程式碼型別編碼和除錯
- 自動補全程式碼
- 程式碼格式化
- 程式碼版本管理
- 多人協同開發等功能
- 資料管理:
- 涵蓋全鏈路資料血緣
- 資料計量
- 影響分析
- 支援後設資料
- 異構資料
- 業務後設資料
- 資料生命週期
- 資料資產
- 資料許可權等管理
- 作業排程:
- 多時間維度的離線任務排程
- 線上運維
- 監控報警
- 支援超過百萬級的離線排程任務量
(3)資料開發(Data IDE)常見場景
-
<1>. 資料產生
-
<2>. 資料開發
- 資料收集與儲存
- 資料分析與處理
- 資料提取
-
<3>. 資料展現於分享
-
將業務系統產生的資料輕鬆上雲,構建大型資料倉儲和BI應用,利用ODPS強大的海量儲存與資料處理能力。
-
基於資料開發快速使用和分析資料,將大資料加工結果匯出後直接應用於業務系統,實現資料化運營。
-
針對作業排程與運維複雜性,資料開發提供統一友好的排程系統和視覺化排程運維介面,解決運維管理不便等問題。
(4)Data IDE具體使用流程
- <1>. 組織管理員:
- 開通數加
- 建立目錄空間:繫結已有的ODPS project;新建ODPS project
- 新增成員:組織管理員建立RAM子賬號並分配專案管理員角色;專案管理員新增新成員並分配角色
- <2>. 專案管理員:
- 專案配置:專案基本屬性配置;資料來源配置;計算引擎配置;流程控制;
- <3>. 開發角色:
- 建立表:分別在兩個專案空間建ODPS表
- 工作流開發:新建週期性工作流;配置資料同步任務;配置ODPS SQL任務
- 工作流測試:測試工作流
- <4>. 運維角色:
- 釋出工作流:建立釋出包,釋出工作流
(5)Data IDE開發操作
- 通過Date IDE來實現資料質量監控,首先使用PC登入阿里雲網頁,在控制檯裡,選擇大資料開發套件功能模組,選擇對應的專案,進行開發操作。Date IDE主要包括資料整合、資料開發、資料管理、運維中心、專案管理、機器學習平臺等功能模組,此次資料質量核查主要涉及資料開發、運維中心兩大模組。
- 資料開發頁面是根據業務需求,設計資料計算流程,並實現為多個相互依賴的任務,供排程系統自動執行的主要操作頁面。
- 任務開發,包含週期屬性和依賴關係,是資料計算的主要載體,支援多種型別的任務和節點適應不同場景。
- 指令碼開發是對週期任務的補充,通常用於輔助資料開發過程,主要用於實現非週期的臨時資料處理,如臨時表的增刪改等,因此不包含週期屬性和依賴關係。
- 在大資料開發套件中,當一個任務被成功提交後,底層的排程系統從第二天開始,將會每天按照該任務的時間屬性生成例項,並根據上游依賴的例項執行結果和時間點執行。23:30之後提交成功的任務從第三天開始才會生成例項。
- 運維中心是日常運維的主工具,可對已提交的工作流及其節點任務進行管理與維護,同時也可針對節點來新增監控報警。主要分為運維概覽、任務管理、任務運維和監控報警四個模組。