袋鼠雲產品功能更新報告12期|讓資料資產管理更高效

袋鼠云数栈發表於2024-10-29

本期,我們更新和最佳化了資料資產平臺相關功能,為您提供更高效的產品能力。以下為第12期袋鼠雲產品功能更新報告,請繼續閱讀。

file

一、【後設資料】重點更新

|01 後設資料管理最佳化,支援配置表生命週期

之前系統中缺少一個可以基於資料來源和資料庫維度,批次配置資料表生命週期的入口,導致使用者在處理大量資料表時會非常耗時且效率低下。

為了改善這一狀況,新功能在後設資料管理頁面上做出調整,將展示的維度修改為“資料來源--資料庫--資料表”。支援基於資料來源、資料庫、資料表維度進行生命週期的批次配置,提高了操作的便捷性和管理效率。

file

|02 支援記錄每條 SQL 解析出的血緣關係

在「資料地圖」-「離線任務詳情」頁面,支援對解析 SQL 結果進行記錄,包含 SQL 語句、解析結果(成功/失敗)、解析時間,針對解析成功的可檢視此條 SQL 對應的血緣關係圖譜(只展示表級圖譜),針對解析失敗的可檢視日誌,以便找出問題所在並進行修正。

file

|03 豐富後設資料的展示資訊

本次更新中我們豐富了後設資料的展示資訊,提供更詳盡的內容描述。

(1)「資料地圖」-「表詳情」頁面支援在資料表名下方展示表質量評分(若該表無質量評分則不展示),支援點選資料質量評分後跳轉至:資料質量>質量報告> 該資料表的質量報告,提供更詳細的資料質量資訊。

file

(2)表資訊新增熱度統計按鈕,並且增加了四個新的統計資料:訂閱數、使用次數、檢視次數和影響表數。

(3)針對「操作記錄」板塊,新增了 DML 操作記錄,增強了資料使用的透明度和可追溯性。

file

|04 新增支援 Doris 資料來源

針對 Doris2.x 型別資料來源支援後設資料採集、血緣分析、資料治理(不包括小檔案治理)、資料質量(所有功能均支援)、資料脫敏、資料許可權(行列級許可權);

離線開發模組建立的 meta Doris2.x 資料來源支援自動引入並自動建立週期同步任務,簡化流程提高效率。

|05 新增支援自動引入資料來源的設定管理模組

針對離線開發、指標和標籤模組中自動引入的資料來源,新增資料來源自動引入設定,可以選擇是否自動建立週期同步任務/是否自動同步該資料來源下的資料表資訊,並且支援按照子產品、專案維度、資料來源型別維度進行設定開啟/關閉自動引入功能。

file

二、【資料模型】重點更新

|01 規範建表的建表聯想模式配置內容擴充

(1)嚮導模式配置內容擴充:
針對 ADB 型別建表支援配置欄位是否為主鍵、是否為空,精度值;
針對 Inceptor、Hive、Spark 型別建表支援配置精度值;
Inceptor 支援配置事務表/非事務表,支援指定 HDFS 儲存路徑。
(2)當資料標準中配置了長度、精度資訊時,引用標準可自動同步。
(3)支援 Hive3.x(Apache) 型別資料來源的建表,建表邏輯和 Hive2.x 保持一致。
file

|02 編輯表操作對接審批中心

新增「資料模型」-資料建表/刪表/編輯表操作對接審批中心,實現審批流程標準化,規範了資料管理流程。
(1)在資產平臺中,針對無資料模型審批許可權的使用者,在進行資料表的新增、編輯、刪除操作時,均需要進行審批,審批動作統一在審批中心進行操作,同時,使用者可以在「我的模型」模組檢視審批進度、進行撤回操作。
file
(2)「審批中心」新增“資料模型申請”流程,允許審批人對申請進行透過或駁回的操作。針對資料資產中撤回的模型申請,審批中心的“待審批”模組不再展示此條申請資料,確保審批佇列的實時性和準確性,提高審批效率。
file
(3)歷史資料遷移到審批中心進行留存。

三、【資料質量】重點更新

|01 新增支援MySQL、StarRocks資料來源型別建表

使用者現在可以利用MySQL、StarRocks資料來源型別建表。
file

|02 資料表質量校驗支援質量評分

新增支援針對單表校驗的表級質量報告分析,內容包含表質量評分、質量分值變化趨勢、質量評估概覽、近期規則校驗異常明細、近期校驗結果。

同時,「質量概覽」頁面新增針對單表校驗下各個資料表的表級質量分排名,幫助使用者更直觀地瞭解和比較不同資料表之間的質量狀況。
file

|03 支援自動關聯離線任務執行週期

在專案中,多個客戶在執行質量規則時反饋,期望當質量任務關聯了離線任務後,能夠依據離線任務的時間執行質量任務,並確保兩者之間能夠關聯。

因此本期新增功能,在單表校驗-質量規則建立時,若關聯了離線任務,支援選擇排程週期是否自動依賴於離線任務執行。
file

|04 對接資料標準自動建立質量規則

當出現資料質量的規範性校驗和資料標準設定規則基本一致的情況時,最佳化資料質量的規範性校驗規則設計邏輯,支援與資料標準進行對接。

資料質量建立規範性校驗規則時,支援對接資料標準從而自動建立質量規則。具體來說:
當使用者建立新的規範性校驗規則,若識別到選擇的欄位為繫結了標準的欄位,支援選擇是否引用標準規則;
如果使用者選擇引用標準規則,平臺則會根據標準中定義的長度、精度、列舉個數、是否空值、是否重複,自動生成質量校驗規則。
file

|05 質量任務定時執行可以關聯自定義排程週期

此前,在配置質量規則時,無法關聯自定義排程週期進行質量任務的執行,導致無法滿足使用者個性化配置執行週期的需求;並且在質量任務執行過程中,存在一個質量任務執行時間過長的情況,中途無法停止導致無法釋放資源。為了改善這些問題,本期進行了以下最佳化:

(1)在質量規則建立,配置排程資訊時支援關聯自定義排程週期,修改模組包含新建/編輯單表校驗規則、多表校驗規則、規則集,檢視規則詳情。
file
(2)支援中途停止質量任務:質量規則建立後,支援在質量任務執行過程中進行中途停止操作。有助於及時釋放被佔用的資源,避免不必要的等待時間,提供更加靈活和高效的服務。
file

四、【資料治理】重點更新

|01 新增支援StarRocks2.x、3.x資料來源

資料質量模組新增支援StarRocks2.x、3.x資料來源,包含單表校驗(需要支援所有校驗函式)、多表比對、規則集校驗、表質量評分等質量相關的所有功能模組。

|02 小檔案治理最佳化

小檔案治理功能旨在解決大資料儲存系統中由於大量小檔案存在而導致的效能問題和儲存效率低下,本期對小檔案治理功能進行最佳化:
小檔案治理後端處理邏輯最佳化;
在進行週期治理/單次治理時,支援選擇 Local 模式/Remote 模式;
針對新增的 Remote 模式支援中途取消操作。

file

|03 支援健康資產分權重調整

此前資產健康分不支援使用者自定義設定,為了更好地讓使用者對在意的資料實現針對性的管控,本期增加自定義功能,支援資產健康分權重配置,使用者可以自己調整健康分的權重佔比,同時展示扣分規則。
file
file

五、【資料安全】重點更新

|01 資料許可權管理新增許可權回收功能

為了增強資料許可權管理的靈活性和安全性,新增“許可權回收”功能。在「資料許可權管理」頁面中,新增“許可權回收”,列表展示每個使用者自己申請且已經透過的許可權列表,可透過許可權回收將此使用者的許可權資訊刪除。此功能預設僅對管理員開放,確保許可權管理的安全性和可控性。
file

|02 資料分級分類應用

新增大量資料分級分類應用:
(1)級別管理
支援按照使用者賦予等級,預設提供L1~L5共5個使用者等級,管理員可透過“編輯”按鈕修改使用者等級。預設級別對應的開放使用者等級為L1,可透過編輯操作進行修改,若有的使用者沒有配置使用者等級資訊,則無等級使用者不受分級分類的許可權管控;

編輯按鈕增加懸浮提示最佳化,增加“申請許可權”按鈕。
file
file

(2)資料地圖涉及模組
在「資料地圖」資料表資料預覽時,列表的欄位右側新增分級分類的標識。

(3)角色管理模組
針對“資料分級—級別管理—操作”的許可權,預設只給管理員開放,數開和訪客無此許可權;針對頁面上的“申請許可權”按鈕,跟隨使用者等級的配置控制是否顯示,不受角色的許可權管控。

file
(4)審批中心
支援管理員在審批中心對分級許可權的申請進行審批。

六、【平臺管理】重點更新

新增通知中心功能模組:

(1)通知配置
支援對某一接收人批次配置資產所有的通知項、通知方式、通知內容、通知人、通知頻率等內容。
(2)通知記錄
通知記錄涵蓋針對每個單獨模組配置的通知資訊、以及通知中心批次配置的通知資訊。
file

資料資產平臺其他功能最佳化說明

|01 【後設資料】

支援TBDS_Hive 型別資料來源,支援範圍包括後設資料同步、血緣分析、資料地圖、元模型、後設資料管理、後設資料質量、資產盤點、資料安全(資料許可權)
後設資料週期同步增加同步狀態“等待同步”,當週期同步任務存在待同步任務,且沒有開始同步時,狀態展示為“等待同步”
後設資料週期同步時,可選擇同步全部內容/除去錶行數和儲存的全部內容功能,新增支援 MySQL、Oracle、SQLServer、TiDB、Greenplum、ADB PostgreSQL、StarRocks、HashData、OushuDB
針對 Sparkthirft2.x 資料來源型別,支援物化檢視的查詢、同步、維護
「資料地圖」-「資料表詳情」中針對錶行數、儲存大小,支援顯示更新時間
「資料地圖」-「表詳情」頁面針對欄位中文名支援修改操作,支援單個修改/批次操作
針對表的業務屬性為string型別的,預設值的最大長度為255字元,並且在編輯業務屬性頁面進行最大長度提示
資料目錄支援左右拉伸,支援選擇該層級的整個範圍進行拖動
資料地圖中移除表生命週期編輯入口,僅展示生命週期資訊,使用者統一在後設資料管理模組對錶生命週期進行編輯
支援對錶負責人的許可權點管理,表負責人變更為非必填屬性
最佳化 ADB 型別血緣解析由於識別資料表名大小寫不敏感導致解析失敗的問題
週期同步任務建立/編輯頁面,針對錶行數和儲存大小的同步提示資訊最佳化
資料地圖中離線任務SQL語句欄位儲存格式最佳化,把儲存格式由“text”調整為“longtext”,前端懸浮展示預設展示 SQL 語句的前1024個字元,支援使用者透過 SQL 下載檢視 SQL 的全部資訊

|02 【資料模型】

建表時新增儲存的中間狀態,點選“儲存”按鈕後可臨時儲存此次編輯的建表資訊,並展示在列表中,可從列表進入再次編輯

|03 【資料質量】

質量規則配置支援以資料來源、資料庫、資料表的形式進行選擇,在建立質量規則時支援選擇髒資料儲存庫是否為預設儲存資料庫;
單表校驗針對規範性檢驗規則,增加支援針對列舉值的檢驗,對接了資料標準自動生成的規範性校驗規則中,自動生成針對“列舉值”這一規則的校驗;
規則列表中支援顯示當前的規則狀態為未開啟檢測/已開啟檢測;
支援檢視規則集詳情,可記錄規則集的變更歷史及變更資訊,版本資訊包含操作人員、操作時間、儲存歷史匯入的Excel檔案;
單表校驗波動檢測結果取值調整為取最新值。

|04 【資料治理】

小檔案治理編輯治理規則,針對分割槽表,檢視分割槽時支援分頁查詢。

|05 【平臺管理】

在移除使用者時判斷是否進行交接中,支援校驗原使用者是否有負責表(也就是資料表的負責人為原使用者),若有,需要提示需要進行許可權交接,交接後表負責人自動變更為轉讓人使用者。
《行業指標體系白皮書》下載地址:https://www.dtstack.com/resources/1057?src=szsm

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《資料治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或諮詢更多有關大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

相關文章