袋鼠雲產品功能更新報告05期|應有盡“優”,數棧一大波功能最佳化升級!

數棧DTinsight發表於2023-05-12

這段時間,我們對產品本身以及客戶反饋的一些問題進行了持續的更新和最佳化,包括對離線平臺資料同步功能的更新,資料資產平臺血緣問題的最佳化等,力求滿足不同行業使用者的更多需求,為使用者帶來極 致的產品使用體驗。

以下為袋鼠雲產品功能更新報告第五期內容,更多探索,請繼續閱讀。

離線開發平臺

1.支援工作流引數

背景:很多業務場景下一個工作流中需要有一些能生效於整個 ,統一配置其下所有子節點通用。

新增功能說明:工作流父任務中支援建立工作流層級引數,工作流引數在工作流範圍內生效。工作流下子節點支援透過 的方式來引用該工作流引數。

file file

2.支援專案級引數

背景:

目前離線已支援的引數型別有以下幾種:

• 全域性引數-作用於整個數棧平臺

• 自定義引數-作用於單個 /工作流子節點

• 任務上下游引數-作用於引入此引數的下游任務

• 工作流引數-作用於單個工作流任務

增加的專案級引數,作用於當前專案之內的所有任務,既不影響別的專案的任務,也可實現專案內某些業務配置批次修改的效果。

新增功能說明:支援在專案的 中配置專案引數,配置完成後,該專案下的任務都可以進行引用。在任務中可以透過${引數名稱}的方式引用專案引數。

file file

3.繫結的專案支援解綁

背景:當前專案繫結為非可逆操作,一個專案一旦和另一個專案產生繫結後無法解綁也不支援刪除,但部分已經繫結的專案因業務原因可能需要換目標專案繫結,或者不再使用需要刪除。

新增功能說明:可在測試專案的「專案設定-基本資訊」中操作解綁生產專案,此操作不可逆。解除生產測試專案繫結後,資料來源對映、資源組對映、釋出至目標專案功能會受到影響,回退至繫結前狀態,可按正常邏輯刪除。

file file

4.補資料支援對各型別引數進行一次性賦值

背景:補資料時可能會存在需要對引數值進行臨時替換的情況,例如跑歷史日期的資料時,補資料的時間引數範圍需要變更。

新增功能說明:在「運維中心-週期任務管理-任務補資料」中進行 重新賦值操作,補資料實際跑任務的引數值會被補資料時重新賦值的引數值替換。

file

5.臨時執行可檢視執行歷史

背景:週期任務、手動任務提交到排程執行時,都會產生例項,記錄執行狀態和執行日誌等資訊。但是週期任務、臨時查詢和手動任務在臨時執行時不存在執行記錄,使用者無法檢視歷史臨時執行的執行狀態和執行日誌等資訊,導致一些重要的操作無法追蹤。

新增功能說明:在資料開發頁面最左側功能模組列表中,新增了 功能。在「執行歷史」中,可檢視歷史近30天(可自定義)臨時執行的 SQL、日誌等資訊。

file

6.告警接受人支援填寫其他引數

背景:部分客戶希望一些非數棧使用者(比如合作方)也能收到任務的告警資訊,而目前平臺支援選的告警接收人範圍為當前專案下的使用者。期望離線側告警配置時能靈活新增一些自定義值:可以是手機號、郵箱、使用者名稱等資訊,客戶透過自定義告警通道中上傳的 jar 包自定義解析獲取值的內容,再透過自己的系統給解析出的聯絡人傳送告警。

新增功能說明:在建立 時,支援填寫外部聯絡人資訊,透過英文逗號分割。(自定義告警通道中上傳的 jar 需要支援解析)

file

7.資料同步的讀寫並行度支援分開設定

背景:由於資料同步源端與目標端的資料庫存在資料庫本身效能等因素的影響,讀和寫的速率往往是不一致的,例如讀的速率是5M/s,寫的速率只有2M/s,讀和寫統一用一個並行度控制實際不能達到同步速率的最大最佳化,反而可能帶來問題。

新增功能說明:在 的通道控制中原“作業併發數”改為“讀取併發數”和“寫入併發數”,兩個引數單獨配置互不影響,使用者可靈活調整讓同步效率最大化,併發數調整範圍上限改為100。

file

8.髒資料容忍條數支援按專案設定預設值

新增功能說明

背景:同步任務中的 預設容忍條數原本固定是100,部分客戶實際接受的容忍度是0,導致每配置一個同步任務就需要改一下髒資料容忍條數的設定值,使用不便。

新增功能說明:在離線「專案管理->專案設定->操作設定」中,支援設定資料同步任務 和髒資料預設容忍比例。配置完成後,新建資料同步任務在通道控制模組會展示預設值。

file file file

9.資料同步讀取 hive 表時可選擇讀取多個分割槽的資料

背景:資料同步讀取 hive 表時目前僅支援選擇一個分割槽讀取,部分客戶場景下需要把多個分割槽的資料讀取出來寫入目標表。

新增功能說明:讀 hive 表時分割槽可以用 and 作為連線符篩選多個分割槽進行資料讀取。

file

10.任務執行超時中斷

背景:目前所有任務一旦開始執行,無論執行多久平臺都不會自動殺死,導致部分異常任務執行時間長,佔用大量資源。

新增功能說明:所有任務在 處增加了超時時間的配置項,預設不限制,可選擇定義超時時間,執行超時後平臺會自動將其殺死。

file

11.表管理的表檢視互動最佳化

背景:點選表管理中某張表的欄位、分割槽等詳細資訊的區域較小,不方便檢視。

新增功能說明:對該區域可手動進行拉高。

file

12.hive 資料同步的分割槽支援選擇範圍

當 作為資料同步的來源時,分割槽支援識別邏輯運算子“>”“=”“<”“and”,例如“pt>=202211150016 and pt<=202211200016 ”,即代表讀取範圍在此之間的所有分割槽。

13.FTP 大檔案拆分支援自定義解析檔案的拆分

在使用者解析方式選擇自定義解析方式時,支援使用者上傳自定義 jar 包對 中的檔案進行切割拆分同步。

file

14.版本對比功能最佳化

· 歷史版本支援檢視近50條版本記錄

· 版本對比功能互動調整

• 支援歷史版本間對比

file file

15.整庫同步寫 hive 時支援對分割槽表指定分割槽名稱

當整庫同步選中 hive 類的資料同步目標時,可以指定分割槽欄位的名稱。

file

16.離線支援配置指標任務作為上游依賴

目前離線已經支援的跨產品任務依賴包括:質量任務(關聯)、標籤任務,加上指標任務後整個數棧的所有 就可實現相互的依賴了。

file

17.髒資料管理概覽圖顯示具體時間

file

18.透過右鍵快捷鍵可檢視任務日誌

file

19.任務執行進度最佳化

執行進度前展示等待時長。 file

20.其他最佳化項

· vertica 支援 資料同步

· 任務下線後,支援檢視

· 支援在任務間及工作流裡的引數傳遞

· 在建立釋出包時被選中時支援關聯到表:資料同步任務目標端一鍵生成的目標表,支援關聯至釋出包中

· SQL 語句支援:Desc database、Show database、Create database、Drop database、Show tables、Create table、Desc table、Alter table、Drop table、Creat function

· 表聯想功能最佳化:spark sql、hive sql、gp sql 編寫 SQL 程式碼時,支援表聯想功能,聯想範圍:離線對接和建立 schema 下的表

· 刪除任務、資源等內容時,提示內容名稱

實時開發平臺

1.【資料還原】支援一體化任務

背景:一個任務即可完成存量資料的同步,並無縫銜接增量日誌的採集還原,在資料同步領域實現批流一體,常用於需要做實時備份的資料遷移場景。

比如在金融領域,業務庫出於穩定性考慮,無法直接面向各種上層應用提供資料查詢服務。這時候就可以將業務資料實時遷移至外部資料庫,由外部資料庫再統一對外提供資料支撐。

新增功能說明:支援 +增量日誌還原的一體化任務,支援 MySQL—>MySQL/Oracle,在建立實時採集任務時,開啟【 】,還原範圍選擇【全量+增量資料】。

file

2.【資料還原】支援採集 Kafka 資料還原至下游

背景:當使用者對 Kafka 資料沒有實時加工的需求,只希望能將 kafka 訊息還原至下游資料庫對外提供資料服務時,可以透過實時採集配置化的方式,批次完整此類採集還原任務,不需要一個個的維護 FlinkSQL 任務。

新增功能說明:支援將 Kafka(OGG格式)資料,採集還原至下游 MySQL/Hyperbase/Kafka 表,在建立 時,源表批次選擇 Kafka Topic,目標表批次選擇 MySQL 表,再完成表對映、欄位對映。

file

3.任務熱更新

背景:目前對於編輯修改實時任務的場景,操作比較繁瑣。需要在【資料開發】頁面完成編輯後,先到【任務運維】處停止任務,然後回到【資料開發】頁面提交修改後的任務,最後再回到【任務運維】頁面向 YARN 提交任務。

新增功能說明:當前更新後,支援修改「環境引數」、「任務設定」後,在資料開發頁面提交任務後,任務運維處自動執行「停止-提交-續跑」操作。

4.資料來源

新增 、Vastbase、HUAWEI ES作為 FlinkSQL 的維表/結果表,均支援嚮導模式。

5.【表管理】合併原有的 Hive Catalog 和 Iceberg Catalog

背景:這兩類 Catalog,實際都是依賴 Hive Metastore 做後設資料儲存,Iceberg Catalog 只需要在 Hive Catalog 基礎上,開啟額外的一些配置項即可,所以將這兩類 Catalog 做了合併。

體驗最佳化說明:建立 ,可以選擇是否開啟 Iceberg 表對映,如果開啟了,在這個 Catalog 下建立 Flink Table 時,只支援對映 Iceberg 表。

file

6.【任務運維】最佳化任務停止時的狀態說明

背景:在儲存 Savepoint 並停止任務時,因為 Savepoint 檔案可能會比較大,儲存時間需要比較久,但是狀態一直顯示「停止中」,使用者無法感知停止流程。並且如果儲存失敗了,任務依然會一直顯示「停止中」,任務狀態不符合實際情況。

體驗最佳化說明:在儲存 Savepoint 並停止任務時,「停止中」狀態會顯示當前持續時間,以及儲存失敗的重試次數。當最終儲存失敗時(代表任務停止失敗),此時任務會自動恢復至「執行中」狀態。

file

7.【啟停策略】建立啟停策略時,支援強制停止配置項

背景:目前建立的 ,預設都是執行儲存 savepoint 的邏輯。但是當儲存失敗時,任務不允許自動做出選擇幫使用者丟棄 savepoint 進行強制停止,所以我們將這個的選擇權,放給了使用者。

體驗最佳化說明:建立啟停策略,有個強制停止的開關。

file

8.血緣解析

支援 ,支援全屏檢視,支援搜尋,任務節點支援檢視狀態。

file

9.系統函式

更新內建的系統函式,同步 Flink 官方內容。 file

10.其他最佳化項

· 資料還原:開啟資料還原的實時採集任務,支援生成 Checkpoint 並續跑

· UI5.0:更新 UI5.0 前端樣式

資料資產平臺

1.【血緣問題】冗餘血緣移除

背景:當前現狀當存在 時,會生成兩條血緣關係,此問題需要解決,否則全鏈路會產生非常多的冗餘血緣。

體驗最佳化說明:只展示一條血緣。

file

2.【血緣問題】關鍵字支援

· 當表發生 delete、drop、trancate 資料清空時,表與表之間、表與任務之間的血緣關係刪除

· 當任務下線、刪除時,表與表之間血緣依舊存在,表與任務之間的血緣關係刪除

3.【血緣問題】重合資料來源

背景:標籤指標對接的是 trino 引擎,離線對接的是 sparkthrift,如果不解決唯 一性問題,無法串聯全鏈路血緣。

體驗最佳化說明:不同鏈路間的血緣不相互影響,但是彙總成同一鏈路展示。

file

4.【血緣問題】資料來源唯 一性區分

· 不同的引擎讀取同一張控制檯的 hive 表(如sparkthrift、trino)

· 資料來源中心建立的不同的資料來源,其實是同一個

file

5.【全鏈路血緣】表→指標

資料資產平臺已初步實現數棧內部 的打通,包括表、實時任務、離線任務、API、指標、標籤。

表→指標:

• 根據指標平臺的【指標的生成】記錄【表→指標】之間的血緣關係

• 指標的生成包括【嚮導模式】、【指令碼模式】

• 指標平臺如果有變動,比如刪除、下線了某個指標,資產平臺需要更新

• 支援指標的欄位血緣解析

file

6.【全鏈路血緣】表→標籤

· 根據標籤平臺的【標籤的生成】記錄【表→標籤】之間的血緣關係

· 標籤透過實體和關係模型建立,實體中需要關聯主表和輔表,關係模型中有事實表和維表,並且關係模型可儲存為實際的物理表,因此血緣鏈路包括資料表、標籤

· 標籤平臺如果有變動,比如刪除、下線了某個標籤,資產平臺需要更新血緣檢視

· 支援標籤的欄位血緣解析 file

7.【全鏈路血緣】實時任務

· 任務型別有兩種: 和 FlinkSQL 任務,FlinkSQL 任務存在欄位血緣關係

file

· 支援 kafka 側的血緣關係展示

file

8.血緣展示最佳化

· 右上角篩選項:最佳化為多選選單,表、離線任務、實時任務、API、標籤、指標(預設選中全部維度,當前進入的維度選中且不可取消)

file

• 欄位血緣:不展示右上角的篩選項

• 逆向血緣全域性提示:

a.進入血緣關係頁面,進行全域性提示:“進入血緣每個節點都可右擊檢視該節點的全鏈路血緣,存在逆向可展開節點時建議右擊檢視~”

fileb.右擊檢視當前節點的血緣會更完整

file

9.DatasourceX:【儲存】、【錶行數】邏輯最佳化

背景:直接從 metastore 讀取是不準確的,之前 flinkx 是支援透過指令碼更新儲存和錶行數,flinkx 升成 datasourcex 之後,相關 analyze 邏輯沒有帶過來。

體驗最佳化說明:datasourcex 最佳化了對部分資料來源的【儲存】、【錶行數】的指令碼統計,包括 hive1.x、2.x、3.x(cdp/apache)、sparkthrift、impala、inceptor。

10.DatasourceX:【儲存大小】【檔案數量】更新邏輯最佳化

背景:資料治理新增了 的檔案數量,又因為檔案數量這個屬性是 datasourcex 支援,普通的資料來源也需要新增這個屬性。

體驗最佳化說明:datasourcex 對部分資料來源的【儲存大小】【檔案數量】的指令碼統計,資料治理結束後,更新【儲存大小】【檔案數量】邏輯。

11.前端頁面升級

體驗最佳化說明

• 資產盤點

file

• 後設資料標籤頁面

file

• 元模型管理

file

• 分割槽最佳化

file

指標管理平臺

1.【demo封裝】demo功能最佳化

· 資料模型支援 catalog 選擇,catalog 預設採用 DT_demo 租戶下指標繫結的 trino 資料來源對應的 catalog,schema 資訊預設為 dt_demo。

file

· 「專案管理」模組展示,支援檢視專案配置資訊,支援設定 API 資料來源,但不支援正常專案中可編輯的其他功能的修改,以保障 demo 專案的正常使用。

file

《資料治理行業實踐白皮書》下載地址:


《數棧V6.0產品白皮書》下載地址:


想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2951730/,如需轉載,請註明出處,否則將追究法律責任。

相關文章