袋鼠雲產品功能更新報告07期|智慧、高效、安全,一個都不能少!

數棧DTinsight發表於2023-09-21

歡迎來到 07期產品功能更新報告!在瞬息萬變的市場環境中, 始終將客戶需求和反饋置於最佳化工作的核心位置,本期也針對性地推出了一系列實用性強的功能最佳化,以滿足客戶日益增長的業務需求。

以下為 報告07期內容,更多探索,請繼續閱讀。

離線開發平臺

新增功能更新

1.資料來源引入支援

背景:資料來源的使用讓使用者走審批流程,而非只是由管理員分配,方便進行審計記錄。

新增功能說明:專案管理員、專案所有者角色可在資料來源中心進行資料來源的申請,資料來源許可權經超級管理員、租戶所有者、租戶管理員審批透過後,引入資料來源彈窗才會出現審批透過的 ,專案管理員和專案所有者可以在專案中引入。

file

2.計算引擎功能完善

• 支援 explain

• Trino、Inceptor、Oracle、SQLServer、MySQL 支援語法提示

• Inceptor、Oracle、SQLServer、MySQL 支援表聯想、支援

• Oracle、SQLServer、MySQL 支援介面建立儲存過程、自定義函式、系統函式,支援 ,支援後設資料同步和整庫同步

• 所有 SQL 的子查詢生效

3.所有 SQL 任務支援非同步執行

背景:目前我們的 RDB SQL 任務大部分採用的是同步執行,同步執行很可能會導致任務執行超時還未返回結果,考慮和 GP 一樣全部調整為 ,最佳化使用者體驗。

新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,所有 SQL 類任務支援非同步執行。

4.支援 ,臨時執行停止和殺任務時支援從資料庫底層停止任務執行

背景:運維中心 RDB 型別殺任務,只是在介面上停止執行任務,並沒有在資料庫底層讓 SQL 停止執行,治標不治本。

新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,運維中心殺任務時,資料庫底層也停止執行。

file

5.on yarn 任務日誌實時列印

• 運維中心任務日誌實時列印

範圍: 、手動任務例項、補資料任務例項

任務型別:Spark SQL、Hive SQL、資料同步任務、HadoopMR、PySpark、Spark、Flink

• 臨時執行任務日誌實時列印

範圍:週期任務、手動任務、臨時查詢

任務型別:FileCopy、 、Spark SQL、Hive SQL

• 原資料同步中的「錯誤記錄數」「讀取位元組數」等資訊列印位置調整

file

6.分段執行時,展示每段 SQL 的執行進度,並展示當前執行的 SQL 內容

file

7.新增 Python on Agent 任務

背景:支援 的原因主要有以下三點:

• agent 能跑的任務更多

• on yarn 查詢速率太慢了

• yarn 上跑 python 需要手動上傳很多包,影響效率

新增功能說明:支援新建 Python on Agent 任務,Python on Agent 任務將獨立在控制檯配置的節點上執行,不會佔用 yarn 的資源。

file

8.表查詢中的 GP 資料來源,除了顯示叢集下所有表,還支援僅顯示當前使用者有許可權的表

背景:目前 RDB 資料來源,在離線專案中的表許可權是透過控制檯繫結的叢集資料庫地址控制的,所有角色和使用者擁有的許可權都一樣,無法做區分。

新增功能說明:

• 控制檯支援按使用者去繫結 賬號

• 離線新增「僅展示有許可權的表」按鈕,使用者可檢視繫結的資料庫賬號下有許可權的表

• 表查詢中支援檢視許可權範圍,例如 Select、Insert 等

file file

9.新增 Shell 元件模版

file

10.開啟嚴格模式下的資料同步問題解決

背景:如果平臺單獨開啟了 ,平臺的 HiveSQL 中會要求指定分割槽,否則執行會報錯。但是,如果當前叢集已經對接了資料安全,並且平臺的資料同步任務是透過 explain 語句來評估當前查詢使用者的許可權,如果實際使用者沒有分割槽欄位的查詢條件,資料同步任務也會因為沒有分割槽欄位的查詢條件而報錯。

Hive SQL 報錯客戶可以理解,因為自己開啟了嚴格模式,但是當對接資料安全後的資料同步任務報錯,這個其實是不符合邏輯的。

新增功能說明:新增了一個配置項。如果客戶是嚴格模式且關閉了 (對接資料安全/ranger),可以將這個配置項開啟,則不會報錯。

11.資料同步支援源表為空校驗

背景:資料同步過程中,如果源表為空,則會向目標表寫入空資料。在某些客戶的場景下,這樣可能是合理的;但是在另一些客戶的場景下,源表可能是業務方的表,資料同步過程中並不清楚源表為空,也不希望源表的空資料去向目標表寫入。

新增功能說明:

資料來源高/級配置中新增高/級引數「 」。

若為“true”,資料同步任務的臨時執行/ /補資料例項執行/手動例項執行前檢查源表是否為空,如果為空則例項狀態為提交失敗(臨時執行為執行失敗)。若任務配置了告警,則告警中會包含失敗原因“任務已開啟源表為空不執行的校驗,源表${表名稱}為空”。

若為“false”,資料同步任務的臨時執行/週期例項執行/補資料例項執行/手動例項執行前源表為空時,任務正常執行。

12.新增釋出狀態

背景:使用者無法區分發布頁面的物件是否已經打包釋出過,可能會造成部分任務重複釋出,導致資料覆蓋。

新增功能說明:釋出頁面增加了「狀態」欄位,包含「已打包」和「未打包」兩種狀態,重新提交的「週期任務」「手動任務」等物件,狀態會變為「未打包」狀態。

file

13.支援

支援SQL開發、版本回滾、表查詢、語法提示、函式管理、儲存過程管理、血緣解析、元件等功能。

14.支援 GitLab 程式碼倉庫同步

背景:許多客戶存在很多存量的程式碼,但是沒有一種方便快捷的方式進行遷移。離線支援了 的拉取和推送後,客戶可以基於 GitLab 進行程式碼遷移和程式碼管理。

新增功能說明:支援透過賬號密碼或是個人訪問令牌的方式訪問遠端 GIt 倉庫,可以從專案層面或任務層面進行程式碼的拉取和推送。

功能最佳化

1.資料預覽全域性管控最佳化

背景:之前在資料來源中心做了資料預覽管控的功能,可以針對單個資料來源或全域性進行資料預覽功能的管控。但之前僅管控到資料同步的資料預覽,離線產品需要進行最佳化,實現管控到表查詢和資料地圖的資料預覽。

體驗最佳化說明:meta 資料來源根據資料來源中心的預覽功能,實現了管控到離線產品的資料同步、表查詢、 等功能。

file

2.所有 SQL 任務的預設執行方式調整為整段執行

Hive SQL、Spark SQL、Greenplum SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、 、StarRocks SQL、Inceptor SQL、Impala SQL 所有 SQL 預設執行方式調整為整段執行。

file

3.臨時執行時記錄髒資料

臨時執行產生的髒資料表也需要記錄在 中,並且對各種情況的髒資料表分割槽命名進行了最佳化:

• 髒資料臨時執行分割槽的命名規則:task_name=任務ID_test_instance/time=時間戳

• 髒資料週期例項分割槽的命名規則:task_name=任務ID_scheduled_instance/time=時間戳

• 髒資料手動例項分割槽的命名規則:task_name=任務ID_manual_instance/time=時間戳

髒資料補資料例項分割槽的命名規則:task_name=任務ID_temporary_instance/time=時間戳

4.表查詢和語法提示範圍最佳化

離線開發中的表查詢和語法提示範圍最佳化為資產後設資料管理中所有的表(包含底層同步到資產的非 meta schema 的表)。

file

5.一鍵生成目標表功能最佳化

背景:目前我們在進行一鍵建表功能需求設計的時候,通常使用 varchar、string 等通用型別來覆蓋所有欄位型別,如果客戶有需求自行調整。但是實際上客戶的場景是複雜的,還涉及到資料精度等問題。因此我們在這個版本對常用資料來源之間的欄位對映關係做了梳理修改,儘量讓客戶使用一鍵建表功能時能直接使用,無需再進行調整。

體驗最佳化說明:RDB->Hive,Hive->RDB,RDB->HANA,HANA->RDB,RDB->ADB,RDB->Doris 等資料同步中的 功能,支援欄位根據對映關係匹配。

file

6.切分鍵填寫最佳化

背景:「源表切分鍵」的填寫入口在「資料來源」時,客戶經常會漏填,並在「通道控制」頁面選擇了大於1的併發數,在執行任務後才報錯,客戶需要再去新增切分鍵,產品體驗差,效率低。

體驗最佳化說明:將「 」填寫入口從「資料來源」移至「通道控制」頁面;新增「開啟併發」按鈕,開啟後支援填寫源表切分鍵。

file

7.同步任務中選擇和其他同步任務相同的目標表時,會進行提示

背景:在一般的 ETL 場景中,一張表只會在一個資料同步中作為目標表存在,如果在多個同步任務中配置了同一個目標表,很有可能會造成資料丟失、資料覆蓋等問題。

體驗最佳化說明:在資料同步選擇目標表時,若選擇的目標表在當前租戶下的某些資料同步任務中已經作為目標表存在,則會進行提示,並告知任務名稱、任務責任人和所屬專案。

file

8.置成功、重跑、殺任務生效範圍調整

背景:目前 限制了特定狀態下的例項才可操作,實際置成功的主要目的是當依賴鏈路中出現了暫時無法快速修復的阻塞例項時,在某些情況下其下游例項如果對這個或這些例項不是強依賴並且不能延遲時,希望平臺提供一種強制或者臨時處理方式從而讓下游可以繼續跑起來。

導致這種阻塞的情況不止現在的失敗、取消,而是包含除“成功”外的所有狀態,因此,能夠支援置成功的例項為除“成功”狀態之外的所有狀態的例項;重跑同理,更加不用關心例項狀態。

體驗最佳化說明:

• 所有狀態的例項支援「置成功」

• 除執行中外所有狀態的例項支援「重跑」

• 等待提交、提交中、等待執行、正在執行、凍結狀態的例項支援「殺任務」

9.跨租戶/專案/產品的例項支援在離線運維中心運維

背景:補資料鏈路中若存在指標例項,指標例項出現失敗的情況,目前無法實現重跑操作。因為離線內暫不支援對其他產品例項的運維,導致修復處理非常麻煩。

體驗最佳化說明:跨租戶/專案/產品的例項支援在 展示,支援「緊急去依賴」「終止」「置成功」「重跑」等操作。

10.例項置成功操作時,若繫結有質量任務,質量任務例項不執行

背景:置成功一般發生在當前任務暫時無法執行成功,但是下游要正常執行下去的情況。這種情況下當前任務一定存在問題,如果繼續走質量校驗沒有意義。

體驗最佳化說明:當對 置成功時,如果有質量任務繫結,質量任務例項不執行。

11.例項依賴檢視最佳化

背景:任務依賴檢視和例項依賴檢視應該有所區分。任務依賴檢視展示任務間依賴關係; 應該展示當前例項的依賴檢視,包含例項間依賴和跨週期依賴。這樣有助於使用者全鏈路檢視例項依賴關係,理解執行流程。

體驗最佳化說明:運維中心例項依賴檢視,展示當前例項的跨週期依賴例項檢視。

實時開發平臺

新增功能更新

1.FlinkSQL 開發,Kafka ChunJun-json 支援自動對映

上個迭代已經支援了 的自動對映,本次迭代支援了實時平臺自身採集工具打到 Kafka 的格式(ChunJun-json)。

file

2.Kafka 讀取型別新增 Raw Format

如果你的 Kafka 中具有原始日誌資料,並希望使用 Flink SQL 讀取和分析此類資料時,需要用到 。如:

47.29.201.179 - - [28/Feb/2019:13:17:10 +0000] "GET /?p=1 HTTP/2.0" 200 5316 "(Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75"

如果讀取型別使用 raw format,請避免使用 upsert-kafka。因為 raw format 會將 null 值編碼成 byte[ ] 型別的 null,而在 upsert-kafka 中會將 null 視為刪除值的操作。

file

3.FlinkSQL 維表、結果表新增 Hyperbase 資料來源

file file

4.Flink1.12 中重構 PGWAL 外掛

背景:Flink1.10 已支援過 PGWal 外掛,之前外掛遷移1.12的時候,漏測了 PGWal,目前在 Flink1.12 上測試發現存在比較大的問題。

新增功能說明:

file

5.Hive Catalog 支援開啟 keberos 認證;DT Catalog 中的 Flink 對映表,源表支援開啟 keberos 認證

表管理處的 ,分為兩種程度:

• Catalog 的認證:此處是透過控制檯的 Flink 元件維護 krb 檔案。(如果 hive catalog 的 hms 也自帶 krb 認證檔案,平臺不做校驗)

file

• Flink 對映表的認證:支援 Flink 對映表的源頭,如 kafka/hbase 資料來源開啟 krb 認證。(使用者需要保障 Flink 開啟的 krb 認證和表資料來源的 krb 一致,不然任務可能會執行失敗)

file

6.IDE 執行新增 Select 線上查詢能力

背景:之前數開人員排錯想要檢視程式碼邏輯,需要將結果列印到日誌中檢視,操作成本較高。

新增功能說明:在 IDE 中可以對平臺中的 DT+hive catalog 表進行 、執行 DDL 語句,結果在控制檯進行檢視,對於已停止的任務可以下載匯出 csv 檔案資料。

file

7.新增實時數倉 demo,支援自動造資料,執行全鏈路任務

背景:給客戶演示產品時需要配置資料來源等資訊,門檻較高。

新增功能說明:在演示產品時點一點按鈕就能自動造資料,並執行起全鏈路任務。點選試執行後平臺將在任務運維自動生成並提交四個任務,在一小時後自動下線(點選取消試執行直接刪除下線),這些任務不支援在任務運維介面進行操作。

file

8.新增 ,支援使用系統內建模板以及建立自定義模板

實時平臺內建各種 FlinkSQL 場景的開發模版,方便開發理解、上手,也可以根據業務自己建立自定義模版,提高開發效率,模版支援直接引用到自己的任務上做調整。

file

9.其他新增功能

• 引擎版本:實時採集、FlinkSQL、Flink 和 PyFlink 任務的引擎選擇支援 Flink1.16 版本

• 產品 logo:產品 logo 和名稱從控制檯的配置內容讀取,不再固定寫死

功能最佳化

1.Flink 版本查詢介面直接獲取控制檯資訊,平臺不維護

實時平臺幾個 Flink 版本選擇的地方,直接查詢控制檯維護的資料,平臺自身不再寫死版本號。(如果控制檯只新增了1.12,實時平臺只顯示1.12;如果控制檯新增了1.12和1.10,實時平臺則顯示兩種)

2.【實時採集】嚮導模式中將前端的配置項抽象化

背景:如果要支援嚮導模式,每新增一個資料來源,前端都需要開發一套配置項。使用者/定開團隊開發的自定義 connector,如果不進行前端定開,只能在指令碼模式中使用。

體驗最佳化說明:在嚮導模式中將 ,後端開發完自定義 connector+SQL 刷入前端配置項+少量/甚至沒有前端開發工作,完成一個自定義 connector 的開發應用。

3.其他功能最佳化

• Phoenix5.x:Flink1.12 版本支援 phoenix5.x sink 的選擇

• Kafka 叢集:移除叢集管理功能模組,kafka 管理模組後續的定位就是做 Topic 的增刪改查,不會提供叢集管理相關的能力

• SDK 介面:新增根據任務查詢 sqltext 的介面;新增根據專案標識獲取專案資訊的介面

資料資產平臺

新增功能更新

1.告警通道中的自定義告警通道支援顯示多通道

背景:業務中心配置多個自定義告警通道時資產平臺只展示一個,但實際傳送告警時將對每個自定義告警通道進行告警資訊傳送,存在告警資訊傳送冗餘,且與其他子產品的邏輯不一致。

新增功能說明:對於 像其他子產品一樣顯示所有告警通道,且可選擇一個或多個進行告警資訊的傳送,修改範圍包括後設資料訂閱、質量規則等所有涉及告警配置的位置。

2.資料模型支援 inceptor 建表

當前租戶的資產中存在自動引入的 inceptor meta 資料來源時,可在資料模型--規範建表模組進行 ,支援配置表的基礎資訊和表結構,其中配置表結構時新增支援對分桶欄位、分桶數配置。

file

若新建表已完成審批,在後設資料檢視時針對分桶欄位增加分桶標識展示。

file

3.【資料質量】質量規則對接資源組

在 中,單表校驗和多表校驗中跑在 yarn 上的任務,以及實時校驗任務的排程屬性彈窗中新增資源組的必選項。

file

4.其他新增功能

• OushuDB 支援後設資料同步和檢視:離線對接了 生成的 meta schema,資產支援自動引入,並支援後設資料的同步和檢視。

• 資料來源:新增資料來源支援 Hive_MRS、Trin

• 規範建表支援 AnalyticDB PostgreSQL 表

功能最佳化

1.規範建表數倉層級繫結資料庫邏輯最佳化

背景:一個數倉層級只能綁一個庫,實際使用者在數倉時可能存在跨庫多主題或者多主題單庫,需要數倉層級與庫的繫結關係更為靈活。

體驗最佳化說明: 與庫不再與資料庫配置繫結關係,規範建表時可在選擇數倉層級後另外選擇資料來源。

file

2.Inceptor 表支援表血緣

file

3.表生命週期到期後處理方式調整

背景:資產資料模型和質量的髒資料表生命週期到期邏輯不一致,資產資料模型在表生命週期到期後將儲存後設資料資訊,導致無用後設資料資訊不斷累積,後設資料查詢效能受到影響;質量的髒資料表在生命週期到期後則會刪除後設資料資訊,僅 Hive 表支援了生命週期。

體驗最佳化說明:

資產資料模型中的表生命週期到期後也刪除後設資料資訊,即最後統一為:

例如將表生命週期設定為10天,則:

• 對於非分割槽表,當前日期 - 最後一次資料修改日期 > 10天后,平臺將自動刪除該表

• 對於分割槽表,當前日期 - 某分割槽最後一次資料修改日期 > 10天后,平臺將自動刪除該分割槽,分割槽全部刪除後表將被刪除

另外 Inceptor 表也支援了 。

4.資產監聽離線 IDE 的 DDL 語句,SQL 解析後後設資料變更實時更新在

目前支援的 meta 資料來源範圍:Hive、AnalyticDB PostgreSQL、TiDB、Inceptor、Hashdata、StarRocks

5.資料地圖最佳化

資料地圖查詢效能最佳化:每張表200個欄位,200w張表的 ,在資料地圖頁面查詢響應達到5s以內

血緣顯示內容最佳化:血緣中各節點內容包含表名、schema 名稱等顯示完整

6.其他體驗最佳化

• 離線刪除專案後資產自動引入的 meta 資料來源將同步刪除

• Hive 後設資料技術屬性增加表型別說明,可標識其為 Iceberg 表或者其他格式的表

• 資料脫敏最佳化:脫敏方式除覆蓋外另支援轉義和 ,支援對指定人群脫敏/指定人群不脫敏,並支援按使用者組進行使用者範圍選擇

• 資料地圖遷移後,所有租戶下擁有離線產品許可權的使用者都自動增加資產平臺的訪客許可權

• 支援離線建立專案生成的 Oracle、SQL Server meta 資料來源在資產平臺的自動授權

• 產品 Logo 可在業務中心統一配置

• 所有下拉框增加 loading 效果, 、任務、資料來源管理、後設資料管理、檔案治理的列表篩選框增加模糊搜尋

• 資料質量告警的告警top20增加告警時間的顯示

• 後設資料同步最佳化:後設資料模組中的資料同步功能,在點選列表中的立即同步操作後,在按鈕旁邊加狀態標識,避免重複操作

資料服務平臺

新增功能更新

1.支援對接自定義角色

平臺角色管理中,admin、租戶所有者和租戶管理員可在租戶層為 API 建立自定義角色(可自由配置 ),此角色建立後會在該租戶的每個專案中存在。此外還可修改固定角色,如專案管理員、資料開發等的許可權點。

file

API 內的專案管理-角色管理中展示當前專案中的所有固定角色和自定義角色(僅檢視不可編輯)。

file

2.Python 函式增加支援3.9版本

背景:python 主流版本分為2.x和3.x,資料服務之前僅支援 python2.7 是因為 Jython 執行框架僅支援到2.7版本且無法進行包含c語言的三方庫擴充。但是 python2.7 版本較老,大部分客戶用 python3.x 較多,且有擴充三方庫的需求。

新增功能說明:後續運維部署時預設增加3.9版本,2.7和3.9並存,2.7仍用 Jython 框架,3.9改為 。透過 Runtime 呼叫 Python 程式與直接執行 Python 程式的效果是一樣的,所以其天然支援任意三方庫的依賴,同時可以在 Python 中讀取傳遞的引數,也可以在 Java 中讀取到 Python 的執行結果。

另外 增加了一個配置項,這裡我們提供的預設環境是沒有三方庫依賴的,客戶可替換為客戶環境的 python 可執行檔案。

python3.exe.path = /opt/dtstack/DTGateway/Apiserver/python3/bin/python3.9

3.API 市場的呼叫預覽增加支援服務編排、註冊 API

file

功能最佳化

1.審計內容完善

支援了更加完善的關鍵操作審計,以下為部分:

file

2.安全組中的ip地址黑白名單校驗

背景:同一 API 所選的 沒有做校驗,導致同一ip同時出現在一個 API 的安全組白名單和黑名單中。

體驗最佳化說明:API 在配置安全組時會對所選黑白名單進行ip地址是否衝突的校驗,如果衝突則無法新增成功;歷史已經存在衝突的情況,黑名單將生效。

3.註冊 API 返回結果是否帶平臺預設結構支援配置

背景:目前在資料服務註冊的 API 會外面包一層內容,導致註冊以後的返回結果與原生 API 不一致。

體驗最佳化說明:後端增加一個配置項,可配置返回結果是否加上我們自己的內容,預設加上。

客戶資料洞察平臺

新增功能更新

1.產品名稱對接業務中心

背景:當前標籤產品名稱、logo 等資訊是系統內建的,不可更改,但客戶根據自己實際需求會有需要變更的情況,此時需要我們配合做調整。為提高變更效率,將資訊的配置統一對接到 ,客戶有需要時透過業務中心修改即可。

新增功能說明:

• 透過數棧首頁進入「頁面配置」介面,更新「客戶資料洞察設定」內的配置內容,配置頁面見下圖:

file

配置生效後,下述頁面內容將分別引用上方的特定設定。

(1)產品 loading 頁:使用「Loading 頁文案」的輸入文字、顏色

file

(2)標籤產品專案列表頁、系統內所有頁面左上角:使用「產品主頁左上角名稱」的輸入文字、顏色,「產品主頁左上角 icon」設定的圖片

file

(3)瀏覽器標籤欄:使用「瀏覽器標籤頁名稱」的輸入文字、「產品主頁左上角 icon」設定的圖片

file

• 透過數棧首頁進入「頁面配置」介面,更新「首頁設定」內的各功能模組的名稱配置內容後,標籤內部關於子產品名稱的引用,將引用此處設定內容。首頁設定內容如下:

file

配置生效後, 內部引用位置,如專案列表中的專案空間關聯子產品,如下:

file

2.個體畫像支援檔案匯出

背景:根據 ,需要將資料分享給其他業務人員做報告輸出。

新增功能說明:進入個體畫像頁面,透過模糊/精確匹配顯示搜尋結果,點選「畫像匯出」可匯出所有搜尋結果。

file

匯出結果將以PDF格式放至下載中心,可前往下載中心進行檔案下載。若搜尋結果大於2萬個,將根據使用者輸入的單檔案儲存數量將資料分別存於多個PDF檔案中,並壓縮成zip檔案供使用者下載。

file

3.群組列表支援匯出後設資料資訊

背景:梳理群組數量狀態,將資料分享給其他業務人員做報告輸出。

新增功能說明:進入群組管理頁面,點選「群組元資訊下載」可匯出所有篩選後結果。匯出結果將以CSV格式放至下載中心,可前往下載中心進行檔案下載。

file

功能最佳化

1.【SQL最佳化】提升查詢效率

背景:Hive 表建立 SQL 中,涉及到 $partitions 引數引用,Trino 會進行全表掃描,從而佔用大量記憶體空間。在現有功能上,需要縮短實體表的生命週期才能保證任務正常執行,需要對 SQL 進行最佳化從而實現在表生命週期長的情況下,任務依然可以正常執行。

體驗最佳化說明:

Trino SQL 中涉及 的地方調整為子查詢,包括標籤加工任務、 、群組任務。

2.支援查詢專案所在 schema 下的所有表、檢視

背景:客戶資料存在一個表被不同的專案使用的情況(不同專案使用不同的 schema),需要在建立實體的時候可以選到需要的表,當前因查不到檢視類的資料導致業務阻塞。

體驗最佳化說明:建立/編輯實體的第一步中的主表、輔表支援選擇當前專案資料來源 schema 下的所有表、檢視。

3.群組列表中,建立人支援篩選

下拉框預設展示前20個建立人,其餘內容需透過搜尋查詢。

file

4.專案管理頁成員管理支援對角色做篩選

file

指標管理平臺

新增功能更新

1.共享指標支援繫結維度物件、維度屬性

背景:上一版本新增了 ,後續指標加工將依賴繫結的維度內容識別維度一致性,共享指標需繫結已有維度才能與自有指標做複合指標加工。

新增功能說明:「指標中心」-「指標開發」-「指標定義」-「共享指標」中顯示了共享給當前專案的指標,點選「關聯維度」即可與自有維度繫結。

file

2.模型支援共享給其他專案使用

背景:原指標共享使用過程中,客戶會有根據自己專案的業務需求基於源表做指標加工的需要,因源表無法獲取導致資料無法正常加工。

新增功能說明:

• 「指標共享」-「模型共享」新增

file

• 點選「新增模型共享」可將指定專案的模型共享給其他專案。整體設定內容與指標共享類似,特殊地方為模型共享粒度當前支援表級別共享,即根據共享規則設定的條件分別針對模型中的每張表設定過濾條件,將過濾結果以檢視形式共享到目標專案

file

• 共享的模型可在專案內的「指標中心」-「資料管理」-「資料模型」中的「共享模型」tab 檢視,對於需要在原模型基礎上增加自有表形成新模型的需求場景,可透過複製功能實現。點選複製,填寫模型名稱、編碼等資訊,生成新模型後,編輯模型,設定對應的維度資訊、模型儲存資訊後即可釋出,釋出後的模型可正常用於後續指標加工

file

3.維度支援共享給其他專案使用

背景:在指標管理過程中,會有對維度做全平臺統一管理的需要,當進行 時,便於理解指標維度的含義。

新增功能說明:

• 「指標共享」-「維度共享」新增維度共享

file

• 點選「新增維度共享」可將指定專案的維度共享給其他專案,整體設定內容與指標共享類似,只需設定基礎共享內容即可

file

• 共享的維度可在專案內的「指標中心」-「資料管理」-「維度管理」中的「共享維度」tab 檢視,模型、自定義指標加工時選擇的維度資訊可引用共享來的維度

file

4.指標共享時支援同步共享血緣上游指標、資料模型、維度物件

新增功能說明:

新建指標共享時,【第一步:設定通用共享資訊】中的作用範圍可增加 、資料模型、維度物件。

file

增加後,【第二步:設定共享條件】將針對每個單獨的指標、模型設定共享條件,對於其中存在的共同的條件,可在第一步的公共維度共享規則中進行批次設定,最終共享規則將以第二步設定的內容為準。

file

5.上游內容更新後,下游內容支援聯動更新

• 統計週期變更後,引用該統計週期的 的自動更新版本,變更統計週期相關的 SQL 片段

• 資料模型的維度增加併發布時, 自動更新,增加新維度;減少時,所有使用到該維度的指標均更新,去除引用維度

• 原子指標技術資訊變更併發布後(計算邏輯、精度、為空預設值),引用該原子指標的派生指標自動更新計算公式

• 派生指標、複合指標、自定義指標的維度減少併發布時,下游指標自動更新,去除引用維度

功能最佳化

1.模型詳情中顯示儲存方式、維度管理資訊、排程資訊

• 模型詳情中的「基本資訊」中的【模型資訊】模組增加儲存方式顯示

file

• 模型詳情中的「基本資訊」中的【資料資訊】模組中的維度增加維度物件、維度屬性資訊顯示

file

• 模型詳情中的「排程資訊」顯示排程相關資訊,包括表/任務資訊、排程資訊、資料生命週期等

file

2.任務選擇中支援選擇落表模型對應的模型任務

模型、指標排程資訊設定中,選擇上游任務時,可選擇落表模型生成的任務。

file

3.模型 SQL 顯示內容最佳化

當前模型 SQL 顯示頁面較多,不同頁面顯示內容不完全一致,有些增加了排程資訊、有些只展示選中的維度、度量資訊,增加理解難度,本次最佳化統一 SQL 顯示內容。

4.模型詳情中的「版本變更」中去除「恢復」功能

背景:增加維度管理後,因後續指標是依賴最新維度資訊生成的指標維度,若對版本進行恢復,將導致模型與指標的維度資訊不一致的情況。

體驗最佳化說明:頁面去除恢復功能,僅支援檢視功能。

file

5.編輯模型時,不支援修改表別名

背景:模型落表後,將根據表別名生成模型表欄位,修改表別名後,模型表欄位將發生變更,導致後續計算時查詢不到歷史欄位。

體驗最佳化說明:編輯關聯表時,表別名不可修改。

file

6.模型支援源表欄位型別變更或欄位減少

源表欄位型別變更或欄位減少時,系統將彈出受影響的業務限定、指標、許可權設定、API,使用者需手動編輯後生效。

7.其他功能最佳化

· 資料許可權、API 的公共維度判斷調整為基於維度物件、維度屬性判斷

· 指標市場的 結果查詢將返回根據公式計算的結果

《資料治理行業實踐白皮書》下載地址:


《數棧V6.0產品白皮書》下載地址:


想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2985072/,如需轉載,請註明出處,否則將追究法律責任。

相關文章