袋鼠雲產品功能更新報告03期丨產品體驗全面最佳化,請查收!

數棧DTinsight發表於2023-01-03

年底啦~2022年即將走到尾聲,不過袋鼠雲對產品品質的堅持始終如一,這段時間我們對產品本身以及客戶反饋的一些問題進行了持續的更新和最佳化,例如新增任務告警,進行了Connector相關功能最佳化,以及支援跨時間分割槽圈群等。

以下為袋鼠雲產品功能更新報告第三期內容,更多探索,請繼續查閱。

離線開發平臺

1.任務診斷

使用者痛點:任務一直在等待提交或者等待執行,使用者看不到原因,不知道該如何處理能讓任務儘快跑起來;任務執行了很久都沒有出結果,不知道是什麼原因導致,不能有針對性地進行改善。

新增功能說明:對週期和補資料例項將按例項所涉及流程進行診斷,提示異常原因,給出建議方案。另外針對SparkSQL任務還支援根據引數展示給出提升執行效能的調參建議。

任務診斷功能的目的是幫助資料開發進行任務異常原因排查,以便快速採取應對策略解決問題,減少問題持續時間以及技術支援和產研的排查投入。

file

2.事件任務

事件任務可接收外部http訊號,被觸發後才能執行,多用於數棧離線任務依賴外部排程系統的任務的場景。

file file

3.條件分支任務

條件分支接收上游依賴一個或多個任務的傳參,當引數滿足某一條件時執行條件分支任務下游的一個或多個分支,在一次執行中沒有被命中的分支對應例項會被自動取消。

file

4.對接資料安全模組

使用者痛點:離線的資料許可權管理僅支援web層的管理方式,表的許可權申請審批透過資料地圖完成。

新增功能說明:數棧層面的資料許可權管理可選擇統一收攏至資料安全模組,當hadoop為開源版本3,ranger版本為2.2時,可透過在控制檯配置Ranger和LDAP元件,透過LDAP使用者認證由資料安全模組實現資料許可權管理,許可權管理更靈活、粒度更細。 file

5.Spark SQL臨時查詢展示任務執行進度

Spark SQL臨時查詢展示任務執行進度並實時列印日誌。 file

6.支援專案層面的統一配置項

支援在專案層設定是否在週期和手動任務/臨時查詢中允許ddl操作。

file

7.其他新增功能項

·支援HANA SQL任務型別:控制檯配置了HANA SQL引擎後離線可建立HANA SQL任務

· 支援Spark on Kubernetes:當控制檯配置的hadoop下的資源排程元件為Kubernetes時,Spark類的任務可正常執行

· 支援檔案複製任務:支援hive<->ftp之間的檔案複製,僅做複製檔案,不做資料解析,相對於透過FlinkX的資料同步可快速完成檔案的遷移,遷移完成後可透過load data的方式載入到表裡

8.資料同步欄位對映支援表後設資料重新整理

使用者痛點:資料同步任務建立完成執行一段時間後,源表或目標表表結構有變更(例如有欄位增減),需要對欄位對映進行重新配置。

產品體驗最佳化說明:點選重新整理後平臺將自動獲取最新的表結構,已建立的欄位對映將保留,新欄位需要重新對映。

file

9.補資料對任務增加自定義引數值的臨時替換

補資料的一些場景中需要對自定義引數值進行臨時改寫,此操作只針對本次生成的補資料例項生效。

10.告警規則的告警接收人支援按使用者組新增使用者

選擇使用者組後,使用者組新增或刪除使用者,對應告警規則接收人也將同步新增或刪除使用者。

file

11.python、shell任務依賴資源/任務改造

Python、Shell任務可引用其他任務進行程式碼計算,也支援選擇依賴資源一起提交執行。

file

12.支援透過上傳自定義日曆的方式進行全域性引數配置

全域性引數分為如下型別:

file

file

13.全域性自定義排程週期支援兩種時間粒度

使用者痛點:控制檯配置的自定義排程週期僅支援配置到時分,若一批任務的排程週期日期一樣僅時分不一樣則需要配置多個自定義排程週期。

產品體驗最佳化說明:控制檯自定義排程週期可選擇配置到天/時分,配置到天時,任務中可再選擇具體時分。 file file

14.管理角色的專案建立初始化改造

使用者痛點:admin、租戶管理員、租戶所有者,上述管理角色在專案建立初始化邏輯混亂,租戶層的管理角色可被移出專案,導致管理層角色實際管轄範圍有缺漏。

產品體驗最佳化說明:上述管理角色在專案建立時預設存在於所有專案中但預設不展示在使用者列表中,且不支援被移出專案。

15.資料開發表查詢互動最佳化

體驗最佳化說明

對錶按層級做了展示和互動最佳化。 file

16.重跑和置成功功能最佳化

重跑分為僅重跑當前例項和重跑當前例項並恢復排程,後者會帶起下游例項繼續執行。

file

置成功分為僅把當前例項置為成功狀態和置成功當前例項並恢復排程,後者是會帶下下游例項繼續執行。

file

17.離線開發首頁改造

file

18.RESTful資料同步支援多次資料請求和指定資料主體

RESTful資料讀取時可能一次請求得到的資料不完整,需要分多次讀取,因此離線支援配置多次請求引數,可分批進行資料讀取。

資料讀取時返回格式支援JSON、CSV和XML三種,且對JSON和XML支援指定資料主體,可從返回資料中用JSONPath的方式指定資料需要從哪個路徑的key下讀取。 file

19.FTP資料同步支援自定義解析方式

FTP中的檔案若有特殊的解析要求,可自行開發解析程式碼,以資源的方式上傳後在解析方式中選擇使用。

file

20.資料同步任務欄位對映支援欄位轉換

欄位對映中,可選擇資源管理中的資源單個/批次對欄位進行轉換處理,例如可以對源表欄位進行加密/欄位內容轉換等操作後寫入目標表。

file

21.釋出功能最佳化

· 匯入匯出式釋出現可支援工作流任務

· 對於釋出包中任務所需要但目標專案下缺失的資料來源進行了詳細提示

· 對於上游依賴缺失的任務進行完整提示,而非只發現最近一層缺失上游即終止檢查

· 自定義執行引數支援配置對映值:當前專案繫結了一個目標專案後,對於自定義引數可配置其在本專案的值和釋出至目標專案後的替換值

file

22.Spark CBO最佳化

Spark2.4及以上版本支援開啟CBO,開啟後平臺會按使用者設定的後設資料資訊傳送頻率把當前專案meta schema的後設資料資訊同步給引擎,以提升SparkSQL的執行效能(20%以上)。 file file

23.資料同步Oracle表搜尋去除大小寫敏感

例如原庫下有Oracle12和oracle333兩張表,在資料同步源表和目標表的選擇表中輸入“oracle”進行表搜尋

【修改前】搜尋結果為oracle333

【修改後】搜尋結果為Oracle12和oracle333

file

24.批次操作最佳化

· 支援批次修改排程週期

file· 增加操作成功/失敗結果狀態提示

file

25.任務和例項增加自依賴說明

任務/例項存在跨週期依賴的情況不能在依賴檢視中直接體現,因此在任務/例項的屬性資訊中增加此提示,以方便排查問題。

file

26.週期例項中按條件殺例項入口調整

按條件殺例項中可以根據任務條件進行批次選中任務。

file

27.Spark SQL語法校驗從平臺下移到外掛

Spark SQL語法校驗從平臺下移到外掛,且新增語法檢查按鈕。

file

28.提交/修改的任務能夠立即生成例項

任務在排程屬性中新增例項生成方式的選項,除每天固定時間點(22點)生成第二天的例項外還可支援立即生成當天的例項,例如一個任務的排程週期是小時,計劃時間是每天每個整點執行,例項生成方式選擇“立即生成”,當使用者在19:55的時候提交這個任務後,排程會立即生成當天20、21、22、23點的例項並執行。

file

29.FTP資料同步最佳化

· 在同步時可讀取檔名稱進行同步:FTP資料來源在欄位對映處支援增加檔名稱欄位,針對每行資料記錄其所對應的檔名稱並寫到目標表的欄位中

file· 對於同步成功的檔案可進行處理:刪除檔案、重新命名檔案、將檔案移動到指定路徑

file· 資料同步時列印彙總資訊:檔案總數,檔案內容,檔案資料總行數,總耗時

30.資料同步任務支援上游引數輸入

file

31.手動任務

新增手動任務的任務型別,用於手動調起執行任務的場景。

file

32.資料同步嚮導模式支援CustomSQL填寫

在資料同步任務中,針對RDB類資料來源(oracle、MySQL、pg、sqlserver、tdsql、gp、db2、達夢oracle&MySQL、kingbase、gaussdb、tidb、adb、hana、phoenix、solr)作為資料來源時支援透過自定義SQL跨表取數,且在欄位對映中對SQL欄位進行解析。

file

33.其他體驗最佳化項

體驗最佳化說明

·Spark引擎支援3.0版本:Spark SQL/Spark/PySpark任務支援用3.0版本的Spark引擎執行

· Hive支援代理賬號提交任務:在控制檯hiveserver元件上配置自定義引數hive.proxy.enable = true後,hive任務提交時將會由代理用當前使用者身份進行提交

· 任務SQL程式碼放開load data語句:hivesql sparksql impalasql inceptorsql現可正常使用load data語法執行和提交任務/臨時查詢

· 任務上下游引數傳遞最佳化:增加支援shell on agent任務的上下游引數傳遞;增加支援工作流內的sparksql、hivesql、shell、python、shell on agent

· 資料同步任務當HDFS分割槽不存在時,高階配置中可配置報錯或是寫入空資料:hdfs分割槽不存在的時候不要報錯,而是寫入空資料,可配置failedIfPathNotExist 引數,true代表不存在時報錯,false代表寫入空資料

· 統計資料流量統計最佳化:棄用使用objectSizeCalculator統計物件大小的方法,在ColumnRowData(flinkx上下游資料傳輸使用的物件)中設定一個累加器記錄物件大小

· 資料同步任務嚮導 -> 指令碼模式的轉換最佳化:資料同步任務在選擇來源和選擇目標時不可從嚮導轉成指令碼,在欄位對映和通道配置時可轉換成指令碼並且會提示先儲存,轉換成指令碼後向導模式下的配置才會保留

· 元件輸出引數修改為非必填項:輸出引數即資料產出表,最佳化前為必填內容,但在部分客戶的場景中多個任務的資料可能會產出到同一張表的不同分割槽,因此輸出引數從必填改為非必填

· 語法校驗最佳化:可校驗的SQL語句覆蓋全面,包括DDL、DML及一些特殊語法,例如with as,cache table,語法校驗時間縮短30%

· DAGScheduleX效能最佳化:離線運維中心可正常顯示百萬級例項日增時的顯示,千萬級例項的依賴拓撲圖可正常生成

實時開發平臺

1.Connector相關新增功能

· 新增支援RocketMQ資料來源,作為FlinkSQL的Source端

· 新增支援RabbitMQ資料來源,作為FlinkSQL的Source端

· 新增支援StarRocks資料來源,作為FlinkSQL的lookup&sink端

· 新增支援Vertica資料來源,作為FlinkSQL的sink端

2.Connector相關功能最佳化

· Redis結果表的嚮導模式配置,新增「資料型別」、「寫入模式」兩個配置項

· Oracle Logminer的QUERY_LOG_INTERVAL 引數提取,支援在高階配置中進行配置,該引數可以控制查詢間隔時間,防止沒有資料更新時頻繁查詢資料庫造成不必要的壓力

3.實時採集支援自定義SQL

間隔輪詢模式下的實時採集任務,支援使用者自定義SQL對採集源表進行過濾、關聯、計算等計算,然後再寫入結果表。 file

4.PyFlink最佳化

建立PyFlink任務時,支援上傳兩種附加檔案:

· 第三方Python包:用於上傳在Python環境中未打包或者只是該任務需要使用的Python依賴

· 附加依賴包:如果您的PyFlink作業中使用了Java類,例如作業中使用了Connector或者Java自定義函式時,可以透過這種方式來新增

file

5.產品首頁改造

對產品首頁進行改造,面向開發和運維人員,增強了首頁可用性。

· 運維指標:全域性統計該租戶下的所有任務執行的指標(後續會支援更多指標,支援自定義看板)

· 告警記錄:進入產品就能檢視當前收到的所有專案任務的告警資訊,快速進入各個專案進行排查

· 表熱度:統計各個專案中,【資料開發-表管理】中定義並被任務使用的Flink表

file

6.對外輸出任務執行日誌

當客戶需要對任務執行日誌進行深度分析、或者基於日誌內容做些監控告警,可以在【任務開發-任務設定】中開啟日誌推送,在模版內容中配置日誌推送的Kafka地址,使用者可以自行消費推送到kafka的日誌內容,進行二次開發。

file

7.SASL認證的KAFKA在不同Flink版本中的支援

Kafka SASL的認證引數在Flink1.10和Flink1.12中是不一樣的,目前只需要在資料來源中心配置統一的引數資訊,在任務執行時,系統根據執行的引擎版本在統一引數上自動拼接1.10和1.12不同的引數字首。

8.Flink1.12適配TBDS

· 實時採集:源表(TBDS_KAFKA)

· FlinkSQL:源表(TBDS_KAFKA)、結果表(TBDS_KAFKA、TBDS_HBASE)、維表(TBDS_HBASE)

9.髒資料管理結果最佳化

· 刪除髒資料列表中的欄位列,目前技術上無法支援定位到問題欄位

· 最佳化髒資料詳情的展示內容,列印整行資料,更容易定位問題資料

資料服務平臺

1.產品首頁改造

file

資料資產平臺

1.資料質量模組

· 質量關鍵日誌審計,記錄質量相關的關鍵操作,便於查詢與追溯

· 質量規則集匯入,規則集中的規則批次統一管理、統一排程規則集是規則的集合,一個規則集可以代表一個業務領域的質量校驗,從而提高效率、方便管理。後續做質量報告也會基於規則集進行統計

file

2.引導頁功能最佳化

file

3.質量概覽頁改造

質量概覽頁改造,配合數棧所有子產品首頁設計風格改造,增強了首頁統一性及美觀性。

file

4.資料標準對映結果檢視及UI最佳化

file

客戶資料洞察平臺

1.同步任務可配置環境引數

使用者痛點:不少客戶的Hive至Hbase資料同步任務要執行20多個小時,透過修改同步任務和Hbase的引數可以提高同步的速率。

新增功能說明:支援在任務管理頁面配置資料同步任務的引數,包括任務引數和Hbase引數,且支援使用者新增自定義引數,新增該功能後,使用者可以在產品介面上靈活修改引數資訊。

file

2.生成並下載分析報告

支援生成群組畫像、顯著性分析、對比分析word報告,報告內容包括分析圖以及分析資料。

file file

3.角色許可權點可自由勾選

使用者痛點:每個角色的許可權固定,無法滿足不同客戶對不同角色許可權的需求,支援使用者自由配置角色的許可權才能滿足複雜的許可權場景。

新增功能說明:支援自由配置普通角色的系統許可權。

file

4.選標籤控制元件互動升級

使用者痛點:目前選標籤時會按照類目樹、列表形式展示,標籤展示的位置有限,不利於快速查詢標籤。

新增功能說明:標籤根據類目平鋪展示,儘可能多地展示標籤 ,且支援搜尋;展示熱門、沉默標籤和我收藏的標籤。

本次對標籤選擇空間做了互動升級,可提高業務人員選擇標籤的效率。

file

5.支援跨時間分割槽圈群

使用者痛點:在標籤圈群業務場景中存在跨時間分割槽圈選使用者的場景,如“活躍度”這個標籤,業務需要圈選出5月2號是“高活躍”、6月2號變成“低活躍”的這批使用者,進行一些啟用措施,維持使用者活躍度。

新增功能說明:標籤圈群時,支援使用者選擇某個時間的某個標籤值進行圈群,完成跨時間分割槽圈群。

file

6.標籤後設資料增加業務口徑、技術口徑欄位

標籤基礎資訊中,支援使用者填寫標籤的業務口徑與技術口徑。

file

7.個體畫像詳情展示形式最佳化

使用者痛點:實際很多情況下標籤名稱、標籤值比較長,個體畫像頁展示不全,無法一眼看到關鍵資訊。

產品體驗最佳化說明:畫像詳情頁的標籤名稱、標籤值換行展示。

file

8.自定義標籤

支援使用者自定義上傳內容與標籤大寬表的欄位關聯鍵。

file

9.其他最佳化項

·資料安全對接Ranger:底層對接Ranger並適配Trino SSL,可在資料安全產品控制標籤表

· 匯出資料受行級許可權控制:群組列表的資料匯出也受行級許可權控制,保證許可權的一致性

· Trino對接底層Ranger許可權:在Ranger中,Trino可控制表、欄位的許可權,但不能控制行級許可權,適配Trino SSL

指標管理分析平臺

1.指標結果閾值告警

針對指標計算結果可設定監控告警規則,及時發現指標結果資料的準確性,實時告知接收人。

file

2.資料模型選擇分割槽表之後增加分割槽欄位與日期格式選擇

資料表中存在多個分割槽的情況,故需要使用者自主選擇,同時針對分割槽欄位的日期格式做出選擇。

file

3.指標任務增加任務自身的跨週期依賴

file

4.指標平臺支援對接Kudu進行資料儲存

指標平臺支援對接Kudu進行資料讀寫,完成指標開發、管理、排程、運維等全生命週期流程。

5.建立專案時,增加選擇API對接HBase資料來源欄位

以便使用者在主流程操作下,可以對該項進行設定。

file

6.頁面上增加圖文說明,幫助使用者理解產品邏輯

· 資料模型增加全量分割槽、增量分割槽、拉鍊表、非分割槽表的圖文解釋說明

file· 行級許可權增加靜態行級許可權、動態行級許可權的圖文解釋說明

file


想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2930547/,如需轉載,請註明出處,否則將追究法律責任。

相關文章