袋鼠雲產品功能更新報告04期丨2023年首次,產品升級“狂飆”

數棧DTinsight發表於2023-02-17

新的一年我們加緊了更新迭代的速度,增加了 和 ,超40項功能升級最佳化。我們將繼續保持產品升級節奏,滿足不同行業使用者的更多需求,為使用者帶來 。

以下為袋鼠雲產品功能更新報告第四期內容,更多探索,請繼續閱讀。

資料湖平臺

1.【後設資料管理】Catalog建立

在【後設資料管理】頁建立一個Catalog,填寫Catalog名稱、Hive MetaStore、Spark Thrift。

一個Calalog只允許繫結一個Hive MetaStore,Spark Thrift用於Iceberg表建立、 ,使用者可以使用Calalog進行業務部門資料隔離。

file

2.【後設資料管理】Database建立

在【後設資料管理】頁建立一個Database,繫結Calalog。

file

3.【後設資料管理】Iceberg表建立

• 在【後設資料管理】頁建立一個建立一張Table:選擇Table所在的Catalog、Database,目前只支援Iceberg湖表建立;

• 設定表普通列, ,可以用作湖表的唯一標識;

• 選擇普通列欄位作為分割槽欄位,支援多種轉換函式,timestamp資料型別欄位支援時間欄位按照年、月、日和小時粒度劃分割槽;

• 支援行組級索引設定,選擇普通列作為索引欄位,設定Bloom索引;

• 自定義高階引數設定。

file

4.【後設資料管理】Iceberg錶快照管理

支援快照歷史管理,支援多版本間快照變更對比, ,可一鍵回滾到指定資料版本。

file

5.【資料入湖】支援Hive轉Iceberg表實現

在【資料入湖】頁建立一個入湖任務,選擇Parquet、ORC、Avro格式Hive表進行轉表入湖,一鍵生成湖表資訊.

file

6.支援小檔案合併、孤兒檔案清理、過期快照清理

在【資料檔案治理】-【任務模板】頁新建任務模板,支援小檔案合併、 、孤兒檔案清理等資料檔案治理任務,支援立即支援、預約治理、週期治理多種資料治理方式。

file

大資料基礎平臺

1.【全域性】使用主機名作為機器唯一標識

• 上變更為以主機名Hostname作為唯一標識對主機進行管理;

• 主機間通訊預設為IP通訊,可在【平臺管理】-【通訊配置】頁進行通訊方式切換。

file

2.功能最佳化

• 告警:新建告警通道出現異常時dtalert和grafana告警通道不一致

• 告警:dtalert掛載目錄與上傳jar包目錄不一致

• 告警:新增 儲存後編輯上傳jar包不顯示

• Hadoop安全:EM開啟Hadoop安全,服務未重啟,直接顯示開啟成功

• 備份最佳化:

• redis角色獲取:redis執行正常,但是角色獲取資訊有誤,導致部署其他服務無法正確獲取redis角色狀態

離線開發平臺

1.資料開發IDE中可限制資料查詢條數

使用者痛點:資料開發頁面的臨時執行沒有限制資料結果查詢條數,極端情況下有把系統磁碟打滿的風險。

新增功能說明: ,執行按鈕右側新增了資料查詢條數輸入框,預設查詢條數為1000條,上限最大值為1000000條(最高上限為配置項,可在後臺配置)。

file

2.資料預覽全域性管控功能對接

資料來源中心新增 :

• 可進行子產品和專案的資料預覽全域性管控

• 可進行單個資料來源的資料預覽管控

file file

3.FTP作為目標資料來源支援4種寫入模式

• append:按檔名稱覆蓋寫入;

• overwrite:先清空目錄下的檔案然後寫入;

• nonconflict:按檔名稱查詢,存在同名檔案則報錯,不存在同名檔案則可正常寫入;

• insert:檔案追加寫入,存在同名時透過新增字尾的方式修改新檔案的檔名稱;

file

4.執行超時中斷

任務支援設定超時時間,執行時間超過此時間時後臺會自動殺死。

file

5. 控制頁面支援配置高階引數

file file

6.其他新增功能項

• Inceptor表接入資料地圖:Inceptor已資料地圖中支援後設資料查詢、資料脫敏、血緣展示等功能;

• 支援Flink Batch任務型別;

• HBase REST API支援資料同步讀取;

• Sybase 支援資料同步讀取。

7.補資料最佳化

• 補資料支援三種補資料模式:單任務補資料、在 按篩選條件篩選批次任務補資料、按任務上下游關係選擇多個任務補資料;

• 多個在同一依賴樹但彼此之間存在斷層/不直接依賴的任務,所生成的補資料例項仍將按原依賴順序執行;

• 支援選擇是否關閉重試;

• 補資料支援選擇未來時間。 file

8.告警規則任務選擇方式最佳化

支援按專案全選任務或按任務管理目錄全選目錄下任務。

file

9.整庫同步功能最佳化

• 整庫同步支援選擇:Oracle MySQL DB2 Hive TiDB PostgreSQL ADB Doris Hana 作為整庫同步目標端;

• 高階設定能檢視歷史配置,針對同一資料來源和schema,能記錄高階設定的規則內容。

file

10.Greenplum任務調整

• Greemplum SQL 和 Inceptor SQL 臨時執行復雜SQL和包含多段SQL時執行邏輯從同步執行修改為非同步執行;

• 表查詢中可檢視 ;

• 支援語法提示。

11.資料同步至HDFS時支援指定檔名稱

使用者痛點:歷史寫HDFS時,指定檔名實際是指定的葉子目錄名稱,實際無法指定檔名稱。

體驗最佳化說明:在高階配置中新增了引數strictMode,當引數值為“true”時,開啟嚴格模式,當引數值為”false“時,開啟寬鬆模式。嚴格模式下,指定葉子路徑下的檔名,僅允許存在一個檔名,多並行度、斷點續傳將不生效。

file

12.建立專案只允許以英文字母開頭

因部分引擎只能建立/讀取以英文字母開頭的schema(例如Trino),所以建立專案時專案標識限制為只允許以英文字母開頭。

13.釋出按鈕點選邏輯最佳化

修改前:只有已提交的任務釋出按鈕才可點選。

修改後:所有狀態的任務釋出按鈕均可點選。

14.事件任務文案調整

臨時執行需要將引數值傳為000000000000。

file

15.專案級kerberos新增提示

file

16.

使用者痛點:meta schema對應的資料來源和連線使用者都是控制檯的,如果不限制專案裡的這個資料來源只能選擇專案對接的這一個schema,相當於每個專案都可以透過資料同步繞過資料許可權管控把叢集下所有別的專案的schema的表直接同步到當前專案中用,這是一個非常大的許可權漏洞。

體驗最佳化說明:

• 過濾髒資料表;

• 針對所有meta schema所對應的資料來源固定可選schema的範圍僅當前專案對接的schema;

• 如果需要在當前專案同步任務裡要用到其他schema,可以把其他專案的meta schema透過租戶管理員授權引入當前專案裡用。

file

17.資料同步例項執行指標展示最佳化

的執行日誌最佳化了同步效能展示方式。

file

18.其他體驗最佳化項

• 安全審計操作物件“指令碼”修改為“臨時查詢”;

• for迴圈內網路開銷呼叫最佳化。

實時開發平臺

1.自定義Connector

使用者痛點:隨著實時產品客戶的增長,各種各樣的資料來源外掛需求不斷,我們希望有開發能力的客戶,可以不用等產品迭代,自行開發外掛去使用產品,使產品能力越來越開放靈活。

新增功能說明:對於ChunJun尚未支援的資料來源,支援上傳【使用者自行開發/第三方】的外掛包(需符合Flink Connector的開發要求,平臺不校驗外掛的可用性),然後在指令碼模式的任務開發中使用。

file

2.Session模式

使用者痛點:之前實時任務的除錯功能,和普通任務一樣走的per job模式。雖然該模式可以保障任務執行的穩定性,但是整個的提交-申請資源-執行,後端處理流程較長,不符合除錯的功能場景(除錯不需要持續的穩定性,但是需要快速的出結果)。

新增功能說明:除錯任務以 執行,提高除錯效率,使用者需要先在控制檯為實時debug分配slot資源。

file

3.表管理

使用者痛點:之前每個實時任務的開發,都需要臨時對映Flink表,開發效率較低;之前提供的Hive catalog表管理,需要使用者維護Hive Metastore,對原Hive有一定的入侵。

新增功能說明:提供 作為Flink後設資料的儲存介質;提供嚮導和指令碼兩種模式維護Catalog-database-table;支援在IDE開發頁面直接建立、引用Flink庫表(需要已Catalog.DB.table的方式引用)。

file

4.資料來源新增/最佳化

• 新增GreatDB作為FlinkSQL的維表、結果表;

• 新增HBase2.x作為FlinkSQL的結果表;

• 新增Phoenix5.x作為FlinkSQL的結果表;

• ,新增序列管理、clob/blob長文字資料型別支援。

5.髒資料管理

使用者痛點:原髒資料管理僅支援FlinkSQL任務。

新增功能說明:實時採集也支援髒資料管理。

file

6.功能最佳化

• 任務運維: ,支援按狀態、任務型別、責任人等過濾查詢;

• 資料開發:最佳化任務操作相關按鈕的排版;IDE輸入支援自動聯想;實時採集指令碼模式支援註釋。

資料資產平臺

1.資料來源

• 新增資料來源支援:

Greenplum、DB2、PostgreSQL(V5.3.0)

Hive3.x(Apache)、 、TDSQL、StarRocks(V5.3.1)

• Meta資料來源自動授權支援:

Hive3.x(Apache)、Hive3.x(CDP)(V5.3.0)

TiDB(V5.3.1)

2.資料地圖

• 新增指標:指標進 ,作為資產平臺的一類資產;

• kafka後設資料最佳化:Kafka隱藏表結構,新增分割槽查詢tab;

• 標籤篩選最佳化:標籤採集到的任務,之前沒有根據實體進行區分,會出現標籤名稱相同的情況,新增功能為標籤新增「所屬實體」屬性並在快速篩選欄增加實體篩選;

• 表標籤最佳化:表維度進入時,顯示 ,其他維度顯示「標籤」;各個維度打的標籤相互隔離,從不同維度進入時,不再能看到全部標籤。

file

3.API血緣

實現了表到API、API到API的 打通。

file

4.指標/標籤血緣

本期把指標標籤內部的血緣關係先拿到資產進行展示,下一期會實現表到指標、表到標籤的血緣關係。

file file

5.血緣最佳化

• 血緣解析新增truncate關鍵詞:當表發生trancate資料清空時,表與表之間、表與任務之間的血緣關係需要刪除;

• 排除自身到自身的血緣以及重複展示的血緣;

• :直角的血緣流向線段改為彎曲的灰色線;支援拖動;高亮當前覆蓋或點選的表的流入和流出。

file

6.資料檔案治理

將離線側的資料檔案治理遷移到資產側的 並進行最佳化和相容,治理規則包括週期治理和一次性治理。

file

7.資料檔案治理最佳化調整

• 週期治理「選擇專案」改為「選擇資料來源」,治理範圍為可選的 ,下拉框排序按照時間進行倒序;

• 一次性治理「選擇專案」改為「選擇資料來源」,治理範圍為可選的meta資料來源下的Hive表;

• 小檔案治理的時間如果超過3小時則治理失敗,超時的時間條件改為可配置項,可由配置檔案支援,預設為3小時;

• 佔用儲存的統計目標由一個分割槽/表改為一個檔案。

file

8.後設資料同步取消初始化流程

使用者痛點:V5.2合併改造,後設資料同步與 功能拆分之前,原有邏輯是在引入資料來源後會先進行初始化,初始化完成後會一次性拿到所有庫表名稱,進行後設資料同步時再去查拿到的庫表資訊,這將佔據較多的資源和儲存,並導致存在較多無用資料,如資產盤點載入資料慢等問題。

體驗最佳化說明:取消資料來源引入之後的初始化流程,在後設資料同步時 。

9.後設資料中心耦合關係最佳化

• 增量SQL最佳化:目前後設資料中心的定位 ,可以支援單獨部署,但是現在增量SQL無法支援;

• 產品許可權最佳化:某個客戶有資產許可權,在指標側呼叫後設資料中心的資料模型沒問題,但是客戶如果沒有資產許可權,呼叫後設資料中心的資料模型就會提示沒有許可權。

10.資料來源外掛最佳化

• 同步全部庫表引數,實際庫表發生變化,不傳引數,資料來源外掛實時去查庫表名稱;

• binlog關閉後重新開啟:指令碼已停止,沒有被重新喚起,再次開啟時需要自動喚起。

11.功能最佳化

• 髒資料:管理預設儲存實效為90天,全域性提示對應修改,髒資料管理範圍針對當前專案;

• 詞根匹配準確率提高:介面上增加的詞根、標準需要加入分詞器,解決了欄位中文名按照分詞去匹配,出現某些情況下無法匹配的問題。

客戶資料洞察平臺

1.證券、銀行、保險標籤體系demo整合

進入標籤平臺,透過彈窗進行demo體驗,也可透過平臺首頁上方檢視demo按鈕進入平臺體驗demo。

file

2.【標籤管理】支援配置自定義屬性

使用者痛點:目前標籤建立時的資訊是固定的,除了一些通用的屬性,不同行業客戶對標籤的後設資料資訊各有不同,如銀行客戶有定義標籤金融安全等級的需求,但這個屬性不適配基金、零售客戶,所以要透過標籤自定義屬性來實現。

新增功能說明:

• 在「標籤後設資料」頁面設定自定義屬性,並可在列表頁檢視通用屬性和自定義屬性的後設資料資訊;

• 通用屬性中增加 、業務口徑、技術口徑欄位;

• 自定義的屬性用於後續建立標籤時進行屬性設定。

file

3.【專案管理】移除標籤責任人等時指定交接人

【專案管理】移除標籤責任人、任務責任人、告警接收人、群組訂閱人時指定交接人。

file

4.【專案管理】Hive表和HBase表支援自定義生命週期

• 支援對標籤大寬表進行生命週期設定,超期資料可全部刪除,也可保留每個週期的特定時間的資料;

file

• 儲存的 可設定生命週期,超期資料可全部刪除,也可保留每個週期的特定時間的資料;

file

• 儲存為物理表的管理科設定生命週期,超期資料可全部刪除,也可保留每個週期的特定時間的資料。

file

5.資料同步功能最佳化

• Rowkey預分割槽功能最佳化:hbase表預設設定預分割槽,且分割槽數量 = 30,去除作業併發數對分割槽計算產生的影響;

• 作業併發數最佳化:作業併發數輸入限制調整為1-100,滿足業務更多的資料同步效率需要;

• 支援設定允許的髒資料條數:當產生的 超過設定的閾值時,作業停止同步、置為失敗;設定為0或空時,表示不允許有髒資料出現。

file

6.【標籤API】支援不指定業務日期查詢標籤結果

使用者痛點:標籤API查詢資料的過程中,可能存在因資料同步任務尚未完成導致API無法查詢到指定的最新業務日期資料的情況,此時會造成業務阻塞,為不影響業務正常執行,需要對Hbase資料做降級備份處理。

體驗最佳化說明:hbase中將備份儲存一份同步成功的最新業務日期的最近一次同步成功資料。

API傳參時,業務日期調整為非必填項:

(1)指定業務日期,系統將返回對應業務日期的資料;

(2)未指定業務日期,系統將返回備份資料。

7.功能最佳化

SQL最佳化:數字開頭的schema讀取問題最佳化;

標籤目錄:標籤可以掛在父目錄和子目錄下;

API呼叫:增加pageNo欄位。

指標管理分析平臺

1.【指標管理】支援生命週期設定

file

指標 支援生命週期設定;

file

指標API支援生命週期設定。 file

2.【指標管理】支援批次釋出

支援批次釋出未釋出、已下線狀態的 ,釋出成功後,可在指標市場中查詢到此指標。

file


想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2935761/,如需轉載,請註明出處,否則將追究法律責任。

相關文章