星環科技 TDS 聯邦計算能力,讓企業異構資料來源資料合作暢通無阻
在資料成為生產要素的今天,企業愈發需要更高效、簡潔利用資料的方法來快速響應不斷變化的商業和情報分析。傳統方式是資料整合(ETL)後再做分析,但目前需求在變化,資料來源也在變化,資料整合系統越來越龐大,導致響應變化的速度越來越慢,逐漸出現靈活度低、過程複雜、難以管理等問題。針對這樣的困境,企業需要一種能更靈活、快捷地進行資料整合的方法,而這種方法就是 資料聯邦與聯邦計算。
透過ETL整合
資料聯邦與聯邦計算融合, 一平臺即可對同構或異構資料進行訪問和分析
“資料聯邦”以及“聯邦計算”概念的出現,使資料整合的方法發生了極大的改善。 “資料聯邦”解決了靈活統一資料檢視的問題;“聯邦計算”解決了靈活統一資料查詢的問題。而這兩種技術結合可以提供虛擬的資料整合檢視,以及封裝後的資料加工介面,使資料消費者(企業應用)無需考慮資料物理位置、資料結構、操作介面和儲存能力等問題,即可在同一平臺上對同構或異構資料進行訪問和分析。
透過資料聯邦和聯邦計算整合
資料聯邦可以為企業的資料管理帶來以下能力:
1. 資料來源松耦合:使系統間處於松耦合關係,資料來源的新增與刪除簡單易行;
2. 虛擬化的資料整合:與傳統ETL相比,資料聯邦僅進行了虛擬的整合,能更快、更低成本地整合大量資料,提升資料整合速度;
3. 資料資訊透明:使用者不需感知資料來源的位置和結構,資料來源系統不需要做改動,可保持原有獨立運作,資料處理靈活度得到提升;
4. 減少資料冗餘:因為透過虛擬檢視而不是複製的方式整合,極大降低了資料洩露的風險,增強了資料的可維護性;
5. 保證資料一致性:資料聯邦統一管理資料,能更好保證跨庫資料一致性。
資料聯邦與聯邦計算, 打破企業資料孤島
資料聯邦和聯邦計算解決了“資料孤島”問題,並且避免了傳統ETL流程長,開發和運維成本較高的缺陷,可以滿足應用對資料採集有 靈活性、實時性要求,或者 存在異構資料來源處理的場景:
快速靈活的採集資料
虛擬的操作型資料庫(ODS): 透過虛擬操作型資料儲存(ODS),構建可操作的資料整合檢視,資料變化會很快反映到ODS,且聯邦的資料來源可隨具體的分析需求靈活增減變化,因此能滿足一些輕量、短期的資料分析,或者實時靈活的儀表盤應用。
建造資料中轉區:利用資料聯邦構建資料中轉區,可以對大量從生產系統進入數倉的資料進行快速合併,極大減少資料複製對生產系統的干擾。資料中轉區對資料變化的實時儲存,能記錄完整的資料變更資訊。
資料倉儲的擴充套件:企業部署資料倉儲後存在問題,一方面,整個企業不太可能只使用單一數倉;另一方面,企業仍然有大量的資料未存入任何數倉,需要構建統一視角。而資料聯邦和聯邦計算能在無需轉換格式和移動資料的情況下,提供所有企業數倉和零散資料的統一視角,降低了資料移動轉換的成本。
異構資料來源的處理
企業資料治理:聯邦後的資料構成資料治理的底座,對異構資料庫或資料平臺提供統一管理,形成統一的資料治理流程和規則。經過治理後,企業可以構建出完整的資料資訊資產列表,如企業資料資源,或者完整的客戶資訊檢視等,可對這些資產進行共享交換。
異構平臺遷移:在異構平臺遷移過程中使用聯邦計算,能使遷移過程更平滑,無需考慮資料的遷移和異構平臺語法不相容等問題,保證應用對資料的使用不受影響,且能在遷移完成後在不影響新應用的前提下更改資料來源配置。
異構資料分析:企業可以利用資料聯邦的能力,實現跨結構化資料、非結構化或者半結構化資料的分析。
星環科技自研的聯邦計算平臺,聯邦多個同構或異構的自治資料來源
聯邦計算的關鍵點 即實現基於統一的SQL查詢引擎。星環自研的聯邦計算平臺可以聯邦多個同構或異構的自治資料來源,使用者可以隨意查詢在聯邦系統中任意位置的資料,而不必關心資料的存放位置、實際資料來源系統的SQL語言種類或儲存能力。其架構如下圖所示,主要實現了對以下兩方面的統一:
1.統一的後設資料管理
構建各個同構、異構資料來源的抽象整體檢視,提供統一資料來源連線管理、統一的元資訊管理。
資料來源連線層:透過聯邦計算平臺,開發者可以構建跨資料庫例項的虛擬連線,從而在當前資料庫中實現跨庫訪問。該層負責管理接入資料來源,既支援傳統資料來源的連線,也支援大資料平臺的連線;既支援結構性資料,也支援非結構資料接入。
元資訊管理層:從各資料來源獲取元資訊並集中管理,透過對資料來源的查詢來獲取和維護最新的元資訊,從而保證後設資料在各個平臺之間的一致性,在構建、執行、維護的整個聯邦計算的生命週期中起到關鍵支撐作用。
2.統一的查詢加工介面
為聯邦的資料提供資料加工、資料查詢的統一介面,用統一的標準SQL語句實現跨平臺的資料加工。
聯邦查詢SQL引擎層:作為統一的語法解析層,解析SQL指令。其核心是SQL編譯器、最佳化器和事務管理單元,它是保證可以給開發者提供比較好的資料庫體驗,無需基於底層不同平臺且有差異化API來做業務開發,同時會經過最佳化器來生成最佳的執行計劃,最終將執行計劃推送給計算引擎層。
聯邦查詢計算引擎層:作為支援多平臺的統一計算引擎。星環選擇了基於DAG的計算模式,而且在它的基礎上深度最佳化執行效能,既能支援更多樣化的資料計算需求,也能夠獲得極致的效能。同時透過量化執行引擎技術來加速資料處理,對於列式資料有明顯的加速效果。
Cache層:用於加速的快取層。
聯邦平臺訪問層:支援標準的JDBC/ODBC/REST介面。
除了有基礎架構作為支撐,聯邦計算的落地還需要有上層的資料開發工具的支援,與資料聯邦配合實現從資料獲取、加工、到價值變現的完整過程,同時跨資料來源的資料安全也應該得到保證。
開發管理運維工具:統一的資料開發、管理、運維工具平臺,使企業可以更有效率的利用聯邦計算構建企業內部的資料服務層,以及資料業務價值層。
安全層:負責認證、審計、授權,提供資料加密、脫敏,以及密級分類等功能,保證資料在儲存、傳輸、加工過程的安全。
資料聯邦和聯邦計算的實現
資料聯邦和聯邦計算的價值在於為資料整合和整合後的加工提供了便利的實現方式,對於企業而言,相關的完整解決方案以及視覺化的操作,是保障內部推廣落地的關鍵。星環科技研發的資料治理平臺Transwarp Data Studio(TDS),作為企業級的資料加工平臺, 聯邦計算/資料聯邦是TDS的核心能力之一,除此之外還提供資料整合、儲存、治理、建模、分析、挖掘和服務等資料處理全生命週期的企業級管理能力。
從應用層面的角度,資料聯邦要打通異構資料來源,實現系統性的資料共享、釋出,從而支撐應用,為此開發平臺應該提供後設資料管理、資料資產列表、以及服務釋出等保證資料檢視統一的功能,在TDS中透過以下模組實現:
統一資料資產目錄(Transwarp Data Catalog):一方面,Catalog同時支援接入主流關係型資料庫、分散式資料庫、NoSQL資料庫和BI等資料來源,滿足異構多資料來源連線的需求。另一方面,Catalog透過資料庫直連方式獲取所有異構資料庫或平臺的技術後設資料,結合外部API方式補充異構資料庫的資料血緣資料,實現平臺的資料管控和追蹤,滿足資料聯邦的後設資料收集管理需求。
統一資料門戶商城(Transwarp Foresight):能夠整合各個平臺上的資料產品並作為技術與業務的核心交換門戶,用較低開發和運維成本提供高效能的全資料平臺的資料產品的共享交換服務。
統一資料服務(Transwarp Midgard):可透過資料庫直連方式,將各類資料庫的資料釋出為資料服務,同時提供統一的安全管控和流量統計、控制。
統一資料標籤(Transwarp Starviewer):支援對所有業務系統資料庫和資料平臺的資料進行高效能的標籤計算,對業務使用者提供統一的標籤開發和應用入口,同時避免業務資料庫的種類多樣和分佈繁雜給業務使用者帶來的使用困擾。
從開發層面的角度,TDS的開發模組對接星環自研引擎的聯邦計算能力,實現對異構資料來源的統一訪問和加工,透過聯邦計算解決資料開發、資料管理等涉及跨庫資料來源加工過程的問題:
1. SQL開發(Transwarp SQLBook):線上SQL開發工具SQLBook可結合聯邦計算能力將SQL下發到異構資料平臺,使用統一的語法訪問異構資料來源,簡化資料加工。同時提供大資料整合,將Hadoop和NoSQL系統中的資料透過SQL的形式訪問,實現一個統一的SQL開發入口。
2. 資料管控工具(Transwarp Governor):能透過資料標準、資料質量、資料保護和資料許可權等多維度能力支撐資料治理。將統一的資料質量規則直接下發到各個資料來源平臺,降低資料質量規則的開發成本,且保證異構平臺統一的資料質量。
3. 革命性的ETL模式:考慮到資料聯邦虛擬化的整合不能滿足所有資料加工情況,TDS提供了創新的ETL工具,在不增加過多人力的情況下,能極大降低資料的複製和遷移需求,提升資料應用的搭建效率,降低儲存成本和資料洩漏的風險。
對於應用和開發層面的“聯邦”支援,以及全流程視覺化資料開發、監控、運維與告警,使TDS可以透過實現多資料來源、資料多樣場景下的資料接入、資料整合、資料服務過程, 有效實現企業級資料湖、資料倉儲、資料集市建設以及相應擴充套件,促進企業內部資料統一化、資產化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2789037/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 混合異構資料來源關聯計算最佳化方案
- 騰訊“神盾-聯邦計算”平臺帶你翻越資料合作的重重大山
- 聯邦學習將帶來全新的資料合作生態系統聯邦學習
- 企業資料平臺建設的基石:構建統一的資料存算能力
- 華為雲資料災備,如何讓企業資料無憂
- 讓Github暢通無阻,FastGithub1.0.0釋出GithubAST
- 資料整合平臺,多種異構資料來源連結
- 異構資料來源同步之資料同步 → DataX 使用細節
- 星環科技覆蓋資料全生命週期的安全防護能力,共同保障大資料安全大資料
- 亞馬遜雲科技展示資料構建三大核心能力,助力企業生成式AI能力落地亞馬遜AI
- 異構資料來源同步之資料同步 → datax 改造,有點意思
- 資料結構課程設計報告——暢通工程資料結構
- 資料安全法正式實施,如何構建企業資料安全能力
- TDS 四大能力域各顯神通,構建資料湖、資料倉儲一步到位
- 如何提升企業的資料探勘能力
- 異構資料庫之間資料作業資料庫
- 星環科技攜手宇信科技,打造全要素資料運營聯合解決方案
- 怎樣讓企業資料加密加密
- 星環科技郭卓異:多模型資料統一儲存的大資料數字底座設計與應用場景模型大資料
- 異構資料來源資料同步 → 從原始碼分析 DataX 敏感資訊的加解密原始碼解密
- 企業雲盤讓你告別企業資料資料洩露煩惱
- 企業級大資料架構設計【2】大資料架構
- 【試用邀請】星環科技TDH社群版:讓大資料分析觸手可及大資料
- 什麼是資料分析,資料分析能為企業帶來什麼?_光點科技
- 雲端計算時代企業要如何迎接大資料?大資料
- Double Kill!! 資料聯邦修煉之路
- DB2建立聯邦資料庫DB2資料庫
- 大資料計算:結構化大資料計算的理想模式大資料模式
- java 無需建立資料來源連線access資料庫Java資料庫
- 提高掃地機器人避障能力,景聯文科技提供專業資料採集服務機器人
- 圖解主資料的單源與多源以及集中與聯邦管理圖解
- 【工業大資料】工廠大資料之資料來源分析;如何挖掘並駕馭大資料的價值,成為“大資料企業”?大資料
- AMT(企源科技)榮獲“2016中國大資料企業50強”大資料
- 走過企業智慧化的界碑:FusionData如何讓資料從資源變資產?
- 多源異構資料來源融合怎麼做!一文解讀(1)
- 專訪科傑科技CEO於洋:湖倉一體資料底座,企業構建資料能力的“最優解” | 愛分析訪談
- 資料庫圈周盤點:螞蟻集團開源圖資料庫TuGraph;星環科技科創板IPO註冊透過資料庫
- 企業數字化轉型的四個階段,星環科技自研資料雲平臺全部搞定