宜信資料中臺全揭祕(一)資料中臺整體介紹|分享實錄

宜信技術學院發表於2020-06-11

內容來源:宜信技術學院第11期技術沙龍|宜信資料中臺全揭祕(一)資料中臺整體介紹

主講人:宜信資料中臺解決方案架構師 裴國強

PPT下載:連結: https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密碼: 99uh

一、資料中臺定位

1.1 ADX整體簡介-中臺定位

首先對中臺的服務範圍說明:

  • 企業級:針對是整個企業的所有業務部門,橫向貫穿整個業務線的資料,縱向貫穿整個資料生命週期,從最開始的資料採集(DB,日誌,訊息,檔案),入湖,標準化,開發(批量作業,流式作業)維度表,最後到資料服務和資料應用。

  • 複用:複用的範圍包括,能力的複用,邏輯的複用,資料資產的複用,演算法的複用。

  • 能力:對平臺能力進行抽象,對於不同平臺的對能力的抽象,業務平臺(流程控制,管理,審批,許可權「等級,繼承」,排程),資料平臺(批量,流式,UDF,UDAF,資料質量,血緣分析,資料地圖,排程,資料資產管理,許可權,資料服務)。

分橫向和縱向兩個方面:

橫向劃分

  • 大資料基礎叢集:更貼近硬體的平臺,負責提供穩定及高可用的計算執行環境,及安全的資料儲存環境

  • HDFS-資料湖的基礎儲存,存放表每天的快照,和增量資料。

  • KUDU-最新快照,用於即席查詢,資料服務,流式資料快照。

  • ClickHouse-Clickhouse做DW和DM層的儲存。

  • 資料中臺 :對資料能力的抽象 ,資料的流式和批量加工,資料資產的釋出,資料統一落湖,質量管理檢測,脫敏加密,統一資料出口能力。

  • 業務前臺:對業務系統,業務線資料團隊,提供各種不同的資料能力。使其能在中臺上沉澱企業級資料資產。

縱向劃分

  • 資料管理委員會:對資料資產的質量認證,資料使用許可權的授權,資料治理專案推動實施。

  • 資料運營團隊:客戶標籤,使用者畫像,產品畫像,智慧推薦,精細化管理。

  • 資料安全團隊:資料脫敏加密,安全金鑰管控,資料風險的控制。

二、資料中臺價值

2.1 資料中臺價值

  • 快:

傳統數倉定製化報表,排期週期長,響應需求慢,重複開發工作比較多。T+1的資料失效也滿足不了現在網際網路業務場景下對資料實時處理能力的需求。對中臺平臺自主化開發,可以提升資料加工能力沉澱,以及實時資料處理能力。

  • 準:

資料獲取準確性,通過統一資料抽取平臺對資料實時抽取,同時完成標準化,入湖,脫敏釋出。通過後設資料和血緣分析準確獲取資料地圖。通過模型管理和統一模型口徑。

  • 省:

節省人力成本,大大降低大資料處理的技術門檻,使使用者能夠快速上手。節省需求排期時間,使資料能更快的響應業務需求。節省硬體資源,通過對平臺資源的整合,規劃,節省硬體使用維護成本。

2.2 資料匯流排平臺DBus

DBus面向大資料專案開發和管理運維人員,致力於提供資料實時採集和分發解決方案。平臺採用高可用流式計算框架,提供海量資料實時傳輸,可靠多路訊息訂閱分發,通過簡單靈活的配置,無侵入接入源端資料,對各個IT系統在業務流程中產生的資料進行彙集,並統一處理轉換成通過JSON描述的UMS格式,提供給不同下游客戶訂閱和消費。DBus可充當數倉平臺、大資料分析平臺、實時報表和實時營銷等業務的資料來源。目前dbus支援的資料來源包括 mysql,Orale db2,Mongo,日誌系統,檔案系統等。

2.3 流式處理平臺Wormhole

Wormhole面向大資料專案開發和管理運維人員,致力於提供資料流式處理解決方案。平臺專注於簡化和統一開發管理流程,提供視覺化的操作介面,基於配置和SQL的業務開發方式,遮蔽底層技術實現細節,極大降低了開發門檻,使得大資料流式處理專案的開發和管理變得更加輕量敏捷、可控可靠。

2.4 虛擬混算服務平臺Moonbox

Moonbox面向資料倉儲工程師/資料分析師/資料科學家等,致力於提供資料虛擬化解決方案。既可作為資料應用底層資料查詢計算統一入口,也可作為邏輯資料倉儲與現有資料倉儲互補。使用者只需通過統一SQL服務呼叫和Moonbox互動,即可透明遮蔽異構資料系統異構互動方式,輕鬆實現跨異構資料系統透明混算。

2.5 資料化可視應用平臺Davinci

Davinci面向業務人員/資料工程師/資料分析師/資料科學家,致力於提供一站式資料視覺化解決方案。既可作為公有云/私有云獨立部署使用,也可作為視覺化外掛整合到三方系統。使用者只需在視覺化UI上簡單配置即可服務多種資料視覺化應用,並支援高階互動/行業分析/模式探索/社交智慧等視覺化功能。

三、資料中臺模組架構

3.1 資料中臺模組架構

宜信中臺整體底層採用wormhole+dbus+moonbox作為資料採集,加工,處理的底層引擎,通過服務的形式形成底層介面層提供資料實時處理的基礎能力,在通過對介面層的整合,形成資料加工處理的子服務,使資料中臺的後臺服務完成排程,鑑權,認證,監控,告警。通過對不同元件層的能力整合完成了各項資料能力批量作業編排,排程,補數,手動重啟,流式資料邏輯加工(source,lookup,transformation,union) flow在stream內的物理執行順序,流式資料落湖,流式資料回溯。

3.2 功能目錄

選單劃分
管理類(審批,庫表,團隊,規則,金鑰,監控,預警,後設資料);
功能類(批量作業,流式作業,即席查詢,資料釋出);
資料應用類(血緣分析,資料地圖,資料模型,資料質量)。

四、解決核心問題概覽

4.1 批量作業處理

專注於作業編輯編排,是資料專案的IDE,具體執行提交到對應中介軟體工具上執行。
簡單一致的IDE體驗

  • 批量作業、流式作業拖拽式編排
  • 批量作業、流式作業SQL式開發
  • 全域性唯一表名,遮蔽異構資料系統
  • 開發期可驗證SQL和資料正確性

4.2 流式作業處理

主要解決資料處理流程中錯綜複雜的依賴關係。

後面的沙龍我們將詳細的介紹宜信資料中臺的批量處理和流式處理功能請大家持續關注我們。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69918724/viewspace-2697745/,如需轉載,請註明出處,否則將追究法律責任。

相關文章