資料中臺(架構篇)

一寸HUI發表於2022-01-07

宣告:本文歸屬一寸HUI所有。@一寸HUI

在上一篇文章資料中臺(方法論篇)中主要介紹了建設資料中臺要建設哪些內容、建設的步驟以及建設過程中需要遵循一定的規範並符合公司的戰略。也提及到了阿里巴巴資料中臺的全景圖,有了上面的基礎,現在更能方便的理解資料中臺的架構了。先來回顧下資料中臺的概念。

資料中臺是一套可持續“讓企業的資料用起來”的機制,是一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續不斷把資料變成資產並服務於業務的機制。資料中臺是處於業務前臺和技術後臺的中間層,是對業務提供的資料能力的抽象和共享的過程,資料中臺通過將企業的資料變成資料資產,並提供資料能力元件和執行機制,形成聚合資料接入、整合、清洗加工、建模處理、挖掘分析,並以共享服務的方式將資料提供給業務端使用,從而與業務產生聯動,而後結合業務系統的資料生產能力,最終構建資料生產>消費>再生的閉環,通過這樣持續使用資料、產生智慧、反哺業務從而實現資料變現的系統和機制。資料中臺(介紹篇)

資料中臺功能定位

資料中臺的功能定位是完成公司內部資料能力的抽象、共享和複用,因此,資料中臺的架構必須圍繞這三個功能來設計。與傳統的大資料平臺不同,資料中臺搭建於大資料平臺及資料倉儲之上,將大資料平臺和資料倉儲所實現的功能以通用資料能力的形式提供給企業的所有部門。因此,單從功能上來講,大資料平臺實現具體的資料能力,資料倉儲是業務建模、資料治理髮生的地方,而資料中臺則需要把大資料平臺、資料倉儲的資料和介面組織起來,通過打通資料提升資料能力,通過共享提高全域性使用效率。因此資料中臺的架構設計應該考慮如何有效地完成抽象、共享和複用的功能。

資料中臺的建設應該貫穿資料處理的全生命週期,即從原始資料到最後產生資料價值的整個流程,且整個流程都處於資料中臺的管理之下。下圖顯示了從原始資料到實現資料價值的完整流程,其中每一步都是資料中臺建設需要考慮的:資料發現/探索,資料採集/匯入,資料建模/治理,資料轉換/分析,資料發現/探索,資料採集/匯入,資料建模/治理,資料轉換/分析

資料中臺要做的就是把上述流程在全域性標準化、規範化,讓這個流程產生的結果和能力能夠在全域性共享和複用。

資料中臺的架構設計,其核心在於用全域性統一的標準和規範來實現資料賦能,這與單一部門實現上述流程的側重點是不同的。在資料中臺的設計中,需要考慮如何靈活地支援資料能力的抽象,管理各種資料複用,確保它們都符合統一的資料規範和安全規則,同時又使各個部門能夠獨立演變屬於自己的資料,而不需要進行復雜的多部門協調。資料中臺應該能夠支援各個部門在一個統一平臺上完成上述流程中的所需功能,同時在發現有全域性共享需要的時候,能夠方便地將特定的資料能力共享給全公司,並且在後續的演變中不會因為協調的原因而拉長資料能力的演進過程。

資料中臺架構設計原則

面向未來:應該能夠很容易地將新出現的大資料、人工智慧、機器學習應用和框架加入系統。新技術以前所未有的速度出現,如果資料中臺不能快速適應變化,各部門可能很快就會自己另起爐灶,形成新的應用及資料孤島。

需求驅動:資料中臺的存在是為了更快、更好地滿足業務部門的需求,因此其架構設計應該以如何快速處理需求為核心。

面向個體:系統的每個使用者面對的都是系統的一個方面,但是他們都應該能夠從系統中獲得他們需要的資料能力,自助完成他們的目標,達到最優的效率。

面向協作:考慮系統的每個使用者的行動如何影響整個系統的功能。個體使用者對系統的使用會以自適應的方式影響整個系統的演進,例如,多個使用者在有類似的資料能力需求時如何協同開發,我們的架構應該能清楚地掌握系統中核心元素之間的關係和連線。

面向變化:對於系統中所有的元素(使用者、資料、應用、資源),架構設計必須考慮其變化和生命週期。

容錯能力:對於資料中臺這樣複雜的系統,我們必須假設所有元件都有可能失敗或出錯。系統必須具備極強的容錯性以及在發生大多數錯誤時自動恢復的能力。

資料安全:資料越來越成為一個公司的核心價值,資料中臺是公司資料處理和能力共享的核心元件,我們要假設所有的規則都有人違背,一定會有人試圖違規訪問資料。資料中臺應該能讓每個使用者都放心使用系統,而不用擔心會使系統意外崩潰。

不要重複造輪子:應該儘量避免重複開發系統功能元件,系統中的資料和能力要能高效安全地在各個部門之間共享。這意味著每個使用者在使用資料中臺的時候,都能夠對系統中的可用資料和能力有個全域性檢視。

兼顧靈活性和易用性:作為資料中臺,如果把所有元件都做得傻瓜化,雖然對於新手來說很容易上手,但是在功能和效率上會有一定限制;如果提供很多靈活的選項,則新手可能就會淹沒在複雜的系統配置中。必須在二者之間找到一個比較好的平衡。

資料中臺架構

要搭建一個企業級的資料中臺,是一個及其龐大的一個工程,涉及到很多的方面,我們先看一個資料中臺的架構圖,當然資料中臺的架構在每個企業都是不一樣的,要結合自己公司的業務場景才是符合公司的資料中臺架構,下圖只是資料中臺架構圖的一個例子。


計算儲存平臺:為資料中臺提供計算和儲存,儲存可以儲存結構化,半結構化,非結構化資料,計算有實時計算、離線計算,互動式計算,圖計算等

資料整合開發平臺:資料整合開發平臺能最高效地使用底層的元件和資料,提供從源資料到資料能力的轉換。資料整合平臺是資料中臺資料接入的入口。資料中臺本身幾乎不產生資料,所有資料來自於業務系統、日誌、檔案、網路等,這些資料分散在不同的網路環境和儲存平臺中,難以利用,很難產生業務價值。資料整合是資料中臺必須提供的核心工具,把各種異構網路、異構資料來源的資料方便地採集到資料中臺中進行集中儲存,為後續的加工建模做準備。資料整合方式一般有資料庫同步、埋點、網路爬蟲、訊息佇列等;從匯聚的時效性來分,有離線批量匯聚和實時採集,也有增量同步和全量同步。在資料整合的過程中一般會用到datax,flume,sqoop,canal等工具。

資料基礎能力平臺:常用的大資料平臺元件、資料倉儲、資料湖的工具、ETL工具、資料視覺化工具等。通過資料整合模組匯聚到中臺的資料沒有經過處理,基本是按照資料的原始狀態堆砌在一起的,這樣業務還是很難使用。資料開發是一整套資料加工以及加工過程管控的工具,有經驗的資料開發、演算法建模人員利用資料加工模組提供的功能,可以快速把資料加工成對業務有價值的形式,提供給業務使用。資料開發模組主要面向開發人員、分析人員,提供離線、實時、演算法開發工具,以及任務的管理、程式碼釋出、運維、監控、告警等一系列整合工具,方便使用,提升效率

資料體系:有了資料整合、資料開發模組,中臺已經具備傳統資料倉儲(後面簡稱:數倉)平臺的基本能力,可以做資料的匯聚以及各種資料開發,就可以建立企業的資料體系。資料體系是中臺的血肉,開發、管理、使用的都是資料。大資料時代,資料量大,增長快,業務對資料的依賴也會越來越高,必須考慮資料的一致性和可複用性,垂直的、煙囪式的資料和資料服務的建設方式註定不能長久存在。不同的企業因業務不同導致資料不同,資料建設的內容也不同,但是建設方法可以相似,資料要統一建設,建議資料按照貼源資料、統一數倉、標籤資料、應用資料的標準統一建設,資料體系建設最終呈現的結果是一套完整、規範、標準、準確的資料體系,可以方便支撐資料應用。

資料資產管理:通過資料體系建立起來的資料資產較為偏技術,業務人員比較難理解。資產管理是以企業全員更好理解的方式,把企業的資料資產展現給企業全員(當然要考慮許可權和安全管控),資料資產管理包括對資料資產目錄、後設資料、資料質量、資料血緣、資料生命週期等進行管理和展示,以一種更直觀的方式展現企業的資料資產,提升企業的資料意識。

資料服務體系:前面利用資料整合、資料開發建設企業的資料資產,利用資料管理展現企業的資料資產,但是並沒有發揮資料的價值。資料服務體系就是把資料變為一種服務能力,通過資料服務讓資料參與到業務,啟用整個資料中臺,資料服務體系是資料中臺存在的價值所在。企業的資料服務是千變萬化的,中臺產品可以帶有一些標準服務,但是很難滿足企業的服務訴求,大部分服務還是需要通過中臺的能力快速定製。資料中臺的服務模組並沒有自帶很多服務,而是提供快速的服務生成能力以及服務的管控、鑑權、計量等功能

運營體系和安全體系:通過前面的資料整合、資料開發、資料體系、資料資產管理、資料服務體系,已經完成了整個資料中臺的搭建和建設,也已經在業務中發揮一定的價值。運營體系和安全管理是資料中臺得以健康、持續運轉的基礎,如果沒有它們,資料中臺很可能像個一般專案一樣,會在搭建起平臺、建設部分資料、嘗試一兩個應用場景之後而止步,無法正常地持續運營,不能持續發揮資料的應用價值。這也就完全達不到建設資料中臺的目標。資料安全管理是指對資料設定安全等級,按照相應國家/組織相關法案及監督要求,通過評估資料安全風險、制定資料安全管理制度規範、進行資料安全分級分類,完善資料安全管理相關技術規範,保證資料被合法合規、安全地採集、傳輸、儲存和使用。企業通過資料安全管理,規劃、開發和執行安全政策與措施,提供適當的身份以確認、授權、訪問與審計等功能。資料的安全治理應貫穿於資料的整個生命週期。

參考:

資料中臺(七) 資料中臺架構

《雲原生資料中臺:架構、方法論與實踐》

《資料中臺:讓資料用起來》

附件:資料中臺架構圖,挺好的,方便以後參考,就存起來了,來源於資料中臺各種架構圖











相關文章