4月29日,資料中臺建設實戰系列課程「數智加速度」第4課,奇點雲資料模型架構專家天啟帶來分享《AI驅動的資料中臺架構設計》,步步踏實落地,帶大家從0開始建設資料中臺。
天啟,奇點雲資料模型架構專家、原海爾集團資料架構師、原阿里巴巴政務團隊資料架構師,精通資料倉儲建模理論及資料開發技術,具備零售、政務、醫藥、製造等多個領域數倉和資料中臺建設經驗,及PB級資料倉儲與資料中臺建設經驗。
在這一課裡,你會聽到:
1. 資料中臺的選型與構建˙
2. 資料中臺踩過的那些坑
3. AI是如何驅動資料中臺
4. 資料中臺新理解與暢想
下文為分享節選:
01 資料中臺:正確的人+正確的工具+正確的事=降本增效
資料中臺對於許多傳統企業而言,依舊是很陌生的概念。
如何從零開始建設資料中臺?
我們把它簡化為一個方程式,正確的人+正確的工具+正確的事,三者缺一不可。
正確的人
資料中臺在國內有完整實踐的企業不多,相關的人才也相對較少。企業在選擇資料中臺時,需要有方法論、實踐經驗去指導,以避免從零摸索帶來大量人力物力的浪費。這也是企業在選擇服務商時需要留意的。
正確的工具
在這裡主要指的是狹義上的資料中臺產品。市面上的產品五花八門,資料中臺產品各型各樣,如何選擇非常關鍵。
正確的事
資料中臺不是擺設,並不是說搭建一個產品意義的資料中臺,企業就完成數字化轉型了。資料中臺最終還是要為業務服務。我們要用資料中臺做什麼,解決什麼業務痛點,需要考慮清楚。
這個方程式最終導向了我們建設資料中臺的目的:為企業帶來降本增效。「要麼給老闆省錢(降本),要麼給老闆掙錢(增效)。」
02 資料中臺的選型與構建
首先需要強調的是,在這裡我們分享的只是一般情況,不同企業、不同資料情況和不同需求,不可一概而論。不管黑貓白貓,能解決痛點的就是好貓。
資料中臺的底層是大資料架構,大資料架構如何去選型?
在架構選型時,成本、場景支援是我們考慮最關鍵的2個要素。
綜合實施週期、實施成本、是否支援實時計算、資料冗餘與資料一致性情況等因素,我們認為Lambda架構成本相對適中,又能滿足實時計算和離線計算兩個場景。
當然,選擇Lambda架構也會不可避免地面臨資料冗餘的問題,而目前大部分傳統企業用到實時計算的場景偏少一些,相對來說產生的資料冗餘也較少,可以透過資料治理等方式解決。
底層之上是引擎,包括離線計算引擎和實時計算引擎,又應當如何去選型?
離線計算:三種離線計算引擎各有特點,可以綜合企業的資料情況和需求,選擇合適的計算引擎。
實時計算:在批處理+流處理上,Flink備受青睞,穩定性較好、吞吐量較大。一般來說推薦使用Flink。
在架構上層,則涉及到了:資料模型應如何設計?
資料模型是為業務服務的。具體來說,就是把業務抽象化,提煉成資料模型,再透過資料解決業務問題。
建資料模型,會經歷業務建模、概念建模、邏輯建模和物理建模四個階段。
在模型選擇上,我們僅列舉兩種模型,星型模型與雪花模型。通常情況下,為了能下游能更好地理解業務,快速提供資料服務,我們會採用空間換時間的方式,從而選擇星型模型;而在維度資訊變化非常頻繁,或者資料儲存成本非常高的情況下,我們可以採用雪花模型。歸根到底,資料模型沒有好壞之分,只有能否解決業務問題。
最後需要強調,對於技術和模型的選擇,我們做了一些推薦和優劣勢的介紹,但技術和模型本身沒有對錯之分,適合自己的才是最好的(能解決業務問題才是最好的)。
03 資料中臺的架構設計
我們把資料中臺的架構分為三層,資料資產層、資料服務層、資料應用層。
這張圖從下往上看,首先透過資料治理、資料開發、藉助資料倉儲,把資料轉化為可用的資料,即資產「資料資產化」;然後建立資料能力,把資料用起來,例如標籤工廠、模型分析等,即「資產服務化」;再透過智慧化的場景給業務賦能,也就是「服務智慧化」。
04 AI驅動的資料中臺
奇點雲創立三年來,資料中臺的實踐在零售、時尚、百購等行業相繼落地成功,在實踐經驗中,探索並檢驗出了資料中臺的王道:AI驅動的資料中臺。
所謂「AI驅動」,我們可以看到在架構中融入了奇點雲獨創的「雲(智慧)+端(感知)」的解決方案,從資料採集層的AIoT到資料服務層的演算法服務、分析引擎再到頂部的資料智慧應用,實現了「雲賦能端,端豐富雲」,既解決企業資料生產的問題,又解決企業資料使用的問題。
在「AI驅動的資料中臺」實踐的道路上,奇點雲自研一站式大資料智慧服務平臺——DataSimba,旨在為企業提供全鏈路的產品+技術+方法論服務。其核心模組包括全域資料採集、資料開發、資料治理、資料資產管理、資料API、資料科學、資料質量、標籤工廠。助力企業快速搭建安全、易用的資料中臺,最大化釋放價值,驅動業務增長與創新。