如何從零開始建設資料中臺?

奇點雲StartDT發表於2020-05-06

4月29日,資料中臺建設實戰系列課程「數智加速度」第4課,奇點雲資料模型架構專家天啟帶來分享《AI驅動的資料中臺架構設計》,步步踏實落地,帶大家從0開始建設資料中臺。

天啟,奇點雲資料模型架構專家、原海爾集團資料架構師、原阿里巴巴政務團隊資料架構師,精通資料倉儲建模理論及資料開發技術,具備零售、政務、醫藥、製造等多個領域數倉和資料中臺建設經驗,及PB級資料倉儲與資料中臺建設經驗。

在這一課裡,你會聽到:

1. 資料中臺的選型與構建˙

2. 資料中臺踩過的那些坑

3. AI是如何驅動資料中臺

4. 資料中臺新理解與暢想

下文為分享節選:

01 資料中臺:正確的人+正確的工具+正確的事=降本增效

資料中臺對於許多傳統企業而言,依舊是很陌生的概念。

如何從零開始建設資料中臺?

我們把它簡化為一個方程式,正確的人+正確的工具+正確的事,三者缺一不可。

如何從零開始建設資料中臺?

正確的人

資料中臺在國內有完整實踐的企業不多,相關的人才也相對較少。企業在選擇資料中臺時,需要有方法論、實踐經驗去指導,以避免從零摸索帶來大量人力物力的浪費。這也是企業在選擇服務商時需要留意的。

正確的工具

在這裡主要指的是狹義上的資料中臺產品。市面上的產品五花八門,資料中臺產品各型各樣,如何選擇非常關鍵。

正確的事

資料中臺不是擺設,並不是說搭建一個產品意義的資料中臺,企業就完成數字化轉型了。資料中臺最終還是要為業務服務。我們要用資料中臺做什麼,解決什麼業務痛點,需要考慮清楚。

這個方程式最終導向了我們建設資料中臺的目的:為企業帶來降本增效。「要麼給老闆省錢(降本),要麼給老闆掙錢(增效)。」


02 資料中臺的選型與構建

首先需要強調的是,在這裡我們分享的只是一般情況,不同企業、不同資料情況和不同需求,不可一概而論。不管黑貓白貓,能解決痛點的就是好貓。

資料中臺的底層是大資料架構,大資料架構如何去選型?

如何從零開始建設資料中臺?

在架構選型時,成本、場景支援是我們考慮最關鍵的2個要素。

綜合實施週期、實施成本、是否支援實時計算、資料冗餘與資料一致性情況等因素,我們認為Lambda架構成本相對適中,又能滿足實時計算和離線計算兩個場景。

當然,選擇Lambda架構也會不可避免地面臨資料冗餘的問題,而目前大部分傳統企業用到實時計算的場景偏少一些,相對來說產生的資料冗餘也較少,可以透過資料治理等方式解決。

底層之上是引擎,包括離線計算引擎和實時計算引擎,又應當如何去選型?

離線計算:三種離線計算引擎各有特點,可以綜合企業的資料情況和需求,選擇合適的計算引擎。

如何從零開始建設資料中臺?

實時計算:在批處理+流處理上,Flink備受青睞,穩定性較好、吞吐量較大。一般來說推薦使用Flink。

如何從零開始建設資料中臺?

在架構上層,則涉及到了:資料模型應如何設計?

資料模型是為業務服務的。具體來說,就是把業務抽象化,提煉成資料模型,再透過資料解決業務問題。

建資料模型,會經歷業務建模、概念建模、邏輯建模和物理建模四個階段。

如何從零開始建設資料中臺?

在模型選擇上,我們僅列舉兩種模型,星型模型與雪花模型。通常情況下,為了能下游能更好地理解業務,快速提供資料服務,我們會採用空間換時間的方式,從而選擇星型模型;而在維度資訊變化非常頻繁,或者資料儲存成本非常高的情況下,我們可以採用雪花模型。歸根到底,資料模型沒有好壞之分,只有能否解決業務問題。

最後需要強調,對於技術和模型的選擇,我們做了一些推薦和優劣勢的介紹,但技術和模型本身沒有對錯之分,適合自己的才是最好的(能解決業務問題才是最好的)


03 資料中臺的架構設計

我們把資料中臺的架構分為三層,資料資產層、資料服務層、資料應用層。

如何從零開始建設資料中臺?

這張圖從下往上看,首先透過資料治理、資料開發、藉助資料倉儲,把資料轉化為可用的資料,即資產「資料資產化」;然後建立資料能力,把資料用起來,例如標籤工廠、模型分析等,即「資產服務化」;再透過智慧化的場景給業務賦能,也就是「服務智慧化」。


04 AI驅動的資料中臺

奇點雲創立三年來,資料中臺的實踐在零售、時尚、百購等行業相繼落地成功,在實踐經驗中,探索並檢驗出了資料中臺的王道:AI驅動的資料中臺。

所謂「AI驅動」,我們可以看到在架構中融入了奇點雲獨創的「雲(智慧)+端(感知)」的解決方案,從資料採集層的AIoT到資料服務層的演算法服務、分析引擎再到頂部的資料智慧應用,實現了「雲賦能端,端豐富雲」,既解決企業資料生產的問題,又解決企業資料使用的問題

如何從零開始建設資料中臺?

在「AI驅動的資料中臺」實踐的道路上,奇點雲自研一站式大資料智慧服務平臺——DataSimba,旨在為企業提供全鏈路的產品+技術+方法論服務。其核心模組包括全域資料採集、資料開發、資料治理、資料資產管理、資料API、資料科學、資料質量、標籤工廠。助力企業快速搭建安全、易用的資料中臺,最大化釋放價值,驅動業務增長與創新。

如何從零開始建設資料中臺?

相關文章