資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別?
經常看到有人問這個問題,資料玩家也看過很多解釋,感覺都不夠直觀,這裡,我嘗試用一個大家都理解的例子來說明。
什麼是資料倉儲?
大家都去宜家買過東西吧,還記得一樓的大倉庫不,你如果看中了某個傢俱,想要自己去倉庫提貨,一般都會記下商品上的編碼:
這個編碼對於顧客來說,肯定是沒有任何含義的,看到這個編碼,不可能知道他是一個什麼商品。
但是這個編碼,對於倉庫管理員來說是有含義的,他們可以清楚的知道,是哪一個貨架,哪一個位置。
當然,顧客到倉庫裡順著貨架和位置也可以找到商品,但是總歸不太直觀,挑選的過程還是得在樓上進行。
因此資料倉儲就相當於宜家的一樓倉庫,在這裡,資料(傢俱)按照特定的模型,如FS-LDM等(貨架-位置)組織起來,這種模型,對於顧客(業務人員,資料終端使用者)是不友好的,但是對於科技人員(倉庫管理員,宜家員工)來說相對友好,因為他按照一種更加集約化的規則將資料(傢俱)管理起來了,存放集中、規整,提取資料(提貨)不用跨庫(貨倉)尋找,查詢的效率更加高。
那什麼是資料集市呢?
還是用這個例子,上文提到,資料倉儲對業務人員不是很友好,同樣,你總不能讓顧客直接逛倉庫吧?顧客的需求,是按照傢俱的種類分門別類,按照家庭的不同房間,組合在一起展示的,正如宜家樓上的展廳:
雖然也被吐槽像迷宮一樣,但是總的來說,購物體驗肯定比逛倉庫來得好多了。
所以,資料集市就像宜家樓上的展廳,正如其名字“集市”一樣,是一個面向終端使用者(顧客)的資料市場,在這裡,資料(傢俱)以一種更加容易被業務人員(顧客)接受的方式組合在一起,這些組合方式可能是多變的,因為業務人員(顧客)的需求是多變的,因此我們需要定期調整集市的計算口徑(展廳的陳列方式),經常會建立新的資料集市(裝修新的展廳)。
資料倉儲和集市的概念理解了,其他一些相關問題也就迎刃而解,比如為什麼有了資料倉儲還要建資料集市?等等。
那什麼是資料湖呢?
資料湖至今仍然沒有一個特別標準的概念,各種概念中,比較統一的一點是資料湖儲存的是未經加工的原始資料,包含結構化和非結構化的各類資料。資料玩家仍然嘗試用上面的例子來解釋。
大家都知道,宜家的傢俱是需要自己組裝的,所以宜家的顧客們都有一些動手能力,他們突發奇想,所有的傢俱能不能全部拆散成零部件存放,由顧客們根據實際需要挑選零部件自行拼裝?
所以,資料湖就是一個儲存了所有企業內原始資料(傢俱零部件)的儲存,這就帶來一系列問題,加工後資料的儲存已經非常複雜,原始資料則依賴更多的管理功能,不然資料又多又雜難以管理,資料湖會退化為資料沼澤。此外,原始資料如果缺少統一的資料標準,就像不同的傢俱零部件之間的介面不同,那就無法組裝在一起了。
因此,資料湖必須有完善的資料管理功能,也依賴於統一的資料標準和良好的資料質量管理。
那什麼又是資料中臺呢?
資料中臺也沒有一個特別明確的定義,這裡很難套用宜家的例子強行解釋了,我們來看下各類資料平臺:
在我們傳統的資料應用中,隨著資料對於業務友好度的增加,其時效性也在減弱。而我們的目標,顯然是資料又快又好。既然各部門的需求都不一樣,為何不讓業務自助分析資料呢?於是我們有了右上角的目標狀態。但是這個理想狀態和我們現在的資料應用中間有巨大的空隙,靠什麼來填補?答案就是資料中臺。
我們可以將其分為狹義的資料中臺和廣義的資料中臺。狹義的資料中臺,指的是一套資料應用和工具,包括分散式ETL、資料資產管理、資料標籤管理、資料沙箱、自助分析平臺、後設資料管理、資料質量管理等等,底層則已現有的數倉、大資料平臺等為資料來源,為企業提供資料資產管理的能力,並持續挖掘資料價值,持續提供資料智慧服務。
廣義的資料中臺,則在狹義的資料中臺基礎之上,包含了頂層資料戰略,資料治理體系以及資料管理及運營、資料文化培養和組織架構支撐,是一套持續管理和運營的體系。
可以這麼說,狹義的資料中臺,是專為達成資料中臺的使命而打造,一類是讓資料更快的處理、整合、加工,比如分散式ETL工具。
隨著傳統資料被大資料平臺逐步替代,ETL工具對於大資料平臺的適配業需要與時俱進,支援分散式計算、彈性計算,並且減少開發量
另一類是讓資料更好的產生業務價值,比如資料標籤管理,自助分析平臺等。資料標籤大家都在用,但是真正深度使用的企業都會感覺:建好容易用好難,如果沒有一套標籤管理系統,標籤是否重複加工,標籤的使用率、準確性等都無從掌控,業務部門想要針對近期營銷活動新建一個標籤,還得走開發流程,時效性也難以保證。
資料標籤管理系統就是為了解決資料標籤的使用問題而建立。自助分析平臺則是方便業務人員自助進行資料分析、加工、探索的平臺,它與資料沙箱結合,直接將去隱私化的生產資料提供業務人員分析,使資料更快的產生價值,支撐關鍵決策。
廣義的資料中臺,則是輔助狹義資料中臺達成使命的機制,雖然看起來都很“虛”,但是卻是資料中臺成功落地的必要保障。
那所有這些都必須做嗎?
這個問題要看具體的企業情況,總的來說,一個大原則是以滿足業務發展為第一優先,不要為了做基礎設施而做基礎設施,一定要以能解決業務訴求為最終目的。
《人月神話》裡早就宣告了銀彈不存在,自然,資料倉儲、資料集市、資料湖、資料中臺都不是銀彈,千萬不能以為做了他們就水到渠成,數字化轉型就自動完成了。
簡言之,用了一系列時髦的新技術不見得就是數字化領軍企業,不用也不見得就是古典網際網路時代的落後作坊。關鍵是認清自身的數字化現狀,擬定數字化目標,制定數字化路徑,優選場景,實現價值。
新技術、各類資料基礎設施只是這條道路上,一套套切實可行的行動方案,是把過去銀行的種種數字化的嘗試,重新以體系化、結構化的方法論梳理,並且賦予當下最新的技術架構予以實施。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/21472864/viewspace-2792031/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料倉儲資料中臺區別在哪?
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 通俗語言解釋資料倉儲、資料湖、資料中臺
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 奈學:資料湖和資料倉儲的區別有哪些?
- 資料湖是誰?那資料倉儲又算什麼?
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- BI, 資料倉儲,ETL, 資料開發,有什麼區別
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 資料倉儲與大資料的區別大資料
- 資料中臺以及資料倉儲的介紹
- 關於資料湖、資料倉儲的想法
- 資料倉儲被淘汰了?都怪資料湖
- 資料網格將替代資料倉儲或資料湖?- thenewstack
- 資料湖和中央資料倉儲的設計
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 資料標準和資料規範到底有什麼區別?
- 讀資料湖倉03不同型別的資料型別
- 什麼是資料倉儲
- 什麼是資料倉儲?
- 資料湖是下一代資料倉儲?
- 讀資料湖倉06資料整合
- 讀資料湖倉02資料抽象抽象
- BI、資料倉儲和資料分析之間的區別
- 資料庫和資料倉儲的區別在哪兒?CN資料庫
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 資料湖+資料中臺,金山雲大資料平臺如何攻克資料價值落地難關大資料
- 讀資料湖倉01讓資料可信
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 資料倉儲應該用什麼方案——資料倉儲實施方案概述
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 讀資料湖倉04資料架構與資料工程架構
- 資料資產管理與資料治理什麼區別?
- 一文講清:資料分析與資料探勘到底有什麼區別?