到底什麼是實時資料倉儲?

danny_2018發表於2022-07-28

如今,資料已成為企業最重要資產,有效的資料管理是企業進行產品質量改進,提升數字競爭力的有效手段。

只不過,隨著企業數字化轉型步伐的加快、資料管理系統越來越多,使得資料應用變得越來越複雜。如何讓資料管理更簡單、易用?如何讓企業積累多年的資料流動起來,更好地輔助企業進行業務決策?這是很多企業一直在思考的問題!

回望過去,資料倉儲解決方案在20世紀80年代末首次投入使用,雖然已發展了40多年,但核心功能一直沿用到現在。資料倉儲將來自不同來源的資訊合併到一個綜合資料庫中,為企業構建一個可信、單一以及一致的資料來源。而中間過程是透過ETL來實現,即資料提取(Extract)、轉換(Transform)、載入(Load)。

換言之,透過結構化資料的合併以及多個資料來源的整合,再借助資料分析工具和一定的方法論,企業可以透過歷史資料迅速做出戰略決策。資料倉儲出現以後,從資料管理與資料分析中“嚐到甜頭”的企業,開始越來越多地依賴這種方式提高企業的運營能力。隨著資料倉儲的大量使用,企業開始出現實時資料分析需求,這時傳統的離線資料倉儲出現了明顯的侷限性,最終推動了實時資料倉儲的發展。

那麼,實時資料倉儲和傳統資料倉儲到底有哪些區別呢?我們先從概念開始梳理!

傳統資料倉儲與實時資料倉儲之間的“恩恩怨怨”

傳統資料倉儲是一個面向主題的、整合的、相對穩定的、反映歷史變化的綜合的資料集合,用於支援整個企業的戰略管理決策。企業可以整合多個獨立的資料來源,以建立一個統一的管理檢視,包括可以提供企業在過去某個時間段的資料表現,內容包括資料被載入的具體日期,並且可以細化到哪天哪個星期哪個月份。

而實時資料倉儲和傳統的資料倉儲功能一樣,最大的區別是,資料展示能力不是T+1天的更新頻率,而是可以做到T+1秒。實時資料倉儲透過每天多次重新整理其儲存的資料,來滿足企業對即時資訊不斷增長的需求。可以說,儲存在實時資料倉儲中的資訊,包括資料被請求和分析時的狀態,在一定程度上代表了企業運營的實際情況,可以更準確地提供業務畫像。

傳統資料倉儲與實時資料倉儲區別如下:

需要強調的一點是,實時資料倉儲的目的是使企業能夠快速獲取資訊,可以立刻對新資訊做出反應,實時的維度要限定在幾小時、幾分鐘,甚至是秒級。這意味著,要想滿足實時數倉需求,不能再使用傳統的ETL工具,或者依然使用傳統的數倉。當然,並不是說傳統數倉不能滿足實時數倉需求,在新的ETL工具支撐下,或者透過現有的ETL工具升級,也可以達到近乎實時的需求,比如可以按周實現資料更新,這要根據企業業務需求來衡量。

實時資料倉儲應用帶來的好處“看得見、摸得著”

鑑於目前實時資料倉儲解決方案的計算資源消耗太大,企業往往在需要實時資料分析和有連續資料包告需求的場景中使用,如:物聯網感測器資料處理場景,有波峰和波谷狀態的金融交易分析場景,以及想從客戶關係管理(CRM)資料中探索買方行為的業務場景。

在上述應用場景中,實時資料倉儲帶來的好處顯而易見:

1、更快的決策。企業可以根據更多最新的、準確的和一致的資料更快地做出決策,減少等待時間。

2、控制資料負載。較小的、更有規律的負載,只包括已經改變的資料(而不是整個資料來源),可以減少較大的、不太頻繁的更新,進而影響前端使用者側的體驗,尤其對於有著7*24運營的企業來說,實時數倉特別重要。

3、更快的恢復。如果資料載入出現問題,資料不可用,那麼等待下一次載入序列的時間就會減少,實時數倉可以讓恢復和干預更快進行。

4、更好的可用性。實時資料倉儲可以消除批次載入資料帶來的弊端,不需要像傳統資料倉儲那樣,在資料載入時需要處於休眠狀態,使資料來源在一段時間內不可用。

總體來看,雖然實時資料倉儲對那些依賴資料分析來運營業務的企業來說至關重要,但考慮到其成本,實時資料倉儲不一定是每個企業的標配。對大多數企業來說,近實時數倉可能也是一種選擇 ,比如:每週進行載入每天執行一次,使資料倉儲的使用者能夠訪問更多最新資料,而無需對載入過程或資料模型進行重大修改。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31547898/viewspace-2908051/,如需轉載,請註明出處,否則將追究法律責任。

相關文章