白話大資料 | 從買菜這件小事來聊聊資料倉儲

星環科技發表於2022-03-01

最近幾個新入職的同學說被資料庫,資料集市,資料倉儲整的有點懵,不太清楚它們之間的關係和區別。週末小編在買菜的過程中靈光一閃,決定從買菜這件小事來聊聊資料倉儲。

當我們想做飯時首先需要考慮的就是想做的菜需要買什麼材料,比如小炒肉,我們需要青椒和豬肉。早期的時候,我們需要分別去蔬菜店買青椒,去肉鋪買豬肉。這個過程我們需要花費很多的時間和精力,甚至有的時候跑了一大段路卻發現店裡沒有我想買的東西,或者我買到了青椒,卻發現肉鋪沒有肉賣了這種尷尬的情況。後來逐漸建設了農貿市場,由每個材料供貨商供貨,種類齊全,並按照一定的規則擺放整齊,我們想要買什麼菜按照指示牌就可以快速地定位。


我們可以 把資料庫比作一個個小店鋪或者供貨商,他們的強項在於事務處理,比如從農民伯伯手上去收購蔬菜,從屠宰廠批發豬肉等,將這些原材料彙總起來,至於怎麼擺放供客戶挑選,透過各種市場分析去增長銷量等不是他們擅長的。 資料庫主要就是面向事務設計的,與ERP,CRM,OA等各類業務系統整合並完成業務過程資料的組織管理,他們解決的是基本的業務流程管理,透過資料的錄入,刪除,修改,查詢及使用者在業務系統操作介面中做的增刪改查操作,和業務系統底層的資料庫例如MySQL,Oracle,SQL Server完成資料的互動,資料也沉澱在這些資料庫中。

那聰明的同學已經知道 資料倉儲其實就像“農貿市場”,把各種供貨商手上的貨源收集起來,按照一定的規則擺放整齊供客戶挑選,同時可以透過整個農貿市場的銷售經營情況進行一些細緻的分析,對整個市場有更好的瞭解,從而促銷相應的採購,銷售策略等等。 資料倉儲是構建面向分析的整合化資料環境,為企業提供決策支援,它出於分析性報告和決策支援的目的而建立。

那什麼是資料集市呢? 資料集市可以比喻成各種專區,賣蔬菜農產品的,賣水產海鮮的等等。 資料集市其實就是一個面向小型的部門或工作組級別的小型資料倉儲,只專注於某一個方面的主題分析。

白話大資料 | 從買菜這件小事來聊聊資料倉儲圖片來源:包圖網


資料倉儲本身並不生產資料,資料來源於外部,並且開放給外部應用,這也是為什麼叫倉庫,不叫工廠的原因。例如農貿市場並不種植蔬菜、養殖各種水產禽類,而是從各供貨商獲取材料。資料集市可以從自己的資料來源獲取資料,也可以從資料倉儲中獲取某一主題的資料。 那從供貨商到農貿市場的中間過程,其實就是所謂的“ETL”過程。ETL就是extract,Transform和load,指的是清洗,轉換和載入。我們都知道,供貨商提供的貨不是什麼都要的,我們要篩選出有價值的,暢銷的品種,有些壞的,不新鮮的菜在進農貿市場的過程中就需要去除掉。而不同的供貨商提供的貨可能也存在一些一樣的種類,那麼在搬運到農貿市場中就需要做一些歸類合併,按照更好的一種陳列方式擺放整齊供客戶挑選。這個從供貨商搬運,清洗,轉換,載入各種菜的過程就是ETL過程。在這個過程中,還涉及到ETL的方式和頻率。比如水產海鮮,很多都是速凍空運過來的,一些需求量比較小的比如澳龍可能幾天才送一次,而一些蔬菜是人們日常需要的,大都是周邊蔬菜大棚產的,就會由貨車每天運輸進農貿市場。這些菜被運送到農貿市場後,會根據一定的規則進行擺放讓客戶挑選。我們可以根據不同的規則對這些菜進行管理,就像資料倉儲的技術框架一樣,我們可以選擇一般的技術框架或者大資料技術框架,不同的選擇最終決定了我們資料倉儲的使用效果和投入成本。因此, 資料倉儲的本質還是一個資料庫,它將各個異構的資料來源,資料庫的資料統一管理起來,並且完成了相應資料的剔除,格式轉換,最終按照一種合理的建模方式來完成源資料的組織形式的轉變,以更好的支援前端的視覺化分析。 關於資料庫和資料集市,資料倉儲的區別,我們簡單做個總結一下:


特性 資料庫 資料倉儲 資料集市
出發點 面向事務處理設計 面向企業主題設計 面向部門或工作組主題
功能 捕獲和儲存資料 分析資料 分析資料
資料來源 從單個系統會獲取 從多個資料來源抽取和標準化 一般資料倉儲
資料量 中小
儲存內容 一般是線上資料 通常是歷史資料 通常是歷史資料
服務物件 業務人員 企業資料分析師、高層 部門資料分析師、領導


那資料倉儲有什麼價值呢?我們們先來說一個啤酒和尿布的故事。某超市貨架上將啤酒與尿布放在一起售賣,這看似不相關的兩個東西,為什麼會放在一起售賣呢?原來在早期的時候,該店面經理發現每週啤酒和尿布的銷量都會有一次同比增長,但一直搞不清楚原因。後來商家透過對原始交易記錄進行長期的詳細分析後發現,很多年輕的父親在下班後給孩子買完尿布後,大都會順便買一點自己愛喝的啤酒。於是該商家將尿布與啤酒擺放在一起售賣,透過它們的潛在關聯性,互相促進銷售。“啤酒與尿布”的故事一度成為營銷界的神話。從上面可以看出,資料倉儲除了將各資料來源抽取整合到一起為資料管理和運用提供方便外,還可以按照不同的主題,將不同種類的資料進行歸類組織,從多維度、多角度挖掘出一些有價值的東西,為了企業的分析和決策提供資料依據。而一般資料庫主要是面向事務處理,對資料分析效能不佳。此外,通常一個公司的業務系統會有很多,不同的業務系統往往管理部門不同,地域不同,各個資料庫系統之間是相互隔離的,無法從這些不同系統的資料之間挖掘出關聯關係。因此基於這些特性,資料倉儲可用於人工智慧、機器學習、風險控制、無人駕駛,資料化運營、精準運營,廣告精準投放等場景。星環科技是國內領先的大資料基礎軟體公司,圍繞資料的整合、儲存、治理、建模、分析、挖掘和流通等資料全生命週期提供基礎軟體與服務,於2016年被國際知名分析機構 Gartner 選入資料倉儲及資料管理分析魔力象限,位於遠見者象限,在前瞻性維度上優於 Cloudera、Hortonworks 等美國主流大資料平臺廠商,是Gartner 釋出該魔力象限以來首個進入該魔力象限的中國公司。Transwarp ArgoDB是星環科技面向資料分析型業務場景的分散式快閃記憶體資料庫產品,主要用於構建離線資料倉儲、實時資料倉儲、資料集市等資料分析系統。2019年8月,ArgoDB成為全球第四個透過TPC-DS基準測試並經過TPC官方審計的資料庫產品。

白話大資料 | 從買菜這件小事來聊聊資料倉儲


基於星環科技ArgoDB的資料倉儲解決方案,透過對資料的清洗、治理、建模、管理、分析,形成資料倉儲,為業務人員和管理人員提供管理決策服務。結合星環科技事件儲存庫Event Store和實時流計算引擎構建實時資料倉儲,可以高速接入實時訊息資料(吞吐量可以達到數百萬記錄/秒),或者從交易型資料庫實時同步資料到ArgoDB,並對資料進行實時增刪改查,以及高速的資料複雜加工和統計分析。 基於星環科技ArgoDB的資料倉儲解決方案特性:

多模型資料庫

支援關係型、搜尋、文字、物件等資料模型


完整的SQL支援

支援完整的SQL標準語法,相容Oracle、IBM DB2、Teradata方言,相容Oracle和DB2的儲存過程,支援業務平滑遷移


支援超大規模叢集

天然分散式架構,叢集節點規模無上限,資料儲存容量隨節點規模線性擴容,可支援2000+節點叢集


混合負載支援

支援實時資料與混合負載,支援海量資料的離線批次處理、線上實時分析和多維度的複雜關聯統計等功能


分散式事務保障

支援完整4種事務隔離級別,保障事務在分散式系統下正常運轉,高吞吐的,確保資料強一致,高可用的事務保證


典型案例


某農商行基於ArgoDB構建了新一代資料倉儲, 透過支援Oracle方言,極大降低了原先Oracle資料庫業務資料和現有分析型業務的遷移成本。在分析型業務方面以更低成本、更高效能完整替代了傳統Oracle資料倉儲,確保分析型業務與交易型業務的隔離。平臺滿足了行內包括歷史明細資料查詢、交易流水查詢、實時交易大屏、大額交易提醒等十多個關鍵查詢業務場景需求。 針對各類分析型業務的自動效能最佳化,保障了多使用者高併發場景下的效能要求。結合實時流引擎Slipstream,將源資料庫Oracle的增量資料以秒級延時快速同步到ArgoDB數倉,尤其確保了對源系統資料有刪改的經常性調賬退款業務資料能即時反映在分析系統中。平臺 基於實時落庫的業務資料實現了多流水錶多維度資料整合的互動式複雜分析能力,將原本基於Oracle的離線級分析能力提升到秒級的準實時級互動式分析能力,為行內未來多種複雜的分析型業務應用的擴充與更高的實時性要求打下堅實的技術基礎。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2861710/,如需轉載,請註明出處,否則將追究法律責任。

相關文章