資料庫和資料湖的關鍵概念性差異
導讀 | 在資料庫和資料湖的工作中,有幾個關鍵的概念性差異。在這篇文章中,讓我們來確定其中的一些差異,這些差異在第一眼看到時可能並不直觀,特別是對於具有強大關係型資料庫背景的人來說。 |
伺服器是一次性的。資料在雲中。
解耦儲存和計算。在談論資料湖時,這是一個典型的問題。
在傳統的資料庫系統(以及最初的基於Hadoop的資料湖)中,儲存與計算伺服器緊密結合。伺服器要麼有內建的儲存,要麼直接連線到儲存。
在現代基於雲的資料湖架構中,資料儲存和計算是獨立的。資料被儲存在雲物件儲存(例如:AWS S3、Azure Storage)中,通常是以一種開放的格式,如parquet,而計算伺服器是無狀態的,它們可以在必要時啟動/關閉。
擁有一個解耦的儲存和計算使。
- 降低計算成本。伺服器在必要時執行。當不使用時,它們可以被關閉,從而降低了計算成本。
- 可擴充套件性。你不必為高峰期的使用而購置硬體。伺服器/中央處理器/記憶體的數量可以根據當前的使用情況動態地增加/減少。
- 沙盒化。相同的資料可以被多個計算伺服器/叢集同時讀取。這使得你可以讓多個團隊在不同的叢集中並行工作,讀取相同的資料,而不影響彼此。
- RAW資料才是王道!策劃的資料只是衍生的。
在資料庫正規化中,來自源系統的資料被轉化並載入到資料庫表中後,它就不再有用了。在資料湖正規化中,RAW資料被保留為真理的源泉,最終永遠保留,因為它是真正的資產。
然而,RAW資料通常不適合商業使用者的消費,因此它要經過一個策劃過程,以提高其質量,提供結構並方便消費。經過整理的資料最終被儲存起來,供資料科學團隊、資料倉儲、報告系統以及業務使用者的一般消費使用。
典型的資料湖消費者只看到策劃過的資料,因此他們對策劃過的資料的重視程度遠遠超過產生這些資料的RAW資料。
然而,資料湖的真正資產是RAW資料(連同策展管道),從某種意義上說,策展的資料類似於一個可以隨時重新整理的物化檢視。
主要收穫:
- 可以在任何時候從RAW中重新建立。
- 可以透過改進策展過程來重新建立。
- 我們可以有多個策劃好的檢視,每個檢視都用於特定的分析。
今天做出的模式決定不會制約未來的需求
通常情況下,資訊需求會發生變化,一些原先沒有從源頭/運營系統中收集的資訊需要被分析。
在一個典型的情況下,如果原始的RAW資料沒有被儲存,歷史資料就會永遠丟失。
然而,在資料湖架構中,今天決定不把某個欄位載入到策劃的模式中,以後可以推翻,因為所有的詳細資訊都安全地儲存在資料湖的RAW區域,歷史策劃的資料可以用額外的欄位重新建立。
主要收穫:
- 如果你現在不需要,就不要花大量的時間去建立一個通用的一刀切的策劃模式。
- 迭代地建立一個策劃的模式,從新增你現在需要的欄位開始。
- 當需要額外的欄位時,將它們新增到策展過程中並重新處理。
資料湖不是資料庫的替代品,每種工具都有它的優勢和致命弱點。
將資料湖用於OLTP可能是一個壞主意,就像使用資料庫來儲存數千兆位元組的非結構化資料一樣。
我希望這篇文章有助於闡明兩個系統之間的一些關鍵設計差異。
原文來自:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2774576/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 不同資料庫SQL語法差異資料庫SQL
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 易觀:避免“資料湖”成為“資料沼澤”,流動的“資料河”是關鍵
- 關於資料湖、資料倉儲的想法
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 資料庫關鍵詞 drop、truncate和delete的用法資料庫delete
- 資料庫的主外來鍵關係資料庫
- 技術分享|SQL和 NoSQL資料庫之間的差異:MySQL(VS)MongoDB資料庫MySqlMongoDB
- java比較mysql兩個資料庫中差異JavaMySql資料庫
- 談談資料湖和資料倉儲
- 資料湖和中央資料倉儲的設計
- 關係型資料庫和非關係型資料庫的區別資料庫
- 資料湖
- 結構化資料與非結構化資料的差異
- 從資料庫開源商業版本差異談起資料庫
- openGauss資料與PostgreSQL的差異對比SQL
- Golang 針對 MySQL 資料庫表結構的差異 SQL 工具GolangMySql資料庫
- 資料湖中加熱資料?
- 銀行大資料新玩法,構建“一湖兩庫”金融資料湖大資料
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料庫界的Swagger:一鍵生成資料庫文件!資料庫Swagger
- 資料庫中儲存bool物件的資料,使用Bit和Integer有什麼區別,效能上有多大的差異資料庫物件
- [20210722]資料庫異常關閉的處理.txt資料庫
- 資料治理:資料整合的關鍵技術
- 資料專案與erp專案的差異
- mpp 資料庫greenplum官方商業版本與開源版本的差異資料庫
- 資料變異性的度量 - 極差、IQR、方差和標準偏差
- 大資料開發:剖析Hadoop和Spark的Shuffle過程差異大資料HadoopSpark
- 奈學:資料湖和資料倉儲的區別有哪些?
- 配置ORACLE資料庫到達夢資料庫的異構DBLINKOracle資料庫
- 資料庫SQL語句中關於explain關鍵字的用法資料庫SQLAI
- 讀資料湖倉02資料抽象抽象
- 讀資料湖倉06資料整合
- 談談資料資產和資料產品的異同
- 從鍵盤鍵入String型別的資料插入資料庫中型別資料庫
- Python+資料庫測試常用關鍵字Python資料庫
- indexedDB 資料庫主鍵Index資料庫