資料是什麼——資料的倉庫

趙丹 Diana Zhao發表於2014-02-23

原文網址 : http://www.ituring.com.cn/article/70286

20年前的軟體主要用來製造資料，那時候資料很少，上千萬行的關聯式資料庫表就已經是世界級水平了，只有銀行電信這種高大上的行業才會用到。而今，別說千萬了，千億似乎也算平常水平。對於PB級資料來說，如果一個物件資料量為1k，那也至少有一萬億個物件，當然從邏輯上看，這些資料可能表達的不是一萬億個物件，而是少數物件的總共一萬億個歷史狀態，這些狀態資料是資訊系統日復一日年復一年不停製造出來的。為了處理大量資料，首先想到的辦法是把資料集中儲存，統一管理，就像對待各種貨物一樣。最初的資料庫確實是按照倉庫設計的。在傳統的關聯式資料庫中，每一個值都被擺到一個三維空間的網格中的一個格子裡，三個維度分別是列、行、表。如果資料在時間上變化了，就直接把格子裡換成變化後的新值。這是一個以格子為中心的設計，格子基本不變，而裡面的資料經常變化。這也是一個沒有歷史的設計，倉庫只關心現在存了什麼，不關心以前存過什麼，因為貨物的價值只在它們本身，歷史上的東西已經不是東西了。既然是以格子為中心，那麼節約格子就成了要務，任何企圖多佔格子的行為都是不被允許的，每個資料庫設計者都被諄諄教誨，好的設計就是沒有冗餘，每條資料僅止出現一次。但是在實踐中這是完全沒有保證的，因為這樣的資料庫系統只管格子，不管格子裡存的內容，如果不同的格子放著相同的值，那是完全沒有問題的。在應用設計上，對於一些經常出現的高頻值，會編入程式碼表，但每個應用都有各自的程式碼表，而轉換為程式碼之後，看起來絕不相似，無法自動合併。

事實上，有意義的值是很少的，因為意義總是人賦予的，地球上有史以來存在過的人類總資料說在一千億左右，如果每人每天說1000句話，那麼有史以來人類講過的話也不過幾百PB，人類書寫的各種符號就更少了，因為書寫總比講話困難，並且其中可能還有80%是重複的，諸如“您吃了嗎”之類，以至於數量級還會進一步降低。對於數值類的值，雖然理論上各種數域都可以是無窮的，可能存在無窮多個值，但是實際上，有意義的值是很少的，因為意義總是人類賦予的，人給一個值賦予意義總要表達一下，就算每次都能一句話講明白了，也僅能給所說的話想等數量級的值賦予意義，事實上也是這樣，體溫計產生的值總是在35.0到42.0之間，北京的氣溫總是在－20到＋45之間，有理數集的無限可能對於實際產生的數值個數並無什麼幫助。所以窮盡所有有意義的值並儲存下來，對每個值給予一個固定編址是可行的，今天的技術已經能將其實現。

真正困難的事情是找到值的意義，也就是在巨大而複雜的知識網路中定位到值所關聯的概念和物件。前面已經說了，傳統的資料庫中，格子就代表意義，不同的格子可以儲存相同的值，但是資料庫系統只關心格子，從格子找到值容易，從值找到格子，如果不是根本不可行，也是極為困難。但是對於傳統的應用，這似乎不是問題，因為值在產生的時候已經被賦予了意義，並且對值的任何操作之前幾乎總是已經確定了它所在的那個格子。唯一一個例外的情況是搜尋，搜尋是按照值找格子的過程，但是在傳統的資訊系統裡，搜尋是很少的，並且簡單到只對單一物件型別進行。這也是為什麼某個以搜尋為核心業務的企業會顛覆傳統的資料庫理念的原因，因為這類企業對於從值找格子這種在傳統看來非主流的逆向操作有著巨大、複雜而且迫切的需求。

資料庫倉庫系列：(一)什麼是資料倉儲，為什麼要資料倉儲
2020-12-12
資料庫
什麼是資料倉儲
2023-05-17
什麼是資料倉儲？
2019-07-29
Chronicles 是什麼資料庫
2024-03-22
資料庫
什麼是皇帝資料庫？
2023-04-25
資料庫
什麼是Cassandra資料庫
2020-12-31
資料庫
資料湖是誰？那資料倉儲又算什麼？
2020-12-26
MySQL資料庫是什麼？linux資料庫運維
2021-04-14
MySql資料庫Linux運維
到底什麼是實時資料倉儲？
2022-07-28
【資料庫】雲資料庫rds是什麼意思？有什麼優勢？
2022-03-04
資料庫
什麼是真正的自治資料庫？
2022-12-05
資料庫
雲資料庫RDS是什麼？雲資料庫RDS有什麼優勢？
2021-03-29
資料庫
什麼是資料庫檢視？
2022-05-21
資料庫
MySQL資料庫的優勢是什麼？
2023-01-16
MySql資料庫
資料庫：外來鍵是什麼
2018-07-16
資料庫
到底什麼是雲原生資料庫？
2022-04-01
資料庫
什麼是大資料?大資料開發是做什麼的?
2019-12-04
大資料
什麼是資料運營？資料運營是做什麼的？
2021-12-28
通俗易懂了解什麼是資料倉儲
2021-08-18
什麼是騰訊雲資料庫 CynosDB？雲資料庫 TencentDB for CynosDB 的特性
2020-09-27
資料庫
資料湖 vs 倉庫 vs 資料庫
2022-01-16
資料庫
為什麼PostgreSQL是最成功的資料庫？
2023-03-01
SQL資料庫
什麼是大資料？大資料能做什麼？
2022-03-20
大資料
【TcaplusDB知識庫】什麼是TcaplusDB資料庫？
2021-11-22
資料庫
帝國cms配置資料庫是什麼
2024-09-21
資料庫
flask資料庫遷移是什麼意思
2021-09-11
Flask資料庫
資料湖 vs 資料倉儲 vs 資料庫
2022-01-16
資料庫
資料庫mysql儲存是什麼？可以存什麼?
2021-09-11
資料庫MySql
資料庫審計是什麼意思？作用是什麼？
2021-11-04
資料庫
到底什麼是大資料？新手學大資料的路徑是什麼？
2019-10-25
大資料
大資料是什麼？大資料的趨勢？
2019-06-22
大資料
什麼是資料分析中的“資料”？ - Cassie Kozyrkov
2022-02-21
資料湖+資料倉儲 = 資料湖庫架構
2022-01-13
架構
資料倉儲應該用什麼方案——資料倉儲實施方案概述
2024-05-30
什麼是資料流？
2018-11-06
什麼是資料蔓延？
2018-12-07
什麼是大資料？
2022-06-22
大資料
【資料庫】簡單聊聊資料庫可以做什麼，有什麼用？
2024-01-09
資料庫
什麼是資料和資訊
2021-01-01

資料是什麼——資料的倉庫

相關文章