資料是什麼——從數字說起

趙丹 Diana Zhao發表於2014-01-25

Data (/ˈdeɪtə/day-tə or /ˈdætə/da-tə, also /ˈdɑːtə/dah-tə) is a set of values of qualitative or quantitativevariables; restated, data are individual pieces of information. Data in computing (or data processing) are represented in a structure that is often tabular (represented by rows and columns), a tree (a set of nodes with parent-childrenrelationship), or a graph (a set of connected nodes). Data are typically the results of measurements and can be visualised using graphs or images.

Data as an abstractconcept can be viewed as the lowest level of abstraction, from which information and then knowledge are derived.

以上維基百科上對於Data的解釋令人費解,不僅沒有解決問題反而製造了問題。所以從現在起忘掉它吧。我們來自己創造解釋。

資料既然帶著一個“數”字,自然和數有關係。其實數字遠比文字古老,因為計數的符號比文字來得簡單多了,各種人類最初計數的方法幾乎一樣,不是用小棍就是用石頭,記錄下來不是槓就是點,只是單純的數量較少的槓或者點,很難辨認是人用來計數的符號還是某種自然力的痕跡,只有出現在其他明顯是人工創造的符號——例如史前巖畫中,才會被當作數字對待。伏羲八卦顯然是中國人類早期使用的數字,顯然早於倉頡造字和甲骨文,其他人類大體也差不多。所以最初的數字是人類還不會寫字的時候就已經被記錄下來了。由於最初的數字實在太簡單,只有“1”這個符號,多大的數就寫多少個“1”,所以每個數字只包含1位元資訊量。但就是這一位元,已經對早期人類起到很大的幫助了,比如他們可以結繩記事,每個疙瘩就是一個數字,這個數字一旦在繩子上處於特定的位置,就與特定時空中的一個事件相對應,能幫他回憶起當時的情景。結繩記事經過一定的發展,打結的方法逐漸多了幾種,就相當於從1進位制擴充套件到n進位制,每個結的樣式成為事件型別的程式碼,而人們可以根據這些作為程式碼的數來回憶起有價值的資訊,這不就是最初的資料嗎?其實英文的datum本意是基準,也有“據”的含義,只是沒有數的意思在裡面。

我們今天面對的被稱為資料的的東西,有的是數字,也有的是文字序列,所以乍看上去並不一定和數有關,但其實在資訊系統裡,所有的文字都是用數字來代表的,比如“資料”二字在UTF8編碼中就是十六進位制數6570和636E,所以文字其實就是數字。說資料就是可據之數,是完全沒有問題的。

相關文章