程式設計師需要了解的硬核知識之記憶體

cxuan發表於2019-10-29

我們都知道,計算機是處理資料的裝置,而資料的主要儲存位置就是磁碟記憶體,並且對於程式設計師來講,CPU 和記憶體是我們必須瞭解的兩個物理結構,它是你通向高階程式設計師很重要的橋樑,那麼本篇文章我們就來介紹一下基本的記憶體知識。

什麼是記憶體

記憶體(Memory)是計算機中最重要的部件之一,它是程式與CPU進行溝通的橋樑。計算機中所有程式的執行都是在記憶體中進行的,因此記憶體對計算機的影響非常大,記憶體又被稱為主存,其作用是存放 CPU 中的運算資料,以及與硬碟等外部儲存裝置交換的資料。只要計算機在執行中,CPU 就會把需要運算的資料調到主存中進行運算,當運算完成後CPU再將結果傳送出來,主存的執行也決定了計算機的穩定執行。

記憶體的物理結構

在瞭解一個事物之前,你首先得先需要過它,你才會有印象,才會有想要了解的興趣,所以我們首先需要先看一下什麼是記憶體以及它的物理結構是怎樣的。

image.png

記憶體的內部是由各種IC電路組成的,它的種類很龐大,但是其主要分為三種儲存器

  • 隨機儲存器(RAM): 記憶體中最重要的一種,表示既可以從中讀取資料,也可以寫入資料。當機器關閉時,記憶體中的資訊會 丟失
  • 只讀儲存器(ROM):ROM 一般只能用於資料的讀取,不能寫入資料,但是當機器停電時,這些資料不會丟失。
  • 快取記憶體(Cache):Cache 也是我們經常見到的,它分為一級快取(L1 Cache)、二級快取(L2 Cache)、三級快取(L3 Cache)這些資料,它位於記憶體和 CPU 之間,是一個讀寫速度比記憶體更快的儲存器。當 CPU 向記憶體寫入資料時,這些資料也會被寫入快取記憶體中。當 CPU 需要讀取資料時,會直接從快取記憶體中直接讀取,當然,如需要的資料在Cache中沒有,CPU會再去讀取記憶體中的資料。

記憶體 IC 是一個完整的結構,它內部也有電源、地址訊號、資料訊號、控制訊號和用於定址的 IC 引腳來進行資料的讀寫。下面是一個虛擬的 IC 引腳示意圖

image.png

圖中 VCC 和 GND 表示電源,A0 - A9 是地址訊號的引腳,D0 - D7 表示的是控制訊號、RD 和 WR 都是好控制訊號,我用不同的顏色進行了區分,將電源連線到 VCC 和 GND 後,就可以對其他引腳傳遞 0 和 1 的訊號,大多數情況下,+5V 表示1,0V 表示 0

我們都知道記憶體是用來儲存資料,那麼這個記憶體 IC 中能儲存多少資料呢?D0 - D7 表示的是資料訊號,也就是說,一次可以輸入輸出 8 bit = 1 byte 的資料。A0 - A9 是地址訊號共十個,表示可以指定 00000 00000 - 11111 11111 共 2 的 10次方 = 1024個地址。每個地址都會存放 1 byte 的資料,因此我們可以得出記憶體 IC 的容量就是 1 KB。

如果我們使用的是 512 MB 的記憶體,這就相當於是 512000(512 * 1000) 個記憶體 IC。當然,一臺計算機不太可能有這麼多個記憶體 IC ,然而,通常情況下,一個記憶體 IC 會有更多的引腳,也就能儲存更多資料。

記憶體的讀寫過程

讓我們把關注點放在記憶體 IC 對資料的讀寫過程上來吧!我們來看一個對記憶體IC 進行資料寫入和讀取的模型

image.png

來詳細描述一下這個過程,假設我們要向記憶體 IC 中寫入 1byte 的資料的話,它的過程是這樣的:

  • 首先給 VCC 接通 +5V 的電源,給 GND 接通 0V 的電源,使用 A0 - A9 來指定資料的儲存場所,然後再把資料的值輸入給 D0 - D7 的資料訊號,並把 WR(write)的值置為 1,執行完這些操作後,即可以向記憶體 IC 寫入資料
  • 讀出資料時,只需要通過 A0 - A9 的地址訊號指定資料的儲存場所,然後再將 RD 的值置為 1 即可。
  • 圖中的 RD 和 WR 又被稱為控制訊號。其中當WR 和 RD 都為 0 時,無法進行寫入和讀取操作。

記憶體的現實模型

為了便於記憶,我們把記憶體模型對映成為我們現實世界的模型,在現實世界中,記憶體的模型很想我們生活的樓房。在這個樓房中,1層可以儲存一個位元組的資料,樓層號就是地址,下面是記憶體和樓層整合的模型圖

image.png
我們知道,程式中的資料不僅只有數值,還有資料型別的概念,從記憶體上來看,就是佔用記憶體大小(佔用樓層數)的意思。即使物理上強制以 1 個位元組為單位來逐一讀寫資料的記憶體,在程式中,通過指定其資料型別,也能實現以特定位元組數為單位來進行讀寫。

下面是一個以特定位元組數為例來讀寫指令位元組的程式的示例

// 定義變數
char a;
short b;
long c;

// 變數賦值
a = 123;
b = 123;
c = 123;

我們分別宣告瞭三個變數 a,b,c ,並給每個變數賦上了相同的 123,這三個變數表示記憶體的特定區域。通過變數,即使不指定實體地址,也可以直接完成讀寫操作,作業系統會自動為變數分配記憶體地址。

這三個變數分別表示 1 個位元組長度的 char,2 個位元組長度的 short,表示4 個位元組的 long。因此,雖然資料都表示的是 123,但是其儲存時所佔的記憶體大小是不一樣的。如下所示

image.png

這裡的 123 都沒有超過每個型別的最大長度,所以 short 和 long 型別為所佔用的其他記憶體空間分配的數值是0,這裡我們採用的是低位元組序列的方式儲存

低位元組序列:將資料低位儲存在記憶體低位地址。

高位元組序列:將資料的高位儲存在記憶體地位的方式稱為高位元組序列。

記憶體的使用

指標

指標是 C 語言非常重要的特徵,指標也是一種變數,只不過它所表示的不是資料的值,而是記憶體的地址。通過使用指標,可以對任意記憶體地址的資料進行讀寫。

在瞭解指標讀寫的過程前,我們先需要了解如何定義一個指標,和普通的變數不同,在定義指標時,我們通常會在變數名前加一個 * 號。例如我們可以用指標定義如下的變數

char *d; // char型別的指標 d 定義
short *e; // short型別的指標 e 定義
long *f; // long型別的指標 f 定義

我們以32位計算機為例,32位計算機的記憶體地址是 4 位元組,在這種情況下,指標的長度也是 32 位。然而,變數 d e f 卻代表了不同的位元組長度,這是為什麼呢?

實際上,這些資料表示的是從記憶體中一次讀取的位元組數,比如 d e f 的值都為 100,那麼使用 char 型別時就能夠從記憶體中讀寫 1 byte 的資料,使用 short 型別就能夠從記憶體讀寫 2 位元組的資料, 使用 long 就能夠讀寫 4 位元組的資料,下面是一個完整的型別位元組表

型別 32位 64位
char 1 1
short int 2 2
int 4 4
unsigned int 4 4
float 4 4
double 8 8
long 4 8
long long 8 8
unsigned long 4 8

我們可以用圖來描述一下這個讀寫過程

image.png

陣列是記憶體的實現

陣列是指多個相同的資料型別在記憶體中連續排列的一種形式。作為陣列元素的各個資料會通過下標編號來區分,這個編號也叫做索引,如此一來,就可以對指定索引的元素進行讀寫操作。

首先先來認識一下陣列,我們還是用 char、short、long 三種元素來定義陣列,陣列的元素用[value] 擴起來,裡面的值代表的是陣列的長度,就像下面的定義

char g[100];
short h[100];
long i[100];

陣列定義的資料型別,也表示一次能夠讀寫的記憶體大小,char 、short 、long 分別以 1 、2 、4 個位元組為例進行記憶體的讀寫。

陣列是記憶體的實現,陣列和記憶體的物理結構完全一致,尤其是在讀寫1個位元組的時候,當位元組數超過 1 時,只能通過逐個位元組來讀取,下面是記憶體的讀寫過程

image.png

陣列是我們學習的第一個資料結構,我們都知道陣列的檢索效率是比較快的,至於陣列的檢索效率為什麼這麼快並不是我們這篇文章討論的重點。

棧和佇列

我們上面提到陣列是記憶體的一種實現,使用陣列能夠使程式設計更加高效,下面我們就來認識一下其他資料結構,通過這些資料結構也可以操作記憶體的讀寫。

棧(stack)是一種很重要的資料結構,棧採用 LIFO(Last In First Out)即後入先出的方式對記憶體進行操作。它就像一個大的收納箱,你可以往裡面放相同型別的東西,比如書,最先放進收納箱的書在最下面,最後放進收納箱的書在最上面,如果你想拿書的話, 必須從最上面開始取,否則是無法取出最下面的書籍的。

棧的資料結構就是這樣,你把書籍壓入收納箱的操作叫做壓入(push),你把書籍從收納箱取出的操作叫做彈出(pop),它的模型圖大概是這樣

image.png
入棧相當於是增加操作,出棧相當於是刪除操作,只不過叫法不一樣。棧和記憶體不同,它不需要指定元素的地址。它的大概使用如下

// 壓入資料
Push(123);
Push(456);
Push(789);

// 彈出資料
j = Pop();
k = Pop();
l = Pop();

在棧中,LIFO 方式表示棧的陣列中所儲存的最後面的資料(Last In)會被最先讀取出來(First On)。

image.png

佇列

佇列和棧很相似但又不同,相同之處在於佇列也不需要指定元素的地址,不同之處在於佇列是一種 先入先出(First In First Out) 的資料結構。佇列在我們生活中的使用很像是我們去景區排隊買票一樣,第一個排隊的人最先買到票,以此類推,俗話說: 先到先得。它的使用如下

// 往佇列中寫入資料
EnQueue(123);
EnQueue(456);
EnQueue(789);

// 從佇列中讀出資料
m = DeQueue();
n = DeQueue();
o = DeQueue();

向佇列中寫入資料稱為 EnQueue()入列,從佇列中讀出資料稱為DeQueue()

image.png

與棧相對,FIFO 的方式表示佇列中最先所儲存的資料會優先被讀取出來。

image.png

佇列的實現一般有兩種:順序佇列迴圈佇列,我們上面的事例使用的是順序佇列,那麼下面我們看一下迴圈佇列的實現方式

環形緩衝區

迴圈佇列一般是以環狀緩衝區(ring buffer)的方式實現的,它是一種用於表示一個固定尺寸、頭尾相連的緩衝區的資料結構,適合快取資料流。假如我們要用 6 個元素的陣列來實現一個環形緩衝區,這時可以從起始位置開始有序的儲存資料,然後再按照儲存時的順序把資料讀出。在陣列的末尾寫入資料後,後一個資料就會從緩衝區的頭開始寫。這樣,陣列的末尾和開頭就連線了起來。

image.png

連結串列

下面我們來介紹一下連結串列二叉樹,它們都是可以不用考慮索引的順序就可以對元素進行讀寫的方式。通過使用連結串列,可以高效的對資料元素進行新增刪除操作。而通過使用二叉樹,則可以更高效的對資料進行檢索

在實現陣列的基礎上,除了資料的值之外,通過為其附帶上下一個元素的索引,即可實現連結串列。資料的值和下一個元素的地址(索引)就構成了一個連結串列元素,如下所示

image.png

對連結串列的新增和刪除都是非常高效的,我們來敘述一下這個新增和刪除的過程,假如我們要刪除地址為 p[2] 的元素,連結串列該如何變化呢?

image.png

我們可以看到,刪除地址為 p[2] 的元素後,直接將連結串列剔除,並把 p[2] 前一個位置的元素 p[1] 的指標域指向 p[2] 下一個連結串列元素的資料區即可。
image.png

那麼對於新新增進來的連結串列,需要確定插入位置,比如要在 p[2] 和 p[3] 之間插入地址為 p[6] 的元素,需要將 p[6] 的前一個位置 p[2] 的指標域改為 p[6] 的地址,然後將 p[6] 的指標域改為 p[3] 的地址即可。

連結串列的新增不涉及到資料的移動,所以連結串列的新增和刪除很快,而陣列的新增設計到資料的移動,所以比較慢,通常情況下,使用陣列來檢索資料,使用連結串列來進行新增和刪除操作。

二叉樹

二叉樹也是一種檢索效率非常高的資料結構,二叉樹是指在連結串列的基礎上往陣列追加元素時,考慮到陣列的大小關係,將其分成左右兩個方向的表現形式。假如我們把 50 這個值儲存到了陣列中,那麼,如果接下來要進行值寫入的話,就需要和50比較,確定誰大誰小,比50數值大的放右邊,小的放左邊,下圖是二叉樹的比較示例

image.png

二叉樹是由連結串列發展而來,因此二叉樹在追加和刪除元素方面也是同樣有效的。

這一切的演變都是以記憶體為基礎的。

下面為自己做個宣傳,歡迎關注公眾號 Java建設者,號主是Java技術棧,熱愛技術,喜歡閱讀,熱衷於分享和總結,希望能把每一篇好文章分享給成長道路上的你。公號回覆002,有你想要的資源。

文章參考:

Memory

佇列

緩衝器

《程式是怎樣跑起來的》第四章

相關文章