所有程式語言中的棧操作，底層原理都在這裡

IOT物聯網小鎮發表於2021-07-30

原文網址 : https://www.cnblogs.com/sewain/p/15077949.html

作者：道哥，10+年的嵌入式開發老兵。

公眾號：【IOT物聯網小鎮】，專注於：C/C++、Linux作業系統、應用程式設計、物聯網、微控制器和嵌入式開發等領域。公眾號回覆【書籍】，獲取 Linux、嵌入式領域經典書籍。

轉載：歡迎轉載文章，轉載需註明出處。

在任何一門編譯型語言中，棧操作都是非常重要的。

利用棧的後進先出特性，可以很方便的解決一些棘手的問題，以至於 CPU 單獨分配了 push 和 pop 這兩個命令來專門操作棧，當然了，還有其他一些輔助的棧操作指令。

對於一些解釋型的指令碼語言，比如：Javascript、Lua 等，它們與宿主語言之間的引數傳遞也都是通過棧來操作的。

因此，理解了棧操作的基本原理，對於學習、理解高階語言是非常有幫助的。

這篇文章，我們繼續從最底層的指令碼入手，通過一個子程式呼叫(即：函式呼叫)，來學習棧空間是如何操作的，也就是下面這張圖：

示例雖然是彙編程式碼，但是指令碼一共不超過10個，而且每一句都有註釋，相信你閱讀一定沒有問題！

再次重申：我們不是在學習組合語言，只是利用匯編程式碼，去繁存簡，用最簡單的例項來理解棧的操作。

示例程式碼說明

程式碼的功能是：

主程式：設定資料段、棧段、棧頂這 3 個暫存器，然後呼叫子程式(函式呼叫);

子程式：從暫存器 si 中獲取字串開始地址，然後計算字串的長度，最後通過暫存器 ax 返回給主程式;

主程式在呼叫子程式的時候，就涉及到返回地址的入棧、出棧操作。

子程式在計算字串長度的時候，為了保護一些使用到的暫存器不被破壞，也涉及到入棧和出棧操作。

我們的主要目標就是來研究以上這2部分操作時，棧空間裡的資料變化情況。

具體的程式碼說明如下：

執行主程式

以下演示的截圖，是通過debug.exe這個工具來除錯的。

在除錯的過程中，主要關心的就是棧空間中的資料，以及幾個暫存器的值：

程式碼相關： cs, ip
棧相關：ss, sp

初始狀態

在執行第一條指令之前，首先看一下所有暫存器中的值：

此時，我們還沒有為資料段暫存器 ds、棧段暫存器ss賦值，因此裡面的值是沒有意義的。

只有 cs:ip 暫存器的值是有意義的，此時它們為 076F:0000，指向第一條程式碼處。

再來看一下指令碼：

兩個綠框內的指令，就是用來設定資料段暫存器 ds、棧段暫存器 ss 和棧頂暫存器 sp。

這部分內容在上一篇文章中都已經詳細描述過了，這裡就不重複了。

執行程式碼前 5 句

mov ax, data
mov ds, ax

mov ax, stack
mov ss, ax
mov sp, 20h

這 5 行程式碼的功能就是：設定 ds、 ss 和 sp。

執行完這 5 行程式碼後，暫存器中的值為：

從以上這張圖中可以看到編譯器為程式安排了下面這幾個地址：

把【資料段】安排在 076C:0000 位置;
把【棧段】安排在 076D:0000 位置;
把【程式碼段】安排在 076F:0000 的位置;

雖然資料段值定義了 6 個位元組的資料( 5 個字元 + 1 個結束符)，但是它與棧段的開始地址之間，還是預留了 16 個位元組的空間。

我們把此時記憶體空間的整體佈局畫一下：

準備呼叫子程式

我們都知道，在呼叫函式的之後，需要把呼叫指令後面的那條指令的地址，壓入到棧中。

只有這樣，被呼叫函式在執行結束之後，才能繼續返回到正確的指令處繼續執行。

CPU 在執行 call 指令的時候，會自動把 call 指令的後面一條指令的地址，壓入到棧中。

在執行 call 指令之前，我們先來看一下 2 張圖片。

1. call 的指令碼和彙編程式碼

call 的彙編程式碼是：call 0018。

0018 指的是指令暫存器 ip 的值，加上程式碼段暫存器 cs，就是：076F:0018，這個位置處儲存的就是子程式的第一條指令：push bx。

注意：call 的指令碼是 E80500，E8 是 call 指令的操作碼，0005 是指令引數(注意：低位元組是放在低地址，即：小端模式)。

之前文章說過，CPU 在執行一條指令後，會自動把指令暫存器 ip 修改為下一條指令的地址。

當 call 這條指令執行時，ip 就自動變成下一條指令的地址，再加上 call 指令中的 0005，也就是說讓 ip 再加上這個值，就是子程式的第一條指令的地址。

這也是相對地址的概念！在以後介紹到重定位的時候，再繼續聊這個話題。

2. 棧空間的資料

此時，棧頂暫存器 sp 的值為 0020，即：棧的最高地址的下一個位置(為什麼是這個位置？上一篇文章有說明)。

這 32 個位元組的內容是沒有任何意義的。

因為棧裡資料是否有意義，是依賴於 sp 暫存器的，可以把它理解成一個指標，有些書籍中稱呼它為：棧頂指標。

呼叫子程式

子程式的功能是計算字串的長度，那麼主程式一定要告訴子程式：字串的開始地址在哪裡。

在程式碼的開頭，我們放置了 6 個位元組的資料段空間，內容是 5 個字元，加上一個 0。

主程式把第一個字元的地址 0，通過暫存器 si 來告訴子程式：mov si, 0。

子程式在執行時，就從 si 的值所代表的地址處，依次取出每一個字元。

現在我們開始執行 call 指令。

從上面的描述中可以知道：call 的下一條指令的地址(076F:0013)，將會被壓入到棧中。

由於這裡 call 指令是段內跳轉，不會把 cs 的值入棧，僅僅是把 ip 的值入棧。(如果是段間跳轉的話，就會把 cs:ip 都壓棧)

我們來看一下執行 call 指令之後的兩張圖：

1. 暫存器的值

從圖中看出 sp 的值變成了 001E。還記得之前文章說的入棧操作嗎？

Step1：sp = sp -2。由於 sp 的初值是 0020，減去 2 之後就是 001E（都是十六進位制）;

Step2：把要入棧的值(也就是下一條指令的地址 0013)放在 sp 指向的地址處。

從圖中還可以看到，指令暫存器 ip 的值變成了 0018，也就是子程式的第 1 條指令(push bx)的地址。

2. 棧空間的資料

可以看到：最後 2 個位元組是 0013，也即是下面的這樣：

此時，指令暫存器 ip 指向了子程式的第一條指令 076F:0018 處，那就繼續執行吧！

子程式

保護使用到的暫存器

我們知道：CPU 中暫存器都是公用的。

在子程式中，為了計算字串的長度，程式碼中用到了bx, cx 這 2 個暫存器。

但是我們不知道這 2 個暫存器是否在主程式中也被使用了。

如果我們冒然直接使用它們，改變了它們的值，那麼在子程式執行結束後，返回到主程式時，主程式如果也用了這 2 個暫存器，那就有麻煩了。

因此，在子程式的開始處，需要把 bx, cx 放在在棧中進行暫存保護。

當子程式返回的時候，再從棧中恢復它們的值，這樣就不會對主程式構成潛在的威脅了。

1. push bx

在入棧之前，bx 的值是 0000，我們給他入棧。

還記得上篇文章中入棧的操作嗎：

Step1: 把 sp 的值減 2;
Step2: 把要入棧的值放在 sp 地址處(2個位元組);

此時，棧頂暫存器 sp 變成 001C (001E - 2)。

ba
再來看一下棧空間的資料情況：

此刻，棧中有意義的資料就有 2 個：返回地址，bx 的值。

2. push cx

在入棧之前，cx 的值是 005C，我們給他入棧。

執行入棧的 2 步操作之後，棧頂暫存器 sp 變成 001A (001C - 2)。

棧空間的資料情況：

3. 計算字串的長度

字串是放在資料段中的。資料段的段地址 ds，在主程式的開頭已經設定好了。

字串的首地址，主程式在執行 call 指令之前，已經放在暫存器 si 中了。

因此，子程式只要從 si 開始位置，依次取出每一個字元，然後檢查它是否等於 0 (jcxz)。

如果不為0，就把長度值加 1 (inc bx)，然後繼續取下一個字元(inc si)；

如果為0，就停止獲取字元，因為已經遇到了字串末尾的 0。

在迴圈獲取每一個字元的時候，可以用 bx 暫存器來記錄長度，所以在子程式的開頭要讓 bx 入棧。

讀取的每個字元，放在 cx 暫存器中，所以在子程式的開頭要讓 cx 入棧。

我們來看一下檢查第一個字元 'a' 的情況：

此時：

bx 的值為 0001，說明長度至少為 1。

si 的值為 0001，準備取下一個位置 ds:si（即：076C:0001）處的字元 ‘b’。

這個過程一直迴圈 6 次(loop s)，當 ds:si 指向 076C:0005，也就是取出的字元為 0 時，就直接跳轉到標號為 over （即：076F:0027）的地址處。

此刻，暫存器 bx 中就存放著字串的長度：0005：

4. 把字串長度告訴主程式

字串的長度計算出來了，我們要把這個值告訴主程式，一般都是通過通用暫存器 ax 來傳遞返回結果。

所以，執行指令 mov ax, bx 把 bx 的值賦值給 ax，主程式就可以從暫存器 ax 中得到字串的長度了。

5. pop cx

子程式在返回之前，需要把棧中儲存的 bx、cx 值恢復到暫存器中。

另外，由於棧的後進先出特性，需要把棧頂資料先彈出到 cx 暫存器中。

在執行出棧之前：

sp = 001A
cx = 0000

棧中的資料情況如下：

pop cx 指令分為 2 個動作：

Step1：把 sp 指向的地址單元的中資料( 2 個位元組)，放入暫存器 cx 中，於是 cx 中的值變成了：005C；

Step2：把 sp 的值自增 2，變成 001C (001A + 2)。

此時，棧中的資料情況：

6. pop bx

執行過程是一樣的：

Step1：把 sp 指向的地址單元的中資料( 2 個位元組)，放入暫存器 bx 中，於是 bx 中的值變成了：0000；

Step2：把 sp 的值自增 2，變成 001E (001C + 2)。

此時，棧中的資料情況：

7. 返回指令 ret

CPU 在執行 ret 指令時，也有 2 個動作：

Step1：把 sp 指向的地址單元的中資料( 2 個位元組)，放入指令暫存器 ip 中，於是 ip 中的值變成了：0013；

Step2：把 sp 的值自增 2，變成 0020 (001E + 2)。

此時，棧中的資料情況是：

這時，棧頂暫存器 sp 已經指到了程式碼段的空間中。這是由於我們在剛開始安排的時候，沒有在棧與程式碼之間，空出來一段緩衝空間。

不管怎樣，此時:

棧空間中沒有任何有意義的資料了;
cs:ip 指向了主程式中 call 指令的下一條指令（mov ax,4c00h）;

所以，當 CPU 執行下一條指令的時候，又回到了主程式中繼續執行。。。

------ End ------

所有程式語言中的棧操作，底層原理都在這裡

示例程式碼說明

執行主程式

初始狀態

執行程式碼前 5 句

準備呼叫子程式

1. call 的指令碼和彙編程式碼

2. 棧空間的資料

呼叫子程式

1. 暫存器的值

2. 棧空間的資料

子程式

保護使用到的暫存器

1. push bx

2. push cx

3. 計算字串的長度

4. 把字串長度告訴主程式

5. pop cx

6. pop bx

7. 返回指令 ret

相關文章