作 者:道哥,10+年的嵌入式開發老兵。
公眾號:【IOT物聯網小鎮】,專注於:C/C++、Linux作業系統、應用程式設計、物聯網、微控制器和嵌入式開發等領域。 公眾號回覆【書籍】,獲取 Linux、嵌入式領域經典書籍。
轉 載:歡迎轉載文章,轉載需註明出處。
在任何一門編譯型語言中,棧操作都是非常重要的。
利用棧的後進先出特性,可以很方便的解決一些棘手的問題,以至於 CPU
單獨分配了 push
和 pop
這兩個命令來專門操作棧,當然了,還有其他一些輔助的棧操作指令。
對於一些解釋型的指令碼語言,比如:Javascript
、Lua
等,它們與宿主語言之間的引數傳遞也都是通過棧來操作的。
因此,理解了棧操作的基本原理,對於學習、理解高階語言是非常有幫助的。
這篇文章,我們繼續從最底層的指令碼入手,通過一個子程式呼叫(即:函式呼叫),來學習棧空間是如何操作的,也就是下面這張圖:
示例雖然是彙編程式碼,但是指令碼一共不超過10
個,而且每一句都有註釋,相信你閱讀一定沒有問題!
再次重申:我們不是在學習組合語言,只是利用匯編程式碼,去繁存簡,用最簡單的例項來理解棧的操作。
示例程式碼說明
程式碼的功能是:
主程式:設定資料段、棧段、棧頂這 3 個暫存器,然後呼叫子程式(函式呼叫);
子程式:從暫存器 si 中獲取字串開始地址,然後計算字串的長度,最後通過暫存器 ax 返回給主程式;
主程式在呼叫子程式的時候,就涉及到返回地址的入棧、出棧操作。
子程式在計算字串長度的時候,為了保護一些使用到的暫存器不被破壞,也涉及到入棧和出棧操作。
我們的主要目標就是來研究以上這2
部分操作時,棧空間裡的資料變化情況。
具體的程式碼說明如下:
執行主程式
以下演示的截圖,是通過debug.exe
這個工具來除錯的。
在除錯的過程中,主要關心的就是棧空間中的資料,以及幾個暫存器的值:
程式碼相關: cs, ip
棧相關:ss, sp
初始狀態
在執行第一條指令之前,首先看一下所有暫存器中的值:
此時,我們還沒有為資料段暫存器 ds
、棧段暫存器ss
賦值,因此裡面的值是沒有意義的。
只有 cs:ip
暫存器的值是有意義的,此時它們為 076F:0000
,指向第一條程式碼處。
再來看一下指令碼:
兩個綠框內的指令,就是用來設定資料段暫存器 ds
、棧段暫存器 ss
和 棧頂暫存器 sp
。
這部分內容在上一篇文章中都已經詳細描述過了,這裡就不重複了。
執行程式碼前 5 句
mov ax, data
mov ds, ax
mov ax, stack
mov ss, ax
mov sp, 20h
這 5
行程式碼的功能就是:設定 ds
、 ss
和 sp
。
執行完這 5
行程式碼後,暫存器中的值為:
從以上這張圖中可以看到編譯器為程式安排了下面這幾個地址:
把【資料段】安排在 076C:0000 位置;
把【棧段】 安排在 076D:0000 位置;
把【程式碼段】安排在 076F:0000 的位置;
雖然資料段值定義了 6
個位元組的資料( 5
個字元 + 1
個結束符),但是它與棧段的開始地址之間,還是預留了 16
個位元組的空間。
我們把此時記憶體空間的整體佈局畫一下:
準備呼叫子程式
我們都知道,在呼叫函式的之後,需要把呼叫指令後面的那條指令的地址,壓入到棧中。
只有這樣,被呼叫函式在執行結束之後,才能繼續返回到正確的指令處繼續執行。
CPU
在執行 call
指令的時候,會自動把 call
指令的後面一條指令的地址,壓入到棧中。
在執行 call
指令之前,我們先來看一下 2
張圖片。
1. call 的指令碼和彙編程式碼
call
的彙編程式碼是:call 0018
。
0018
指的是指令暫存器 ip
的值,加上程式碼段暫存器 cs
,就是:076F:0018
,這個位置處儲存的就是子程式的第一條指令:push bx。
注意:call
的指令碼是 E80500
,E8
是 call
指令的操作碼,0005
是指令引數(注意:低位元組是放在低地址,即:小端模式)。
之前文章說過,CPU
在執行一條指令後,會自動把指令暫存器 ip
修改為下一條指令的地址。
當 call
這條指令執行時,ip
就自動變成下一條指令的地址,再加上 call
指令中的 0005
,也就是說讓 ip
再加上這個值,就是子程式的第一條指令的地址。
這也是相對地址的概念!在以後介紹到重定位的時候,再繼續聊這個話題。
2. 棧空間的資料
此時,棧頂暫存器 sp
的值為 0020
,即:棧的最高地址的下一個位置(為什麼是這個位置?上一篇文章有說明)。
這 32
個位元組的內容是沒有任何意義的。
因為棧裡資料是否有意義,是依賴於 sp
暫存器的,可以把它理解成一個指標,有些書籍中稱呼它為:棧頂指標。
呼叫子程式
子程式的功能是計算字串的長度,那麼主程式一定要告訴子程式:字串的開始地址在哪裡。
在程式碼的開頭,我們放置了 6
個位元組的資料段空間,內容是 5
個字元,加上一個 0。
主程式把第一個字元的地址 0,通過暫存器 si
來告訴子程式:mov si, 0
。
子程式在執行時,就從 si
的值所代表的地址處,依次取出每一個字元。
現在我們開始執行 call
指令。
從上面的描述中可以知道:call
的下一條指令的地址(076F:0013
),將會被壓入到棧中。
由於這裡 call
指令是段內跳轉,不會把 cs
的值入棧,僅僅是把 ip
的值入棧。(如果是段間跳轉的話,就會把 cs:ip
都壓棧)
我們來看一下執行 call
指令之後的兩張圖:
1. 暫存器的值
從圖中看出 sp
的值變成了 001E
。還記得之前文章說的入棧操作嗎?
Step1:sp = sp -2。由於 sp 的初值是 0020,減去 2 之後就是 001E(都是十六進位制);
Step2:把要入棧的值(也就是下一條指令的地址 0013)放在 sp 指向的地址處。
從圖中還可以看到,指令暫存器 ip
的值變成了 0018
,也就是子程式的第 1
條指令(push bx
)的地址。
2. 棧空間的資料
可以看到:最後 2 個位元組是 0013
,也即是下面的這樣:
此時,指令暫存器 ip
指向了子程式的第一條指令 076F:0018 處,那就繼續執行吧!
子程式
保護使用到的暫存器
我們知道:CPU
中暫存器都是公用的。
在子程式中,為了計算字串的長度,程式碼中用到了bx
, cx
這 2 個暫存器。
但是我們不知道這 2 個暫存器是否在主程式中也被使用了。
如果我們冒然直接使用它們,改變了它們的值,那麼在子程式執行結束後,返回到主程式時,主程式如果也用了這 2 個暫存器,那就有麻煩了。
因此,在子程式的開始處,需要把 bx
, cx
放在在棧中進行暫存保護。
當子程式返回的時候,再從棧中恢復它們的值,這樣就不會對主程式構成潛在的威脅了。
1. push bx
在入棧之前,bx
的值是 0000
,我們給他入棧。
還記得上篇文章中入棧的操作嗎:
Step1: 把 sp 的值減 2;
Step2: 把要入棧的值放在 sp 地址處(2個位元組);
此時,棧頂暫存器 sp
變成 001C (001E - 2)。
ba
再來看一下棧空間的資料情況:
此刻,棧中有意義的資料就有 2
個:返回地址,bx 的值。
2. push cx
在入棧之前,cx
的值是 005C
,我們給他入棧。
執行入棧的 2
步操作之後,棧頂暫存器 sp
變成 001A (001C - 2)。
棧空間的資料情況:
3. 計算字串的長度
字串是放在資料段中的。資料段的段地址 ds
,在主程式的開頭已經設定好了。
字串的首地址,主程式在執行 call
指令之前,已經放在暫存器 si
中了。
因此,子程式只要從 si
開始位置,依次取出每一個字元,然後檢查它是否等於 0 (jcxz)。
如果不為0,就把長度值加 1 (
inc bx
),然後繼續取下一個字元(inc si
);如果為0,就停止獲取字元,因為已經遇到了字串末尾的 0。
在迴圈獲取每一個字元的時候,可以用 bx
暫存器來記錄長度,所以在子程式的開頭要讓 bx
入棧。
讀取的每個字元,放在 cx
暫存器中,所以在子程式的開頭要讓 cx
入棧。
我們來看一下檢查第一個字元 'a' 的情況:
此時:
bx
的值為 0001
,說明長度至少為 1
。
si
的值為 0001
,準備取下一個位置 ds:si
(即:076C:0001
)處的字元 ‘b’。
這個過程一直迴圈 6
次(loop s
),當 ds:si
指向 076C:0005
,也就是取出的字元為 0
時,就直接跳轉到標號為 over
(即:076F:0027
)的地址處。
此刻,暫存器 bx
中就存放著字串的長度:0005
:
4. 把字串長度告訴主程式
字串的長度計算出來了,我們要把這個值告訴主程式,一般都是通過通用暫存器 ax
來傳遞返回結果。
所以,執行指令 mov ax, bx 把 bx
的值賦值給 ax
,主程式就可以從暫存器 ax
中得到字串的長度了。
5. pop cx
子程式在返回之前,需要把棧中儲存的 bx
、cx
值恢復到暫存器中。
另外,由於棧的後進先出特性,需要把棧頂資料先彈出到 cx
暫存器中。
在執行出棧之前:
sp = 001A
cx = 0000
棧中的資料情況如下:
pop cx
指令分為 2
個動作:
Step1:把 sp 指向的地址單元的中資料( 2 個位元組),放入暫存器 cx 中,於是 cx 中的值變成了:005C;
Step2:把 sp 的值自增 2,變成 001C (001A + 2)。
此時,棧中的資料情況:
6. pop bx
執行過程是一樣的:
Step1:把 sp 指向的地址單元的中資料( 2 個位元組),放入暫存器 bx 中,於是 bx 中的值變成了:0000;
Step2:把 sp 的值自增 2,變成 001E (001C + 2)。
此時,棧中的資料情況:
7. 返回指令 ret
CPU
在執行 ret
指令時,也有 2
個動作:
Step1:把 sp 指向的地址單元的中資料( 2 個位元組),放入指令暫存器 ip 中,於是 ip 中的值變成了:0013;
Step2:把 sp 的值自增 2,變成 0020 (001E + 2)。
此時,棧中的資料情況是:
這時,棧頂暫存器 sp
已經指到了程式碼段的空間中。這是由於我們在剛開始安排的時候,沒有在棧與程式碼之間,空出來一段緩衝空間。
不管怎樣,此時:
棧空間中沒有任何有意義的資料了;
cs:ip 指向了主程式中 call 指令的下一條指令(mov ax,4c00h);
所以,當 CPU
執行下一條指令的時候,又回到了主程式中繼續執行。。。
推薦閱讀
【1】C語言指標-從底層原理到花式技巧,用圖文和程式碼幫你講解透徹
【2】一步步分析-如何用C實現物件導向程式設計
【3】原來gdb的底層除錯原理這麼簡單
【4】內聯彙編很可怕嗎?看完這篇文章,終結它!
其他系列專輯:精選文章、C語言、Linux作業系統、應用程式設計、物聯網