[轉載]論函式呼叫約定

zhoujianhei發表於2008-03-12
在C語言中,假設我們有這樣的一個函式:
  
  int function(int a,int b)
  
  呼叫時只要用result = function(1,2)這樣的方式就可以使用這個函式。但是,當高階語言被編譯成計算機可以識別的機器碼時,有一個問題就凸現出來:在CPU中,計算機沒有辦法知道一個函式呼叫需要多少個、什麼樣的引數,也沒有硬體可以儲存這些引數。也就是說,計算機不知道怎麼給這個函式傳遞引數,傳遞引數的工作必須由函式呼叫者和函式本身來協調。為此,計算機提供了一種被稱為棧的資料結構來支援引數傳遞。
  棧是一種先進後出的資料結構,棧有一個儲存區、一個棧頂指標。棧頂指標指向堆疊中第一個可用的資料項(被稱為棧頂)。使用者可以在棧頂上方向棧中加入資料,這個操作被稱為壓棧(Push),壓棧以後,棧頂自動變成新加入資料項的位置,棧頂指標也隨之修改。使用者也可以從堆疊中取走棧頂,稱為彈出棧(pop),彈出棧後,棧頂下的一個元素變成棧頂,棧頂指標隨之修改。
  函式呼叫時,呼叫者依次把引數壓棧,然後呼叫函式,函式被呼叫以後,在堆疊中取得資料,並進行計算。函式計算結束以後,或者呼叫者、或者函式本身修改堆疊,使堆疊恢復原裝。
  在引數傳遞中,有兩個很重要的問題必須得到明確說明:
  
  當引數個數多於一個時,按照什麼順序把引數壓入堆疊
  函式呼叫後,由誰來把堆疊恢復原裝
  在高階語言中,通過函式呼叫約定來說明這兩個問題。常見的呼叫約定有:
  stdcall
  cdecl
  fastcall
  thiscall
  naked call

  stdcall呼叫約定
  stdcall很多時候被稱為pascal呼叫約定,因為pascal是早期很常見的一種教學用計算機程式設計語言,其語法嚴謹,使用的函式呼叫約定就是stdcall。在Microsoft C++系列的C/C++編譯器中,常常用PASCAL巨集來宣告這個呼叫約定,類似的巨集還有WINAPI和CALLBACK。
  stdcall呼叫約定宣告的語法為(以前文的那個函式為例):
  
  int __stdcall function(int a,int b)
  
  stdcall的呼叫約定意味著:1)引數從右向左壓入堆疊,2)函式自身修改堆疊 3)函式名自動加前導的下劃線,後面緊跟一個@符號,其後緊跟著引數的尺寸
  以上述這個函式為例,引數b首先被壓棧,然後是引數a,函式呼叫function(1,2)呼叫處翻譯成組合語言將變成:
  push 2        第二個引數入棧
  push 1        第一個引數入棧
  call function    呼叫引數,注意此時自動把cs:eip入棧
  而對於函式自身,則可以翻譯為:
  push ebp       儲存ebp暫存器,該暫存器將用來儲存堆疊的棧頂指標,可以在函式退出時恢復
  mov ebp, esp    儲存堆疊指標
  mov eax,[ebp + 8H] 堆疊中ebp指向位置之前依次儲存有ebp, cs:eip, a, b, ebp +8指向a
  add eax,[ebp + 0CH] 堆疊中ebp + 12處儲存了b
  mov esp, ebp    恢復esp
  pop ebp
  ret 8
  而在編譯時,這個函式的名字被翻譯成_function@8
  注意不同編譯器會插入自己的彙編程式碼以提供編譯的通用性,但是大體程式碼如此。其中在函式開始處保留esp到ebp中,在函式結束恢復是編譯器常用的方法。
  從函式呼叫看,2和1依次被push進堆疊,而在函式中又通過相對於ebp(即剛進函式時的堆疊指標)的偏移量存取引數。函式結束後,ret 8表示清理8個位元組的堆疊,函式自己恢復了堆疊。
  
  cdecl呼叫約定
  cdecl呼叫約定又稱為C呼叫約定,是C語言預設的呼叫約定,它的定義語法是:
  int function (int a ,int b) //不加修飾就是C呼叫約定
  int __cdecl function(int a,int b)//明確指出C呼叫約定
  在寫本文時,出乎我的意料,發現cdecl呼叫約定的引數壓棧順序是和stdcall是一樣的,引數首先由右向左壓入堆疊。所不同的是,函式本身不清理堆疊,呼叫者負責清理堆疊。由於這種變化,C呼叫約定允許函式的引數的個數是不固定的,這也是C語言的一大特色。對於前面的function函式,使用cdecl後的彙編碼變成:
  呼叫處
  push 1
  push 2
  call function
  add esp, 8     注意:這裡呼叫者在恢復堆疊
  被呼叫函式_function處
  push ebp       儲存ebp暫存器,該暫存器將用來儲存堆疊的棧頂指標,可以在函式退出時恢復
  mov ebp,esp     儲存堆疊指標
  mov eax,[ebp + 8H] 堆疊中ebp指向位置之前依次儲存有ebp,cs:eip,a,b,ebp +8指向a
  add eax,[ebp + 0CH] 堆疊中ebp + 12處儲存了b
  mov esp,ebp     恢復esp
  pop ebp
  ret         注意,這裡沒有修改堆疊
  MSDN中說,該修飾自動在函式名前加前導的下劃線,因此函式名在符號表中被記錄為_function,但是我在編譯時似乎沒有看到這種變化。
  由於引數按照從右向左順序壓棧,因此最開始的引數在最接近棧頂的位置,因此當採用不定個數引數時,第一個引數在棧中的位置肯定能知道,只要不定的引數個數能夠根據第一個後者後續的明確的引數確定下來,就可以使用不定引數,例如對於CRT中的sprintf函式,定義為:
  int sprintf(char* buffer,const char* format,...)
  由於所有的不定引數都可以通過format確定,因此使用不定個數的引數是沒有問題的。
  fastcall
  fastcall呼叫約定和stdcall類似,它意味著:
  
  函式的第一個和第二個DWORD引數(或者尺寸更小的)通過ecx和edx傳遞,其他引數通過從右向左的順序壓棧
  被呼叫函式清理堆疊
  函式名修改規則同stdcall
  其宣告語法為:int fastcall function(int a, int b)
  thiscall
  thiscall是唯一一個不能明確指明的函式修飾,因為thiscall不是關鍵字。它是C++類成員函式預設的呼叫約定。由於成員函式呼叫還有一個this指標,因此必須特殊處理,thiscall意味著:
  引數從右向左入棧
  如果引數個數確定,this指標通過ecx傳遞給被呼叫者;如果引數個數不確定,this指標在所有引數壓棧後被壓入堆疊。對引數個數不定的,呼叫者清理堆疊,否則函式自己清理堆疊為了說明這個呼叫約定,定義如下類和使用程式碼:
  class A
  {
  public:
    int function1(int a,int b);
    int function2(int a,...);
  };
  int A::function1 (int a,int b)
  {
    return a+b;
  }
  #include <stdarg.h>
  int A::function2(int a,...)
  {
    va_list ap;
    va_start(ap,a);
    int i;
    int result = 0;
    for(i = 0 ; i < a ; i ++)
    {
     result += va_arg(ap,int);
    }
    return result;
  }
  void callee()
  {
    A a;
    a.function1(1, 2);
    a.function2(3, 1, 2, 3);
  }
callee函式被翻譯成彙編後就變成:
  //函式function1呼叫
  00401C1D  push    2
  00401C1F  push    1
  00401C21  lea     ecx,[ebp-8]
  00401C24  call    function1     注意,這裡this沒有被入棧
  //函式function2呼叫
  00401C29  push    3
  00401C2B  push    2
  00401C2D  push    1
  00401C2F  push    3
  00401C31  lea     eax, [ebp-8]    這裡引入this指標
  00401C34  push    eax
  00401C35  call    function2
  00401C3A  add     esp, 14h
  
  可見,對於引數個數固定情況下,它類似於stdcall,不定時則類似cdecl
  naked call
  這是一個很少見的呼叫約定,一般程式設計者建議不要使用。編譯器不會給這種函式增加初始化和清理程式碼,更特殊的是,你不能用return返回返回值,只能用插入彙編返回結果。這一般用於真實模式驅動程式設計,假設定義一個求和的加法程式,可以定義為:
  __declspec(naked) int add(int a,int b)
  {
    __asm mov eax,a
    __asm add eax,b
    __asm ret
  }
  注意,這個函式沒有顯式的return返回值,返回通過修改eax暫存器實現,而且連退出函式的ret指令都必須顯式插入。上面程式碼被翻譯成彙編以後變成:
  mov eax,[ebp+8]
  add eax,[ebp+12]
  ret 8
  注意這個修飾是和__stdcall及cdecl結合使用的,前面是它和cdecl結合使用的程式碼,對於和stdcall結合的程式碼,則變成:
  __declspec(naked) int __stdcall function(int a,int b)
  {
    __asm mov eax,a
    __asm add eax,b
    __asm ret 8    //注意後面的8
  }
  至於這種函式被呼叫,則和普通的cdecl及stdcall呼叫函式一致。
  函式呼叫約定導致的常見問題
  如果定義的約定和使用的約定不一致,則將導致堆疊被破壞,導致嚴重問題,下面是兩種常見的問題:
  函式原型宣告和函式體定義不一致
  DLL匯入函式時宣告瞭不同的函式約定
  以後者為例,假設我們在dll種宣告瞭一種函式為:
  __declspec(dllexport) int func(int a,int b);//注意,這裡沒有stdcall,使用的是cdecl
  使用時程式碼為:
  typedef int (*WINAPI DLLFUNC)func(int a,int b);
  hLib = LoadLibrary(...);
  DLLFUNC func = (DLLFUNC)GetProcAddress(...)//這裡修改了呼叫約定
  result = func(1,2);//導致錯誤
  由於呼叫者沒有理解WINAPI的含義錯誤的增加了這個修飾,上述程式碼必然導致堆疊被破壞,MFC在編譯時插入的checkesp函式將告訴你,堆疊被破壞
 

相關文章