本文由雲+社群發表
iOS開發過程中難免會遇到卡頓等效能問題或者死鎖之類的問題,此時如果有呼叫堆疊將對解決問題很有幫助。那麼在應用中如何來實時獲取函式的呼叫堆疊呢?本文參考了網上的一些博文,講述了使用mach thread的方式來獲取呼叫棧的步驟,其中會同步講述到棧幀的基本概念,並且通過對一個demo的彙編程式碼的講解來方便理解獲取呼叫鏈的原理。
一、棧幀等幾個概念
先丟擲一個棧幀的概念,解釋下什麼是棧幀。
應用中新建立的每個執行緒都有專用的棧空間,棧可以線上程期間自由使用。而執行緒中有千千萬萬的函式呼叫,這些函式共享程式的這個棧空間,那麼問題就來了,函式執行過程中會有非常多的入棧出棧的過程,當函式返回backtrace的時候怎樣能精確定位到返回地址呢?還有子函式所儲存的一些暫存器的內容?這樣就有了棧幀的概念,即每個函式所使用的棧空間是一個棧幀,所有的棧幀就組成了這個執行緒完整的棧。
棧幀下面再丟擲幾個概念:
暫存器中的fp,sp,lr,pc。
暫存器是和CPU聯絡非常緊密的一小塊記憶體,經常用於儲存一些正在使用的資料。對於32位架構armv7指令集的ARM處理器有16個暫存器,從r0到r15,每一個都是32位位元。呼叫約定指定他們其中的一些暫存器有特殊的用途,例如:
- r0-r3:用於存放傳遞給函式的引數;
- r4-r11:用於存放函式的本地引數;
- r11:通常用作楨指標fp(frame pointer暫存器),棧幀基址暫存器,指向當前函式棧幀的棧底,它提供了一種追溯程式的方式,來反向跟蹤呼叫的函式。
- r12:是內部程式呼叫暫時暫存器。這個暫存器很特別是因為可以通過函式呼叫來改變它;
- r13:棧指標sp(stack pointer)。在電腦科學內棧是非常重要的術語。暫存器存放了一個指向棧頂的指標。看這裡瞭解更多關於棧的資訊;
- r14:是連結暫存器lr(link register)。它儲存了當目前函式返回時下一個函式的地址;
- r15:是程式計數器pc(program counter)。它存放了當前執行指令的地址。在每個指令執行完成後會自動增加;
不同指令集的暫存器數量可能會不同,pc、lr、sp、fp也可能使用其中不同的暫存器。後面我們先忽略r11等暫存器編號,直接用fp,sp,lr來講述
如下圖所示,不管是較早的幀,還是呼叫者的幀,還是當前幀,它們的結構是完全一樣的,因為每個幀都是基於一個函式,幀伴隨著函式的生命週期一起產生、發展和消亡。在這個過程中用到了上面說的暫存器,fp幀指標,它總是指向當前幀的底部;sp棧指標,它總是指向當前幀的頂部。這兩個暫存器用來定位當前幀中的所有空間。編譯器需要根據指令集的規則小心翼翼地調整這兩個暫存器的值,一旦出錯,引數傳遞、函式返回都可能出現問題。
其實這裡這幾個暫存器會滿足一定規則,比如:
- fp指向的是當面棧幀的底部,該地址存的值是呼叫當前棧幀的上一個棧幀的fp的地址。
- lr總是在上一個棧幀(也就是呼叫當前棧幀的棧幀)的頂部,而棧幀之間是連續儲存的,所以lr也就是當前棧幀底部的上一個地址,以此類推就可以推出所有函式的呼叫順序。這裡注意,棧底在高地址,棧向下增長
而由此我們可以進一步想到,通過sp和fp所指出的棧幀可以恢復出母函式的棧幀,不斷遞迴恢復便恢復除了呼叫堆疊。向下面程式碼一樣,每次遞迴pc儲存的*(fp + 1)其實就是返回的地址,它在呼叫者的函式內,利用這個地址我們可以通過符號表還原出對應的方法名稱。
while(fp) {
pc = *(fp + 1);
fp = *fp;
}
複製程式碼
二、彙編解釋下
如果你非要問為什麼會這樣,我們可以從彙編角度看下函式是怎麼呼叫的,從而更深刻理解為什麼fp總是儲存了上一個棧幀的fp的地址,而fp向前一個地址為什麼總是lr?
寫如下一個demo程式,由於我是在mac上做實驗,所以直接使用clang來編譯出可執行程式,然後再用hopper工具反彙編檢視彙編程式碼,當然也可直接使用clang的
-S
引數指定生產彙編程式碼。
demo原始碼
#import <Foundation/Foundation.h>
int func(int a);
int main (void)
{
int a = 1;
func(a);
return 0;
}
int func (int a)
{
int b = 2;
return a + b;
}
複製程式碼
組合語言
; ================ B E G I N N I N G O F P R O C E D U R E ================
; Variables:
; var_4: -4
; var_8: -8
; var_C: -12
_main:
0000000100000f70 push rbp
0000000100000f71 mov rbp, rsp
0000000100000f74 sub rsp, 0x10
0000000100000f78 mov dword [rbp+var_4], 0x0
0000000100000f7f mov dword [rbp+var_8], 0x1
0000000100000f86 mov edi, dword [rbp+var_8] ; argument #1 for method _func
0000000100000f89 call _func
0000000100000f8e xor edi, edi
0000000100000f90 mov dword [rbp+var_C], eax
0000000100000f93 mov eax, edi
0000000100000f95 add rsp, 0x10
0000000100000f99 pop rbp
0000000100000f9a ret
; endp
0000000100000f9b nop dword [rax+rax]
; ================ B E G I N N I N G O F P R O C E D U R E ================
; Variables:
; var_4: -4
; var_8: -8
_func:
0000000100000fa0 push rbp ; CODE XREF=_main+25
0000000100000fa1 mov rbp, rsp
0000000100000fa4 mov dword [rbp+var_4], edi
0000000100000fa7 mov dword [rbp+var_8], 0x2
0000000100000fae mov edi, dword [rbp+var_4]
0000000100000fb1 add edi, dword [rbp+var_8]
0000000100000fb4 mov eax, edi
0000000100000fb6 pop rbp
0000000100000fb7 ret
複製程式碼
需要注意,由於是在mac上編譯出可執行程式,指令集已經是x86-64,所以上文的fp、sp、lr、pc名稱和使用的暫存器發生了變化,但含義基本一致,對應關係如下:
- fp----rbp
- sp----rsp
- pc----rip
接下來我們看下具體的彙編程式碼,可以看到在main函式中在經過預處理和引數初始化後,通過call _func
來呼叫了func函式,這裡call _func
其實等價於兩個彙編命令:
Pushl %rip //儲存下一條指令(第41行的程式碼地址)的地址,用於函式返回繼續執行
Jmp _func //跳轉到函式foo
複製程式碼
於是,當main函式呼叫了func函式後,會將下一行地址push進棧,至此,main函式的棧幀已經結束,然後跳轉到func的程式碼處開始繼續執行。可以看出,rip指向的函式下一條地址,即上文中所說的lr已經入棧,在棧幀的頂部。
而從func的程式碼可以看到,首先使用push rbp
將幀指標儲存起來,而由於剛跳轉到func函式,此時rbp其實是上一個棧幀的幀指標,即它的值其實還是上一個棧幀的底部地址,所以此步驟其實是將上一個幀底部地址儲存了下來。
下一句彙編語句mov rbp, rsp
將棧頂部地址rsp更新給了rbp,於是此時rbp的值就成了棧的頂部地址,也是當前棧幀的開始,即fp。而棧頂部又正好是剛剛push進去的儲存上一個幀指標地址的地址,所以rbp指向的時當前棧幀的底部,但其中儲存的值是上一個棧幀底部的地址。
至此,也就解釋了為什麼fp指向的地址儲存的內容是上一個棧幀的fp的地址,也解釋了為什麼fp向前一個地址就正好是lr。
另外一個比較重要的東西就是出入棧的順序,在ARM指令系統中是地址遞減棧,入棧操作的引數入棧順序是從右到左依次入棧,而引數的出棧順序則是從左到右的你操作。包括push/pop和LDMFD/STMFD等。
三、獲取呼叫棧步驟
其實上面的幾個fp、lr、sp在mach核心提供的api中都有定義,我們可以使用對應的api拿到對應的值。如下便是64位和32位的定義
_STRUCT_ARM_THREAD_STATE64
{
__uint64_t __x[29]; /* General purpose registers x0-x28 */
__uint64_t __fp; /* Frame pointer x29 */
__uint64_t __lr; /* Link register x30 */
__uint64_t __sp; /* Stack pointer x31 */
__uint64_t __pc; /* Program counter */
__uint32_t __cpsr; /* Current program status register */
__uint32_t __pad; /* Same size for 32-bit or 64-bit clients */
};
_STRUCT_ARM_THREAD_STATE
{
__uint32_t r[13]; /* General purpose register r0-r12 */
__uint32_t sp; /* Stack pointer r13 */
__uint32_t lr; /* Link register r14 */
__uint32_t pc; /* Program counter r15 */
__uint32_t cpsr; /* Current program status register */
};
複製程式碼
於是,我們只要拿到對應的fp和lr,然後遞迴去查詢母函式的地址,最後將其符號化,即可還原出呼叫棧。
總結歸納了下,獲取呼叫棧需要下面幾步:
1、掛起執行緒
thread_suspend(main_thread);
複製程式碼
2、獲取當前執行緒狀態上下文thread_get_state
_STRUCT_MCONTEXT ctx;
#if defined(__x86_64__)
mach_msg_type_number_t count = x86_THREAD_STATE64_COUNT;
thread_get_state(thread, x86_THREAD_STATE64, (thread_state_t)&ctx.__ss, &count);
#elif defined(__arm64__)
_STRUCT_MCONTEXT ctx;
mach_msg_type_number_t count = ARM_THREAD_STATE64_COUNT;
thread_get_state(thread, ARM_THREAD_STATE64, (thread_state_t)&ctx.__ss, &count);
#endif
複製程式碼
3、獲取當前幀的幀指標fp
#if defined(__x86_64__)
uint64_t pc = ctx.__ss.__rip;
uint64_t sp = ctx.__ss.__rsp;
uint64_t fp = ctx.__ss.__rbp;
#elif defined(__arm64__)
uint64_t pc = ctx.__ss.__pc;
uint64_t sp = ctx.__ss.__sp;
uint64_t fp = ctx.__ss.__fp;
#endif
複製程式碼
4、遞迴遍歷fp和lr,依次記錄lr的地址
while(fp) {
pc = *(fp + 1);
fp = *fp;
}
複製程式碼
這一步我們其實就是使用上面的方法來依次迭代出呼叫鏈上的函式地址,程式碼如下
void* t_fp[2];
vm_size_t len = sizeof(record);
vm_read_overwrite(mach_task_self(), (vm_address_t)(fp),len, (vm_address_t)t_fp, &len);
do {
pc = (long)t_fp[1] // lr總是在fp的上一個地址
// 依次記錄pc的值,這裡先只是列印出來
printf(pc)
vm_read_overwrite(mach_task_self(),(vm_address_t)m_cursor.fp[0], len, (vm_address_t)m_cursor.fp,&len);
} while (fp);
複製程式碼
上面程式碼便會從下到上依次列印出呼叫棧函式中的地址,這個地址總是在函式呼叫地方的下一個地址,我們就需要拿這個地址還原出對應的符號名稱。
5、恢復執行緒thread_resume
thread_resume(main_thread);
複製程式碼
6、還原符號表
這一步主要是將已經獲得的呼叫鏈上的地址分別解析出對應的符號。主要是參考了執行時獲取函式呼叫棧 的方法,其中用到的dyld連結mach-o檔案的基礎知識,後續會專門針對這裡總結一篇文章。
enumerateSegment(header, [&](struct load_command *command) {
if (command->cmd == LC_SYMTAB) {
struct symtab_command *symCmd = (struct symtab_command *)command;
uint64_t baseaddr = 0;
enumerateSegment(header, [&](struct load_command *command) {
if (command->cmd == LC_SEGMENT_64) {
struct segment_command_64 *segCmd = (struct segment_command_64 *)command;
if (strcmp(segCmd->segname, SEG_LINKEDIT) == 0) {
baseaddr = segCmd->vmaddr - segCmd->fileoff;
return true;
}
}
return false;
});
if (baseaddr == 0) return false;
nlist_64 *nlist = (nlist_64 *)(baseaddr + slide + symCmd->symoff);
uint64_t strTable = baseaddr + slide + symCmd->stroff;
uint64_t offset = UINT64_MAX;
int best = -1;
for (int k = 0; k < symCmd->nsyms; k++) {
nlist_64 &sym = nlist[k];
uint64_t d = pcSlide - sym.n_value;
if (offset >= d) {
offset = d;
best = k;
}
}
if (best >= 0) {
nlist_64 &sym = nlist[best];
std::cout << "SYMBOL: " << (char *)(strTable + sym.n_un.n_strx) << std::endl;
}
return true;
}
return false;
});
複製程式碼
參考
此文已由作者授權騰訊雲+社群在各渠道釋出
獲取更多新鮮技術乾貨,可以關注我們騰訊雲技術社群-雲加社群官方號及知乎機構號