fishhook原始碼學習

不會騎名字發表於2018-10-24

原文網址 : https://juejin.im/post/5bc5a5cd6fb9a05ce02aa5c4

距離上個文章已經有段時間了,雖然沒多少人閱讀但是好在自娛自樂,前段時間出去受虐一波,所以又開始發憤圖強,開始向以前比較常用的一些厲害的開源庫學習學習.閒話不多說,fishhook是facebook出的一款可以修改外鏈的C方法(非自己所寫的方法,一般存在於app啟動時使用dyld載入的動態庫中)的一個庫,整個檔案只有200多行程式碼.

用法

假如你在使用一個三方的framework的時候它裡面無時無刻的列印著一些無用的資訊而且市面上沒有很好的去替代它的產品,這時候就可以把fishhook請出來將對應的列印函式給hook掉,比如

static void (*orig_printf)(char *format, ...);
int main(int argc, const char * argv[]) {
	printf("abcd");
	return 0;
}
static void	 my_printf(const char * s, ...){
//這裡可以寫你想替換的程式碼
//比如  orig_printf("dcba");
}
__attribute((constructor)) void injected_function(){
	rebind_symbols((struct rebinding[1]){{"printf", my_printf, (void *)&orig_printf}},1);
}
複製程式碼

這樣就成功的在main函式呼叫之前就將printf函式給替換了,可以遠離煩人的列印.
int rebind_symbols(struct rebinding rebindings[], size_t rebindings_nel)的第一個引數是個結構體陣列

struct rebinding {
  const char *name; 
  void *replacement;
  void **replaced;
};
複製程式碼

name是想要hook的的函式名稱,replacement是替換後的函式指標,replaced是傳入一個指向函式指標的指標(如果將函式成功的替換後,會將原函式的值給放入其中)

當然在很多情況中我們會在逆向中用到fishhook,並且fishhook只能去替換連結外部動態庫中的程式碼,自己寫的C函式不能去替換

Mach-O

在去閱讀fishhook的時候我個人認為是必須對Mach-O有一些瞭解。Mach-O是iOS/MacOS下面的可執行檔案,在iOS工程下使用command+b編譯後會在Products目錄下生成一個.app檔案,..app中一個同名檔案就是我們的Mach-O檔案了,它裡面包含了我們app的類,方法,以及編譯期間就確定常量等內容。

這是Mach-O的大致佈局

Header:儲存了一些Mach-O的基本資訊,比如是32位/64位,LoadCommand的個數等
LoadCommand: 這一段跟著Header排布,載入Mach-O時會從這裡面獲取到對應的資料來確定記憶體分佈
Data: 這裡面儲存了具體的資料,裡面細分為多個segment,segment在分為多個section,這裡麵包含了具體的程式碼與資料等資訊
我們實際用工具去看下Mach-O,新建一個iOS工程,什麼程式碼都不加,直接編譯一下,然後使用MachOView檢視
因為本文關注的是fishhook,我們主要關注__Data段中的__la_symbol_ptr這個section(這個section表示的是懶載入的符號表,如果我們自己寫的函式會在編譯時確定地址寫入macho,而系統的例如printf這些編譯期間是不確認地址的),然後與之相關的還需要關注Symbol Table、Dynamic Symbol Table與__LINKEDIT段

因為MachO裡面的東西太多就不過多的去描述,大概有些瞭解知道它是什麼東西就可以閱讀fishhook原始碼,如果想要深入的瞭解MachO可以看這篇部落格

閱讀原始碼

下面就開始進入正題了,開始去閱讀fishhook的原始碼。我們直接從我們的呼叫函式看int rebind_symbols(struct rebinding rebindings[], size_t rebindings_nel)

int rebind_symbols(struct rebinding rebindings[], size_t rebindings_nel) {
  int retval = prepend_rebindings(&_rebindings_head, rebindings, rebindings_nel);
  if (retval < 0) {
    return retval;
  }
  // If this was the first call, register callback for image additions (which is also invoked for
  // existing images, otherwise, just run on existing images
  if (!_rebindings_head->next) {
    _dyld_register_func_for_add_image(_rebind_symbols_for_image);
  } else {
    uint32_t c = _dyld_image_count();
    for (uint32_t i = 0; i < c; i++) {
      _rebind_symbols_for_image(_dyld_get_image_header(i), _dyld_get_image_vmaddr_slide(i));
    }
  }
  return retval;
}
複製程式碼

首先呼叫了prepend_rebindings函式,傳入了三個引數,第一個引數是指向私有結構體static struct rebindings_entry *_rebindings_head的指標,第二個引數struct rebinding結構體陣列,第三個值是結構體陣列的長度

static int prepend_rebindings(struct rebindings_entry **rebindings_head,
                              struct rebinding rebindings[],
                              size_t nel) {
  struct rebindings_entry *new_entry = malloc(sizeof(struct rebindings_entry));
  if (!new_entry) {
    return -1;
  }
  new_entry->rebindings = malloc(sizeof(struct rebinding) * nel);
  if (!new_entry->rebindings) {
    free(new_entry);
    return -1;
  }
  memcpy(new_entry->rebindings, rebindings, sizeof(struct rebinding) * nel);
  new_entry->rebindings_nel = nel;
  new_entry->next = *rebindings_head;
  *rebindings_head = new_entry;
  return 0;
}
複製程式碼

這裡面的程式碼比較簡單

初始化一個struct rebindings_entry結構體
在將結構體中陣列初始化
將我們傳入的結構體陣列的值copy到剛初始化的陣列中
在將新初始化的結構體放在這個連結串列的最前面在往下走看到以連結串列的next指標判斷該方法是否第一次呼叫,如果第一次呼叫則呼叫_dyld_register_func_for_add_image方法,並傳入_rebind_symbols_for_image函式指標

_dyld_register_func_for_add_image 註冊自定義的回撥函式，同時也會為所有已經載入的動態庫或可執行檔案執行回撥

每個動態庫都會回撥_rebind_symbols_for_image這個方法,然後這個方法只是對rebind_symbols_for_image的一個封裝,rebind_symbols_for_image實現程式碼比較長我們可以分成兩個部分去看

static void rebind_symbols_for_image(struct rebindings_entry *rebindings,
                                     const struct mach_header *header,
                                     intptr_t slide) {
  Dl_info info;
  if (dladdr(header, &info) == 0) {
    return;
  }

  segment_command_t *cur_seg_cmd;
  segment_command_t *linkedit_segment = NULL;
  struct symtab_command* symtab_cmd = NULL;
  struct dysymtab_command* dysymtab_cmd = NULL;

  uintptr_t cur = (uintptr_t)header + sizeof(mach_header_t);
  for (uint i = 0; i < header->ncmds; i++, cur += cur_seg_cmd->cmdsize) {
    cur_seg_cmd = (segment_command_t *)cur;
    if (cur_seg_cmd->cmd == LC_SEGMENT_ARCH_DEPENDENT) {
      if (strcmp(cur_seg_cmd->segname, SEG_LINKEDIT) == 0) {
        linkedit_segment = cur_seg_cmd;
      }
    } else if (cur_seg_cmd->cmd == LC_SYMTAB) {
      symtab_cmd = (struct symtab_command*)cur_seg_cmd;
    } else if (cur_seg_cmd->cmd == LC_DYSYMTAB) {
      dysymtab_cmd = (struct dysymtab_command*)cur_seg_cmd;
    }
  }
  ...
}
複製程式碼

這段程式碼主要是為了獲取對應的Symbol Table、Dynamic Symbol Table與__LINKEDIT段對應的結構體

因為LoadCommand是緊跟著mac_header的所以uintptr_t cur = (uintptr_t)header + sizeof(mach_header_t);獲取到第一個LoadCommand的位置
之後遍歷根據cmd的值去取得對應的結構體

在往下看

static void rebind_symbols_for_image(struct rebindings_entry *rebindings,
                                     const struct mach_header *header,
                                     intptr_t slide) {
    ...
  // Find base symbol/string table addresses
  uintptr_t linkedit_base = (uintptr_t)slide + linkedit_segment->vmaddr - linkedit_segment->fileoff;
  nlist_t *symtab = (nlist_t *)(linkedit_base + symtab_cmd->symoff);
  char *strtab = (char *)(linkedit_base + symtab_cmd->stroff);

  // Get indirect symbol table (array of uint32_t indices into symbol table)
  uint32_t *indirect_symtab = (uint32_t *)(linkedit_base + dysymtab_cmd->indirectsymoff);

  cur = (uintptr_t)header + sizeof(mach_header_t);
  for (uint i = 0; i < header->ncmds; i++, cur += cur_seg_cmd->cmdsize) {
    cur_seg_cmd = (segment_command_t *)cur;
    if (cur_seg_cmd->cmd == LC_SEGMENT_ARCH_DEPENDENT) {
      if (strcmp(cur_seg_cmd->segname, SEG_DATA) != 0 &&
          strcmp(cur_seg_cmd->segname, SEG_DATA_CONST) != 0) {
        continue;
      }
      for (uint j = 0; j < cur_seg_cmd->nsects; j++) {
        section_t *sect =
          (section_t *)(cur + sizeof(segment_command_t)) + j;
        if ((sect->flags & SECTION_TYPE) == S_LAZY_SYMBOL_POINTERS) {
          perform_rebinding_with_section(rebindings, sect, slide, symtab, strtab, indirect_symtab);
        }
        if ((sect->flags & SECTION_TYPE) == S_NON_LAZY_SYMBOL_POINTERS) {
          perform_rebinding_with_section(rebindings, sect, slide, symtab, strtab, indirect_symtab);
        }
      }
    }
  }
}
複製程式碼

首先是可以根據上面程式碼得到個結論,程式的基地址 = sild + __LINKEDIT->vmaddr - __LINKEDIT->fileoff,這裡面的__LINKEDIT->vmaddr是__LINKEDIT在記憶體中的地址,fileoff是__LINKEDIT在mach-o檔案中的偏移量,那麼silde是什麼?其實silde就是ASLR,那ASLR又是什麼?ASLR：Address space layout randomization,通俗的說就是在app每次啟動的時候會隨機給一個地址偏移量,然後我們真正的記憶體地址就是Mach-O中的地址加上這個偏移量。得到程式的基地址後在根據符號表中的偏移值得到符號表中的資料,之後在遍歷一遍LoadCommand,尋找__DATA和__DATA_CONST的section，並對對__nl_symbol_ptr以及__la_symbol_ptr進行重新繫結。
接下來呼叫了perform_rebinding_with_section函式

static void perform_rebinding_with_section(struct rebindings_entry *rebindings,
                                           section_t *section,
                                           intptr_t slide,
                                           nlist_t *symtab,
                                           char *strtab,
                                           uint32_t *indirect_symtab) {
  uint32_t *indirect_symbol_indices = indirect_symtab + section->reserved1;
  void **indirect_symbol_bindings = (void **)((uintptr_t)slide + section->addr);
  for (uint i = 0; i < section->size / sizeof(void *); i++) {
    uint32_t symtab_index = indirect_symbol_indices[i];
    if (symtab_index == INDIRECT_SYMBOL_ABS || symtab_index == INDIRECT_SYMBOL_LOCAL ||
        symtab_index == (INDIRECT_SYMBOL_LOCAL   | INDIRECT_SYMBOL_ABS)) {
      continue;
    }
    uint32_t strtab_offset = symtab[symtab_index].n_un.n_strx;
    char *symbol_name = strtab + strtab_offset;
    bool symbol_name_longer_than_1 = symbol_name[0] && symbol_name[1];
    struct rebindings_entry *cur = rebindings;
    while (cur) {
      for (uint j = 0; j < cur->rebindings_nel; j++) {
        if (symbol_name_longer_than_1 &&
            strcmp(&symbol_name[1], cur->rebindings[j].name) == 0) {
          if (cur->rebindings[j].replaced != NULL &&
              indirect_symbol_bindings[i] != cur->rebindings[j].replacement) {
            *(cur->rebindings[j].replaced) = indirect_symbol_bindings[i];
          }
          indirect_symbol_bindings[i] = cur->rebindings[j].replacement;
          goto symbol_loop;
        }
      }
      cur = cur->next;
    }
  symbol_loop:;
  }
}
複製程式碼

這段函式看起來稍微有點長,但是邏輯是很好去理解的,首先先根據動態符號表中地址 + 在符號表中的index 獲得在該段在動態符號表中的位置(reserved1的值表示偏移量),進行一個for迴圈在每次迴圈中獲取到對應方法的方法名,然後在遍歷私有結構體連結串列struct rebindings_entry *,把連結串列中的每個結構體中的陣列中的方法名與當前的表中的方法名比較,如果相同就將符號表中的指標資訊儲存給外面呼叫時傳入的指向函式指標的指標中,在表中的指標替換成我們傳入的函式指標,就這樣就完成了一次偷天換日的過程。最後借官方的圖

fishhook使用場景&原始碼分析
2019-03-08
Hook原始碼
原始碼學習
2024-11-24
原始碼
MMKV原始碼學習
2019-03-16
原始碼
vue原始碼學習
2019-02-27
Vue原始碼
【原始碼學習】ThreadLocal
2020-10-12
原始碼thread
EventBus原始碼學習
2019-04-24
原始碼
ObjectMapper原始碼學習
2018-03-21
ObjectAPP原始碼
express原始碼學習
2018-03-18
Express原始碼
go原始碼學習
2024-06-07
Go原始碼
學習HashMap原始碼
2022-03-20
HashMap原始碼
Java容器原始碼學習--ArrayList原始碼分析
2021-12-26
Java原始碼
Vue 原始碼學習（一)
2019-03-03
Vue原始碼
Okio 框架原始碼學習
2019-02-26
框架原始碼
java原始碼學習-Spliterator
2018-10-04
Java原始碼
jQuery原始碼學習之$()
2018-07-21
jQuery原始碼
vue observer 原始碼學習
2018-06-28
VueServer原始碼
來聊聊原始碼學習
2018-06-07
原始碼
原始碼學習之EllipsizingTextView
2018-08-02
原始碼TextView
EOS原始碼學習系列
2018-03-11
原始碼
精讀《原始碼學習》
2019-07-22
原始碼
PHP 原始碼加密學習
2020-02-20
PHP原始碼加密
Mybatis 原始碼學習（二）
2020-11-10
MyBatis原始碼
學習RadonDB原始碼（二）
2019-05-20
原始碼
學習RadonDB原始碼（一）
2019-05-15
原始碼
Masonry 原始碼學習整理
2019-03-04
原始碼
VeraCrypt原始碼學習-序
2024-06-02
原始碼
java原始碼學習-AbstractSequentialList
2020-11-29
Java原始碼
fishhook原理
2018-05-14
Hook
【菜鳥讀原始碼】halo✍原始碼學習 (一)
2019-09-05
原始碼
深度學習03-sklearn.LinearRegression 原始碼學習
2021-04-28
深度學習原始碼
Android原始碼學習之handler
2019-01-12
Android原始碼
Hadoop學習——Client原始碼分析
2019-04-06
Hadoopclient原始碼
jQuery原始碼學習之event
2018-08-14
jQuery原始碼
Retrofit 原始碼學習與使用
2018-06-25
原始碼
原始碼學習VUE之Observe
2018-09-12
原始碼Vue
jQuery原始碼學習之extend
2018-07-28
jQuery原始碼
YYImage原始碼剖析與學習
2018-09-25
原始碼
redis原始碼學習之slowlog
2020-11-22
Redis原始碼

fishhook原始碼學習

用法

Mach-O

閱讀原始碼

相關文章