本文將提供一種靜態分析的方式,用於查詢可執行檔案Mach-o中未使用的類,原始碼連結:xuezhulian/classunref。
Mach-o
檔案中__DATA __objc_classrefs
段記錄了引用類的地址,__DATA __objc_classlist
段記錄了所有類的地址,取差集可以得到未使用的類的地址,然後進行符號化,就可以得到未被引用的類資訊。
引用類地址
可以通過Mac自帶的工具otool
列印Mach-o
中的段資訊,需要注意的是模擬器和真機對應的可執行檔案,資料的儲存方式不同需要加以區分。
可以通過file
命令獲取到arch
。
#binary_file_arch: distinguish Big-Endian and Little-Endian
#file -b output example: Mach-O 64-bit executable arm64
binary_file_arch = os.popen('file -b ' + path).read().split(' ')[-1].strip()
複製程式碼
在取類地址的時候區分x86_64
和arm
。
def pointers_from_binary(line, binary_file_arch):
line = line[16:].strip().split(' ')
pointers = set()
if binary_file_arch == 'x86_64':
#untreated line example:00000001030cec80 d8 75 15 03 01 00 00 00 68 77 15 03 01 00 00 00
pointers.add(''.join(line[4:8][::-1] + line[0:4][::-1]))
pointers.add(''.join(line[12:16][::-1] + line[8:12][::-1]))
return pointers
#arm64 confirmed,armv7 arm7s unconfirmed
if binary_file_arch.startswith('arm'):
#untreated line example:00000001030bcd20 03138580 00000001 03138878 00000001
pointers.add(line[1] + line[0])
pointers.add(line[3] + line[2])
return pointers
return None
複製程式碼
通過otool -v -s __DATA __objc_classrefs
獲取到引用類的地址。
def class_ref_pointers(path, binary_file_arch):
ref_pointers = set()
lines = os.popen('/usr/bin/otool -v -s __DATA __objc_classrefs %s' % path).readlines()
for line in lines:
pointers = pointers_from_binary(line, binary_file_arch)
ref_pointers = ref_pointers.union(pointers)
return ref_pointers
複製程式碼
所有類地址
通過otool -v -s __DATA __objc_classlist
獲取所有類的地址。
def class_list_pointers(path, binary_file_arch):
list_pointers = set()
lines = os.popen('/usr/bin/otool -v -s __DATA __objc_classlist %s' % path).readlines()
for line in lines:
pointers = pointers_from_binary(line, binary_file_arch)
list_pointers = list_pointers.union(pointers)
return list_pointers
複製程式碼
取差集
用所有類資訊減去引用類的資訊,此時我們可以拿到未使用類的地址資訊。
unref_pointers = class_list_pointers(path, binary_file_arch) - class_ref_pointers(path, binary_file_arch)
複製程式碼
符號化
通過nm -nm
命令可以得到地址和對應的類名字。
def class_symbols(path):
symbols = {}
#class symbol format from nm: 0000000103113f68 (__DATA,__objc_data) external _OBJC_CLASS_$_EpisodeStatusDetailItemView
re_class_name = re.compile('(\w{16}) .* _OBJC_CLASS_\$_(.+)')
lines = os.popen('nm -nm %s' % path).readlines()
for line in lines:
result = re_class_name.findall(line)
if result:
(address, symbol) = result[0]
symbols[address] = symbol
return symbols
複製程式碼
過濾
在實際分析的過程中發現,如果一個類的子類被例項化,父類未被例項化,此時父類不會出現在__objc_classrefs
這個段裡,在未使用的類中需要將這一部分父類過濾出去。使用otool -oV
可以獲取到類的繼承關係。
def filter_super_class(unref_symbols):
re_subclass_name = re.compile("\w{16} 0x\w{9} _OBJC_CLASS_\$_(.+)")
re_superclass_name = re.compile("\s*superclass 0x\w{9} _OBJC_CLASS_\$_(.+)")
#subclass example: 0000000102bd8070 0x103113f68 _OBJC_CLASS_$_TTEpisodeStatusDetailItemView
#superclass example: superclass 0x10313bb80 _OBJC_CLASS_$_TTBaseControl
lines = os.popen("/usr/bin/otool -oV %s" % path).readlines()
subclass_name = ""
superclass_name = ""
for line in lines:
subclass_match_result = re_subclass_name.findall(line)
if subclass_match_result:
subclass_name = subclass_match_result[0]
superclass_match_result = re_superclass_name.findall(line)
if superclass_match_result:
superclass_name = superclass_match_result[0]
if len(subclass_name) > 0 and len(superclass_name) > 0:
if superclass_name in unref_symbols and subclass_name not in unref_symbols:
unref_symbols.remove(superclass_name)
superclass_name = ""
subclass_name = ""
return unref_symbols
複製程式碼
為了防止一些三方庫的誤傷,還可以去過濾一些字首,或者是是僅保留帶有某些字首的類。
for unref_pointer in unref_pointers:
if unref_pointer in symbols:
unref_symbol = symbols[unref_pointer]
if len(reserved_prefix) > 0 and not unref_symbol.startswith(reserved_prefix):
continue
if len(filter_prefix) > 0 and unref_symbol.startswith(filter_prefix):
continue
unref_symbols.add(unref_symbol)
複製程式碼
最終結果儲存在指令碼目錄下。
script_path = sys.path[0].strip()
f = open(script_path+"/result.txt","w")
f.write( "unref class number: %d\n" % len(unref_symbles))
f.write("\n")
for unref_symble in unref_symbles:
f.write(unref_symble+"\n")
f.close()
複製程式碼
這個思路在一定程度上能夠減少程式碼的冗餘,減小包的體積。因為是靜態分析,不能包括動態呼叫的情況,對於需要刪除的類需要進一步的確認。