Android中mmap原理及應用簡析

看書的小蝸牛發表於2019-05-08

mmap是Linux中常用的系統呼叫API,用途廣泛,Android中也有不少地方用到,比如匿名共享記憶體,Binder機制等。本文簡單記錄下Android中mmap呼叫流程及原理。mmap函式原型如下:

void *mmap(void *start,size_t length,int prot,int flags,int fd,off_t offsize);
複製程式碼

幾個重要引數

  • 引數start:指向欲對映的記憶體起始地址,通常設為 NULL,代表讓系統自動選定地址,對映成功後返回該地址。
  • 引數length:代表將檔案中多大的部分對映到記憶體。
  • 引數prot:對映區域的保護方式。可以為以下幾種方式的組合:

返回值是void *型別,分配成功後,被對映成虛擬記憶體地址。

mmap屬於系統呼叫,使用者控制元件間接通過swi指令觸發軟中斷,進入核心態(各種環境的切換),進入核心態之後,便可以呼叫核心函式進行處理。 mmap->mmap64->__mmap2->sys_mmap2-> sys_mmap_pgoff ->do_mmap_pgoff

/Users/personal/source_code/android/platform/bionic/libc/bionic/mmap.cpp:

mmap使用者空間系統呼叫

/Users/personal/source_code/android/platform/bionic/libc/arch-arm/syscalls/__mmap2.S:

mmap bionic彙編

而 __NR_mmap在系統函式呼叫表中對應的減值如下:

image.png

通過系統呼叫,執行swi軟中斷,進入核心態,最終對映到call.S中的核心函式:sys_mmap2

image.png

sys_mmap2最終通過sys_mmap_pgoff在核心態完成後續邏輯。

image.png

sys_mmap_pgoff通過巨集定義實現

/Users/personal/source_code/android/kernel/common/mm/mmap.c:

image.png

進而呼叫do_mmap_pgoff:

/Users/personal/source_code/android/kernel/common/mm/mmap.c:

image.png

unsigned long do_mmap_pgoff(struct file *file, unsigned long addr,
			unsigned long len, unsigned long prot,
			unsigned long flags, unsigned long pgoff,
			unsigned long *populate)
{
	struct mm_struct * mm = current->mm;
	struct inode *inode;
	vm_flags_t vm_flags;

	*populate = 0;
    ...
	<!--獲取使用者空間有效虛擬地址-->
	addr = get_unmapped_area(file, addr, len, pgoff, flags);
	...
	inode = file ? file_inode(file) : NULL;
   ...
   <!--分配,對映,更新頁表-->
	addr = mmap_region(file, addr, len, vm_flags, pgoff);
	if (!IS_ERR_VALUE(addr) &&
	    ((vm_flags & VM_LOCKED) ||
	     (flags & (MAP_POPULATE | MAP_NONBLOCK)) == MAP_POPULATE))
		*populate = len;
	return addr;
}
複製程式碼

get_unmapped_area用於為使用者空間找一塊記憶體區域,

unsigned long
get_unmapped_area(struct file *file, unsigned long addr, unsigned long len,
		unsigned long pgoff, unsigned long flags)
{
	unsigned long (*get_area)(struct file *, unsigned long,
				  unsigned long, unsigned long, unsigned long);
	...
	get_area = current->mm->get_unmapped_area;
	if (file && file->f_op && file->f_op->get_unmapped_area)
		get_area = file->f_op->get_unmapped_area;
	addr = get_area(file, addr, len, pgoff, flags);
	...
	return error ? error : addr;
}
複製程式碼

current->mm->get_unmapped_area一般被賦值為arch_get_unmapped_area_topdown,

image.png

unsigned long
arch_get_unmapped_area_topdown(struct file *filp, const unsigned long addr0,
			const unsigned long len, const unsigned long pgoff,
			const unsigned long flags)
{
	struct vm_area_struct *vma;
	struct mm_struct *mm = current->mm;
	unsigned long addr = addr0;
	int do_align = 0;
	int aliasing = cache_is_vipt_aliasing();
	struct vm_unmapped_area_info info;

	...	
	
	addr = vm_unmapped_area(&info);
   ...
	return addr;
}
複製程式碼

先找到合適的虛擬記憶體(使用者空間),幾經週轉後,呼叫相應檔案或者裝置驅動中的mmap函式,完成該裝置檔案的mmap,至於如何處理處理虛擬空間,要看每個檔案的自己的操作了。

image.png

這裡有個很關鍵的結構體

const struct file_operations	*f_op;
複製程式碼

它是檔案驅動操作的入口,在open的時候,完成file_operations的繫結,open流程跟mmap類似

open系統呼叫

open系統呼叫

image.png

image.png

image.png

先通過get_unused_fd_flags獲取個未使用的fd,再通過do_file_open完成file結構體的建立及初始化,最後通過fd_install完成fd與file的繫結。

image.png

重點看下path_openat:

static struct file *path_openat(int dfd, struct filename *pathname,
		struct nameidata *nd, const struct open_flags *op, int flags)
{
	struct file *base = NULL;
	struct file *file;
	struct path path;
	int opened = 0;
	int error;

	file = get_empty_filp();
	if (IS_ERR(file))
		return file;

	file->f_flags = op->open_flag;

	error = path_init(dfd, pathname->name, flags | LOOKUP_PARENT, nd, &base);
	if (unlikely(error))
		goto out;

	current->total_link_count = 0;
	error = link_path_walk(pathname->name, nd);
	if (unlikely(error))
		goto out;

	error = do_last(nd, &path, file, op, &opened, pathname);
	while (unlikely(error > 0)) { /* trailing symlink */
		struct path link = path;
		void *cookie;
		if (!(nd->flags & LOOKUP_FOLLOW)) {
			path_put_conditional(&path, nd);
			path_put(&nd->path);
			error = -ELOOP;
			break;
		}
		error = may_follow_link(&link, nd);
		if (unlikely(error))
			break;
		nd->flags |= LOOKUP_PARENT;
		nd->flags &= ~(LOOKUP_OPEN|LOOKUP_CREATE|LOOKUP_EXCL);
		error = follow_link(&link, nd, &cookie);
		if (unlikely(error))
			break;
		error = do_last(nd, &path, file, op, &opened, pathname);
		put_link(nd, &link, cookie);
	}
out:
	if (nd->root.mnt && !(nd->flags & LOOKUP_ROOT))
		path_put(&nd->root);
	if (base)
		fput(base);
	if (!(opened & FILE_OPENED)) {
		BUG_ON(!error);
		put_filp(file);
	}
	if (unlikely(error)) {
		if (error == -EOPENSTALE) {
			if (flags & LOOKUP_RCU)
				error = -ECHILD;
			else
				error = -ESTALE;
		}
		file = ERR_PTR(error);
	}
	return file;
}
複製程式碼

拿Binder裝置檔案為例子,在註冊該裝置驅動的時候,對應的file_operations已經註冊好了,

image.png

image.png

open的時候,只需要根根inode節點,獲取到file_operations既可,並且,在open成功後,要回撥file_operations中的open函式

image.png

open後,就可以利用fd找到file,之後利用file中的file_operations *f_op呼叫相應驅動函式,接著看mmap。

Binder mmap 的作用及原理(一次拷貝)

Binder機制中mmap的最大特點是一次拷貝即可完成程式間通訊。Android應用在程式啟動之初會建立一個單例的ProcessState物件,其建構函式執行時會同時完成binder mmap,為程式分配一塊記憶體,專門用於Binder通訊,如下。

ProcessState::ProcessState(const char *driver)
    : mDriverName(String8(driver))
    , mDriverFD(open_driver(driver))
    ...
 {
    if (mDriverFD >= 0) {
        // mmap the binder, providing a chunk of virtual address space to receive transactions.
        mVMStart = mmap(0, BINDER_VM_SIZE, PROT_READ, MAP_PRIVATE | MAP_NORESERVE, mDriverFD, 0);
        ...
    }
}
複製程式碼

第一個引數是分配地址,為0意味著讓系統自動分配,流程跟之前分子類似,先在使用者空間找到一塊合適的虛擬記憶體,之後,在核心空間也找到一塊合適的虛擬記憶體,修改兩個控制元件的頁表,使得兩者對映到同一塊物力記憶體。

Linux的記憶體分使用者空間跟核心空間,同時頁表有也分兩類,使用者空間頁表跟核心空間頁表,每個程式有一個使用者空間頁表,但是系統只有一個核心空間頁表。而Binder mmap的關鍵是:也更新使用者空間對應的頁表的同時也同步對映核心頁表,讓兩個頁表都指向同一塊地址,這樣一來,資料只需要從A程式的使用者空間,直接拷貝拷貝到B所對應的核心空間,而B多對應的核心空間在B程式的使用者空間也有相應的對映,這樣就無需從核心拷貝到使用者空間了。

static int binder_mmap(struct file *filp, struct vm_area_struct *vma)
{
	int ret;
    ...
	if ((vma->vm_end - vma->vm_start) > SZ_4M)
		vma->vm_end = vma->vm_start + SZ_4M;
   ...
	// 在核心空間找合適的虛擬記憶體塊
	area = get_vm_area(vma->vm_end - vma->vm_start, VM_IOREMAP);
   proc->buffer = area->addr;
   <!--記錄使用者空間虛擬地址跟核心空間虛擬地址的差值-->
   proc->user_buffer_offset = vma->vm_start - (uintptr_t)proc->buffer;
		...
	proc->pages = kzalloc(sizeof(proc->pages[0]) * ((vma->vm_end - vma->vm_start) / PAGE_SIZE), GFP_KERNEL);
   ..<!--分配page,並更新使用者空間及核心空間對應的頁表-->
	ret = binder_update_page_range(proc, 1, proc->buffer, proc->buffer + PAGE_SIZE, vma);
	...
	return ret;
}
複製程式碼

binder_update_page_range完成了記憶體分配、頁表修改等關鍵操作:

static int binder_update_page_range(struct binder_proc *proc, int allocate,
            void *start, void *end,
            struct vm_area_struct *vma)
{
...
 <!--一頁頁分配-->
for (page_addr = start; page_addr < end; page_addr += PAGE_SIZE) {
	int ret;
	struct page **page_array_ptr;
	<!--分配一頁-->
	page = &proc->pages[(page_addr - proc->buffer) / PAGE_SIZE];
	*page = alloc_page(GFP_KERNEL | __GFP_HIGHMEM | __GFP_ZERO);
	...
	<!-- 修改頁表,讓物理空間對映到核心空間-->
	ret = map_vm_area(&tmp_area, PAGE_KERNEL, &page_array_ptr);
	..
	 <!--根據之前記錄過差值,計算使用者空間對應的虛擬地址-->
	user_page_addr =
		(uintptr_t)page_addr + proc->user_buffer_offset;
	<!--修改頁表,讓物理空間對映到使用者空間-->
	ret = vm_insert_page(vma, user_page_addr, page[0]);
}
...
  return -ENOMEM;
}
複製程式碼

可以看到,binder一次拷貝的關鍵是,完成記憶體的時候,同時完成了核心空間跟使用者空間的對映,也就是說,同一份實體記憶體,既可以在使用者空間,用虛擬地址訪問,也可以在核心空間用虛擬地址訪問。

普通檔案mmap原理

普通檔案的訪問方式有兩種:第一種是通過read/write系統調訪問,先在使用者空間分配一段buffer,然後,進入核心,將內容從磁碟讀取到核心緩衝,最後,拷貝到使用者程式空間,至少牽扯到兩次資料拷貝;同時,多個程式同時訪問一個檔案,每個程式都有一個副本,存在資源浪費的問題。

另一種是通過mmap來訪問檔案,mmap()將檔案直接對映到使用者空間,檔案在mmap的時候,記憶體並未真正分配,只有在第一次讀取/寫入的時候才會觸發,這個時候,會引發缺頁中斷,在處理缺頁中斷的時候,完成記憶體也分配,同時也完成檔案資料的拷貝。並且,修改使用者空間對應的頁表,完成到實體記憶體到使用者空間的對映,這種方式只存在一次資料拷貝,效率更高。同時多程式間通過mmap共享檔案資料的時候,僅需要一塊實體記憶體就夠了。

共享記憶體中mmap的使用

共享記憶體是在普通檔案mmap的基礎上實現的,其實就是基於tmpfs檔案系統的普通mmap,有機會再分析,不再囉嗦。

作者:看書的小蝸牛

Android中mmap原理及應用簡析

僅供參考,歡迎指正

相關文章