Linux系統呼叫過程分析

劍西樓發表於2017-02-14

參考:

Linux核心設計與實現》

0 摘要

linux的系統呼叫過程:
層次如下:
使用者程式------>C庫(即API):INT 0x80 ----->system_call------->系統呼叫服務例程-------->核心程式
先說明一下,我們常說的使用者API其實就是系統提供的C庫。
系統呼叫是通過軟中斷指令 INT 0x80 實現的,而這條INT 0x80指令就被封裝在C庫的函式中。
(軟中斷和我們常說的硬中斷不同之處在於,軟中斷是由指令觸發的,而不是由硬體外設引起的。)
INT 0x80 這條指令的執行會讓系統跳轉到一個預設的核心空間地址,它指向系統呼叫處理程式,即system_call函式。
(注意:!!!系統呼叫處理程式system_call 並不是系統呼叫服務例程,系統呼叫服務例程是對一個具體的系統呼叫的核心實現函式,而系統呼叫處理程式是在執行系統呼叫服務例程之前的一個引導過程,是針對INT 0x80這條指令,面向所有的系統呼叫的。簡單來講,執行任何系統呼叫,都是先通過呼叫C庫中的函式,這個函式裡面就會有軟中斷 INT 0x80 語句,然後轉到執行系統呼叫處理程式 system_call ,
system_call 再根據具體的系統呼叫號轉到執行具體的系統呼叫服務例程。)
system_call函式是怎麼找到具體的系統呼叫服務例程的呢?通過系統呼叫號查詢系統呼叫表sys_call_table!軟中斷指令INT 0x80執行時,系統呼叫號會被放入 eax 暫存器中,system_call函式可以讀取eax暫存器獲取,然後將其乘以4,生成偏移地址,然後以sys_call_table為基址,基址加上偏移地址,就可以得到具體的系統呼叫服務例程的地址了!
然後就到了系統呼叫服務例程了。需要說明的是,系統呼叫服務例程只會從堆疊裡獲取引數,所以在system_call執行前,會先將引數存放在暫存器中,system_call執行時會首先將這些暫存器壓入堆疊。system_call退出後,使用者可以從暫存器中獲得(被修改過的)引數。
 
另外:系統呼叫通過軟中斷INT 0x80陷入核心,跳轉到系統呼叫處理程式system_call函式,然後執行相應的服務例程。但是由於是代表使用者程式,所以這個執行過程並不屬於中斷上下文,而是程式上下文。因此,系統呼叫執行過程中,可以訪問使用者程式的許多資訊,可以被其他程式搶佔,可以休眠。
當系統呼叫完成後,把控制權交回到發起呼叫的使用者程式前,核心會有一次排程。如果發現有優先順序更高的程式或當前程式的時間片用完,那麼會選擇優先順序更高的程式或重新選擇程式執行。

1       系統呼叫意義
linux核心中設定了一組用於實現系統功能的子程式,稱為系統呼叫。系統呼叫和普通庫函式呼叫非常相似,只是系統呼叫由作業系統核心提供,執行於核心態,而普通的函式呼叫由函式庫或使用者自己提供,執行於使用者態。
 
一般的,程式是不能訪問核心的。它不能訪問核心所佔記憶體空間也不能呼叫核心函式。CPU硬體決定了這些(這就是為什麼它被稱作"保護模式")。為了和使用者空間上執行的程式進行互動,核心提供了一組介面。透過該介面,應用程式可以訪問硬體裝置和其他作業系統資源。這組介面在應用程式和核心之間扮演了使者的角色,應用程式傳送各種請求,而核心負責滿足這些請求(或者讓應用程式暫時擱置)。實際上提供這組介面主要是為了保證系統穩定可靠,避免應用程式肆意妄行,惹出大麻煩。
 
系統呼叫在使用者空間程式和硬體裝置之間新增了一箇中間層。該層主要作用有三個:
(1) 它為使用者空間提供了一種統一的硬體的抽象介面。比如當需要讀些檔案的時候,應用程式就可以不去管磁碟型別和介質,甚至不用去管檔案所在的檔案系統到底是哪種型別。
(2)系統呼叫保證了系統的穩定和安全。作為硬體裝置和應用程式之間的中間人,核心可以基於許可權和其他一些規則對需要進行的訪問進行裁決。舉例來說,這樣可以避免應用程式不正確地使用硬體裝置,竊取其他程式的資源,或做出其他什麼危害系統的事情。
(3) 每個程式都執行在虛擬系統中,而在使用者空間和系統的其餘部分提供這樣一層公共介面,也是出於這種考慮。如果應用程式可以隨意訪問硬體而核心又對此一無所知的話,幾乎就沒法實現多工和虛擬記憶體,當然也不可能實現良好的穩定性和安全性。在Linux中,系統呼叫是使用者空間訪問核心的惟一手段;除異常和中斷外,它們是核心惟一的合法入口。
 
2       API/POSIX/C庫的關係
一般情況下,應用程式通過應用程式設計介面(API)而不是直接通過系統呼叫來程式設計。這點很重要,因為應用程式使用的這種程式設計介面實際上並不需要和核心提供的系統呼叫一一對應。一個API定義了一組應用程式使用的程式設計介面。它們可以實現成一個系統呼叫,也可以通過呼叫多個系統呼叫來實現,而完全不使用任何系統呼叫也不存在問題。實際上,API可以在各種不同的作業系統上實現,給應用程式提供完全相同的介面,而它們本身在這些系統上的實現卻可能迥異。
 
在Unix世界中,最流行的應用程式設計介面是基於POSIX標準的,其目標是提供一套大體上基於Unix的可移植作業系統標準。POSIX是說明API和系統呼叫之間關係的一個極好例子。在大多數Unix系統上,根據POSIX而定義的API函式和系統呼叫之間有著直接關係。
 
Linux的系統呼叫像大多數Unix系統一樣,作為C庫的一部分提供如下圖所示。C庫實現了 Unix系統的主要API,包括標準C庫函式和系統呼叫。所有的C程式都可以使用C庫,而由於C語言本身的特點,其他語言也可以很方便地把它們封裝起來使用。 
從程式設計師的角度看,系統呼叫無關緊要,他們只需要跟API打交道就可以了。相反,核心只跟系統呼叫打交道;庫函式及應用程式是怎麼使用系統呼叫不是核心所關心的。
 
關於Unix的介面設計有一句通用的格言“提供機制而不是策略”。換句話說,Unix的系統呼叫抽象出了用於完成某種確定目的的函式。至幹這些函式怎麼用完全不需要核心去關心。區別對待機制(mechanism)和策略(policy)是Unix設計中的一大亮點。大部分的程式設計問題都可以被切割成兩個部分:“需要提供什麼功能”(機制)和“怎樣實現這些功能”(策略)。 
3       系統呼叫的實現
3.1    系統呼叫處理程式
您或許疑惑: “當我輸入 cat /proc/cpuinfo 時,cpuinfo() 函式是如何被呼叫的?”核心完成引導後,控制流就從相對直觀的“接下來呼叫哪個函式?”改變為取決於系統呼叫、異常和中斷。
 
使用者空間的程式無法直接執行核心程式碼。它們不能直接呼叫核心空間中的函式,因為核心駐留在受保護的地址空間上。如果程式可以直接在核心的地址空間上讀寫的話,系統安全就會失去控制。所以,應用程式應該以某種方式通知系統,告訴核心自己需要執行一個系統呼叫,希望系統切換到核心態,這樣核心就可以代表應用程式來執行該系統呼叫了。
 
通知核心的機制是靠軟體中斷實現的。首先,使用者程式為系統呼叫設定引數。其中一個引數是系統呼叫編號。引數設定完成後,程式執行“系統呼叫”指令。x86系統上的軟中斷由int產生。這個指令會導致一個異常:產生一個事件,這個事件會致使處理器切換到核心態並跳轉到一個新的地址,並開始執行那裡的異常處理程式。此時的異常處理程式實際上就是系統呼叫處理程式。它與硬體體系結構緊密相關。
 
新地址的指令會儲存程式的狀態,計算出應該呼叫哪個系統呼叫,呼叫核心中實現那個系統呼叫的函式,恢復使用者程式狀態,然後將控制權返還給使用者程式。系統呼叫是裝置驅動程式中定義的函式最終被呼叫的一種方式。 
3.2    系統呼叫號
在Linux中,每個系統呼叫被賦予一個系統呼叫號。這樣,通過這個獨一無二的號就可以關聯絡統呼叫。當使用者空間的程式執行一個系統呼叫的時候,這個系統呼叫號就被用來指明到底是要執行哪個系統呼叫。程式不會提及系統呼叫的名稱。
 
系統呼叫號相當關鍵,一旦分配就不能再有任何變更,否則編譯好的應用程式就會崩潰。Linux有一個“未實現”系統呼叫sys_ni_syscall(),它除了返回一ENOSYS外不做任何其他工作,這個錯誤號就是專門針對無效的系統呼叫而設的。
 
因為所有的系統呼叫陷入核心的方式都一樣,所以僅僅是陷入核心空間是不夠的。因此必須把系統呼叫號一併傳給核心。在x86上,系統呼叫號是通過eax暫存器傳遞給核心的。在陷人核心之前,使用者空間就把相應系統呼叫所對應的號放入eax中了。這樣系統呼叫處理程式一旦執行,就可以從eax中得到資料。其他體系結構上的實現也都類似。
 
核心記錄了系統呼叫表中的所有已註冊過的系統呼叫的列表,儲存在sys_call_table中。它與體系結構有關,一般在entry.s中定義。這個表中為每一個有效的系統呼叫指定了惟一的系統呼叫號。sys_call_table是一張由指向實現各種系統呼叫的核心函式的函式指標組成的表:
ENTRY(sys_call_table)
.long SYMBOL_NAME(sys_ni_syscall) /* 0 - old "setup()" system call*/
.long SYMBOL_NAME(sys_exit)
.long SYMBOL_NAME(sys_fork)
.long SYMBOL_NAME(sys_read)
.long SYMBOL_NAME(sys_write)
.long SYMBOL_NAME(sys_open) /* 5 */
.long SYMBOL_NAME(sys_close)
.long SYMBOL_NAME(sys_waitpid)
。。。。。
.long SYMBOL_NAME(sys_capget)
.long SYMBOL_NAME(sys_capset)      /* 185 */
.long SYMBOL_NAME(sys_sigaltstack)
.long SYMBOL_NAME(sys_sendfile)
.long SYMBOL_NAME(sys_ni_syscall) /* streams1 */
.long SYMBOL_NAME(sys_ni_syscall) /* streams2 */
.long SYMBOL_NAME(sys_vfork)      /* 190 */
 
system_call()函式通過將給定的系統呼叫號與NR_syscalls做比較來檢查其有效性。如果它大於或者等於NR syscalls,該函式就返回一ENOSYS。否則,就執行相應的系統呼叫。
      call *sys_ call-table(,%eax, 4)
由於系統呼叫表中的表項是以32位(4位元組)型別存放的,所以核心需要將給定的系統呼叫號乘以4,然後用所得的結果在該表中查詢其位置
 
3.3    引數傳遞
除了系統呼叫號以外,大部分系統呼叫都還需要一些外部的引數輸人。所以,在發生異常的時候,應該把這些引數從使用者空間傳給核心。最簡單的辦法就是像傳遞系統呼叫號一樣把這些引數也存放在暫存器裡。在x86系統上,ebx, ecx, edx, esi和edi按照順序存放前五個引數。需要六個或六個以上引數的情況不多見,此時,應該用一個單獨的暫存器存放指向所有這些引數在使用者空間地址的指標。
 
給使用者空間的返回值也通過暫存器傳遞。在x86系統上,它存放在eax暫存器中。接下來許多關於系統呼叫處理程式的描述都是針對x86版本的。但不用擔心,所有體系結構的實現都很類似。
 
3.4    引數驗證
系統呼叫必須仔細檢查它們所有的引數是否合法有效。舉例來說,與檔案I/O相關的系統呼叫必須檢查檔案描述符是否有效。與程式相關的函式必須檢查提供的PID是否有效。必須檢查每個引數,保證它們不但合法有效,而且正確。
 
最重要的一種檢查就是檢查使用者提供的指標是否有效。試想,如果一個程式可以給核心傳遞指標而又無須被檢查,那麼它就可以給出一個它根本就沒有訪問許可權的指標,哄騙核心去為它拷貝本不允許它訪問的資料,如原本屬於其他程式的資料。在接收一個使用者空間的指標之前,核心必須保證:
²      指標指向的記憶體區域屬於使用者空間。程式決不能哄騙核心去讀核心空間的資料。
²      指標指向的記憶體區域在程式的地址空間裡。程式決不能哄騙核心去讀其他程式的資料。
²      如果是讀,該記憶體應被標記為可讀。如果是寫,該記憶體應被標記為可寫。程式決不能繞過記憶體訪問限制。
 
核心提供了兩個方法來完成必須的檢查和核心空間與使用者空間之間資料的來回拷貝。注意,核心無論何時都不能輕率地接受來自使用者空間的指標!這兩個方法中必須有一個被呼叫。為了向使用者空間寫入資料,核心提供了copy_to_user(),它需要三個引數。第一個引數是程式空間中的目的記憶體地址。第二個是核心空間內的源地址。最後一個引數是需要拷貝的資料長度(位元組數)。
 
為了從使用者空間讀取資料,核心提供了copy_from_ user(),它和copy-to-User()相似。該函式把第二個引數指定的位置上的資料拷貝到第一個引數指定的位置上,拷貝的資料長度由第三個引數決定。
 
如果執行失敗,這兩個函式返回的都是沒能完成拷貝的資料的位元組數。如果成功,返回0。當出現上述錯誤時,系統呼叫返回標準-EFAULT。
 
注意copy_to_user()和copy_from_user()都有可能引起阻塞。當包含使用者資料的頁被換出到硬碟上而不是在實體記憶體上的時候,這種情況就會發生。此時,程式就會休眠,直到缺頁處理程式將該頁從硬碟重新換回實體記憶體。
 
3.5    系統呼叫的返回值
系統呼叫(在Linux中常稱作syscalls)通常通過函式進行呼叫。它們通常都需要定義一個或幾個引數(輸入)而且可能產生一些副作用,例如寫某個檔案或向給定的指標拷貝資料等等。為防止和正常的返回值混淆,系統呼叫並不直接返回錯誤碼,而是將錯誤碼放入一個名為errno的全域性變數中。通常用一個負的返回值來表明錯誤。返回一個0值通常表明成功。如果一個系統呼叫失敗,你可以讀出errno的值來確定問題所在。通過呼叫perror()庫函式,可以把該變數翻譯成使用者可以理解的錯誤字串。
 
errno不同數值所代表的錯誤訊息定義在errno.h中,你也可以通過命令"man 3 errno"來察看它們。需要注意的是,errno的值只在函式發生錯誤時設定,如果函式不發生錯誤,errno的值就無定義,並不會被置為0。另外,在處理errno前最好先把它的值存入另一個變數,因為在錯誤處理過程中,即使像printf()這樣的函式出錯時也會改變errno的值。
 
當然,系統呼叫最終具有一種明確的操作。舉例來說,如getpid()系統呼叫,根據定義它會返回當前程式的PID。核心中它的實現非常簡單:
asmlinkage long sys_ getpid(void)
{
    return current-> tgid;
}
 
上述的系統呼叫盡管非常簡單,但我們還是可以從中發現兩個特別之處。首先,注意函式宣告中的asmlinkage限定詞,這是一個小戲法,用於通知編譯器僅從棧中提取該函式的引數。所有的系統呼叫都需要這個限定詞。其次,注意系統呼叫get_pid()在核心中被定義成sys_ getpid。這是Linux中所有系統呼叫都應該遵守的命名規則
 
4       新增新系統呼叫
給Linux新增一個新的系統呼叫是件相對容易的工作。怎樣設計和實現一個系統呼叫是難題所在,而把它加到核心裡卻無須太多周折。讓我們關注一下實現一個新的Linux系統呼叫所需的步驟。
 
實現一個新的系統呼叫的第一步是決定它的用途。它要做些什麼?每個系統呼叫都應該有一個明確的用途。在Linux中不提倡採用多用途的系統呼叫(一個系統呼叫通過傳遞不同的引數值來選擇完成不同的工作)。ioctl()就應該被視為一個反例。
 
新系統呼叫的引數、返回值和錯誤碼又該是什麼呢?系統呼叫的介面應該力求簡潔,引數儘可能少。設計介面的時候要儘量為將來多做考慮。你是不是對函式做了不必要的限制?系統呼叫設計得越通用越好。不要假設這個系統呼叫現在怎麼用將來也一定就是這麼用。系統呼叫的目的可能不變,但它的用法卻可能改變。這個系統呼叫可移植嗎?別對機器的位元組長度和位元組序做假設。當你寫一個系統呼叫的時候,要時刻注意可移植性和健壯性,不但要考慮當前,還要為將來做打算。
 
當編寫完一個系統呼叫後,把它註冊成一個正式的系統呼叫是件瑣碎的工作:
在系統呼叫表的最後加入一個表項。每種支援該系統呼叫的硬體體系都必須做這樣的工作。從0開始算起,系統呼叫在該表中的位置就是它的系統呼叫號。
對於所支援的各種體系結構,系統呼叫號都必須定義於<asm/unistd.h>中。
系統呼叫必須被編譯進核心映象(不能被編譯成模組)。這隻要把它放進kernel/下的一個相關檔案中就可以。
 
讓我們通過一個虛構的系統呼叫f00()來仔細觀察一下這些步驟。首先,我們要把sys_foo加入到系統呼叫表中去。對於大多數體系結構來說,該表位幹entry.s檔案中,形式如下:
ENTRY(sys_ call_ table)
      ·long sys_ restart_ syscall/*0*/
      .long sys_ exit
      ·long sys_ fork
      ·long sys_ read
      .long sys_write
我們把新的系統呼叫加到這個表的末尾:
     .long sys_foo
雖然沒有明確地指定編號,但我們加入的這個系統呼叫被按照次序分配給了283這個系統呼叫號。對於每種需要支援的體系結構,我們都必須將自己的系統呼叫加人到其系統呼叫表中去。每種體系結構不需要對應相同的系統呼叫號。
 
接下來,我們把系統呼叫號加入到<asm/unistd.h>中,它的格式如下:
/*本檔案包含系統呼叫號*/
#define_ NR_ restart_ syscall
#define NR exit
#define NR fork
#define NR read
#define NR write
#define NR- mq getsetattr 282
然後,我們在該列表中加入下面這行:
#define_ NR_ foo 283
 
最後,我們來實現f00()系統呼叫。無論何種配置,該系統呼叫都必須編譯到核心的核心映象中去,所以我們把它放進kernel/sys.c檔案中。你也可以將其放到與其功能聯絡最緊密的程式碼中去
 
asmlinkage long sys-foo(void)
{
return THREAD SIZE
)
就是這樣!嚴格說來,現在就可以在使用者空間呼叫f00()系統呼叫了。
 
建立一個新的系統呼叫非常容易,但卻絕不提倡這麼做。通常模組可以更好的代替新建一個系統呼叫。
 
5       訪問系統呼叫
5.1    系統呼叫上下文
核心在執行系統呼叫的時候處於程式上下文。current指標指向當前任務,即引發系統呼叫的那個程式。
 
在程式上下文中,核心可以休眠並且可以被搶佔。這兩點都很重要。首先,能夠休眠說明系統呼叫可以使用核心提供的絕大部分功能。休眠的能力會給核心程式設計帶來極大便利。在程式上下文中能夠被搶佔,其實表明,像使用者空間內的程式一樣,當前的程式同樣可以被其他程式搶佔。因為新的程式可以使用相同的系統呼叫,所以必須小心,保證該系統呼叫是可重人的。當然,這也是在對稱多處理中必須同樣關心的問題。
 
當系統呼叫返回的時候,控制權仍然在system_call()中,它最終會負責切換到使用者空間並讓使用者程式繼續執行下去。
 
5.2    系統呼叫訪問示例
作業系統使用系統呼叫表將系統呼叫編號翻譯為特定的系統呼叫。系統呼叫表包含有實現每個系統呼叫的函式的地址。例如,read() 系統呼叫函式名為 sys_read。read() 系統呼叫編號是 3,所以 sys_read() 位於系統呼叫表的第四個條目中(因為系統呼叫起始編號為0)。從地址 sys_call_table + (3 * word_size) 讀取資料,得到 sys_read() 的地址。
 
找到正確的系統呼叫地址後,它將控制權轉交給那個系統呼叫。我們來看定義 sys_read() 的位置,即 fs/read_write.c 檔案。這個函式會找到關聯到 fd 編號(傳遞給 read() 函式的)的檔案結構體。那個結構體包含指向用來讀取特定型別檔案資料的函式的指標。進行一些檢查後,它呼叫與檔案相關的 read() 函式,來真正從檔案中讀取資料並返回。與檔案相關的函式是在其他地方定義的 —— 比如套接字程式碼、檔案系統程式碼,或者裝置驅動程式程式碼。這是特定核心子系統最終與核心其他部分協作的一個方面。
 
讀取函式結束後,從 sys_read() 返回,它將控制權切換給 ret_from_sys。它會去檢查那些在切換回使用者空間之前需要完成的任務。如果沒有需要做的事情,那麼就恢復使用者程式的狀態,並將控制權交還給使用者程式。
5.3    從使用者空間直接訪問系統呼叫
通常,系統呼叫靠C庫支援。使用者程式通過包含標準標頭檔案並和C庫連結,就可以使用系統呼叫(或者呼叫庫函式,再由庫函式實際呼叫)。但如果你僅僅寫出系統呼叫,glibc庫恐怕並不提供支援。值得慶幸的是,Linux本身提供了一組巨集,用於直接對系統呼叫進行訪問。它會設定好暫存器並呼叫陷人指令。這些巨集是_syscalln(),其中n的範圍從0到6。代表需要傳遞給系統呼叫的引數個數,這是由於該巨集必須瞭解到底有多少引數按照什麼次序壓入暫存器。舉個例子,open()系統呼叫的定義是:
long open(const char *filename, int flags, int mode)
而不靠庫支援,直接呼叫此係統呼叫的巨集的形式為:
#define NR_ open 5
syscall3(long, open, const char*,filename, int, flags, int, mode)
這樣,應用程式就可以直接使用open()
 
對於每個巨集來說,都有2+ n個引數。第一個引數對應著系統呼叫的返回值型別。第二個引數是系統呼叫的名稱。再以後是按照系統呼叫引數的順序排列的每個引數的型別和名稱。_NR_ open在<asm/unistd.h>中定義,是系統呼叫號。該巨集會被擴充套件成為內嵌彙編的C函式。由組合語言執行前一節所討論的步驟,將系統呼叫號和引數壓入暫存器並觸發軟中斷來陷入核心。呼叫open()系統呼叫直接把上面的巨集放置在應用程式中就可以了。
 
讓我們寫一個巨集來使用前面編寫的foo()系統呼叫,然後再寫出測試程式碼炫耀一下我們所做的努力。
#define NR foo 283
_sysca110(long, foo)
int main()
{
long stack size;
stack_ size=foo();
printf("The kernel stack
size is 81d\n",stack_ size);
return;
}

6 實際使用的注意

(1)系統呼叫是需要提前編譯固化到核心中的,而且需要官方分配一個系統呼叫號

(2)需要將系統呼叫註冊到支援的每一種體系結構中

(3)系統呼叫一般不能在指令碼中直接訪問

(4)儘量避免新建系統呼叫,可用建立裝置結點的方法代替。

相關文章