Linux 允許程式查詢核心以獲得其父程式的 PID,或者其任何子程式的執行狀態。例如,程式可以建立一個子程式來執行特定的任務,然後呼叫諸如 wait() 這樣的一些庫函式檢查子程式是否終止。如果子程式已經終止,那麼,它的終止代號將告訴父程式這個任務是否已成功地完成。
為了遵循這些設計原則,不允許 Linux 核心在程式一終止後就丟棄包含在程式描述符欄位中的資料。只有父程式發出了與被終止的程式相關的 wait() 類系統呼叫之後,才允許這樣做。這就是引入僵死狀態的原因:儘管從技術上來說程式已死,但必須儲存它的描述符,直到父程式得到通知。
如果一個程式已經終止,但是它的父程式尚未呼叫 wait() 或 waitpid() 對它進行清理,這時的程式狀態稱為僵死狀態,處於僵死狀態的程式稱為殭屍程式(zombie process)。任何程式在剛終止時都是殭屍程式,正常情況下,殭屍程式都立刻被父程式清理了。
殭屍程式是如何產生的
為了觀察到殭屍程式,我們自己寫一個不正常的程式,父程式 fork 出子程式,子程式終止,而父程式既不終止也不呼叫 wait 清理子程式:
#include <unistd.h> #include <stdio.h> #include <stdlib.h> int main(void) { int i = 100; pid_t pid=fork(); if(pid < 0) { perror("fork failed."); exit(1); } if(pid > 0) { printf("This is the parent process. My PID is %d.\n", getpid()); for(; i > 0; i--) { sleep(1); } } else if(pid == 0) { printf("This is the child process. My PID is: %d. My PPID is: %d.\n", getpid(), getppid()); } return 0; }
把上面的程式碼儲存到檔案 zomprocdemo.c 檔案中,並執行下面的命令編譯:
$ gcc zomprocdemo.c -o zomprocdemo
然後執行編譯出來的 zomprocdemo 程式:
$ ./zomprocdemo
此時子程式已經退出,但是父程式沒有退出也沒有通過 wait() 呼叫處理子程式。我們使用 ps 命令檢視程式的狀態:
上圖紅框中的大寫字母 "Z" 說明 PID 為 112712 的程式此時處於僵死的狀態。
讓我們接著往下看!在結束 sleep 後父程式退出。當父程式退出後,子程式會變成孤兒程式,此時它會被一個管理程式收養。在不同的系統中,這個管理程式不太一樣,早期一般是 init 程式,Ubuntu 上是 upstart,還有近來的 Systemd。但是它們都完成相同的任務,就是 wiat() 這些孤兒程式,並最終釋放它們佔用的系統程式表中的資源。這樣,這些已經僵死的孤兒程式就徹底的被清除了。
殭屍程式的危害
在程式退出的時候,核心釋放該程式所有的資源,包括開啟的檔案,佔用的記憶體等。但是仍然為其保留一定的資訊(包括程式號 PID,退出狀態 the termination status of the process,執行時間 the amount of CPU time taken by the process 等)。直到父程式通過 wait / waitpid 來取時才釋放。
如果程式不呼叫 wait / waitpid 的話, 那麼保留的那段資訊就不會釋放,其程式號就會一直被佔用,但是系統所能使用的程式號是有限的,如果大量的產生僵死程式,將因為沒有可用的程式號而導致系統不能產生新的程式。
如何處理殭屍程式
殭屍程式的產生是因為父程式沒有 wait() 子程式。所以如果我們自己寫程式的話一定要在父程式中通過 wait() 來避免殭屍程式的產生。
當系統中出現了殭屍程式時,我們是無法通過 kill 命令把它清除掉的。但是我們可以殺死它的父程式,讓它變成孤兒程式,並進一步被系統中管理孤兒程式的程式收養並清理。
下面的 demo 中,父程式通過 wait() 等待子程式結束:
#include <sys/types.h> #include <sys/wait.h> #include <unistd.h> #include <stdio.h> #include <stdlib.h> int main(void) { pid_t pid; pid = fork(); if (pid < 0) { perror("fork failed"); exit(1); } if (pid == 0) { int i; for (i = 3; i > 0; i--) { printf("This is the child\n"); sleep(1); } // exit with code 3 for test. exit(3); } else { int stat_val; wait(&stat_val); if (WIFEXITED(stat_val)) { printf("Child exited with code %d\n", WEXITSTATUS(stat_val)); } } return 0; }
demo 中父程式不僅等待子程式結束,還通過 WEXITSTATUS 巨集取到了子程式的 exit code。