編譯器的工作過程

阮一峰發表於2014-11-11

原始碼要執行，必須先轉成二進位制的機器碼。這是編譯器的任務。

比如，下面這段原始碼（假定檔名叫做test.c）。


#include <stdio.h>

int main(void)
{
  fputs("Hello, world!\n", stdout);
  return 0;
}

要先用編譯器處理一下，才能執行。


$ gcc test.c
$ ./a.out
Hello, world!

對於複雜的專案，編譯過程還必須分成三步。


$ ./configure
$ make  
$ make install

這些命令到底在幹什麼？大多數的書籍和資料，都語焉不詳，只說這樣就可以編譯了，沒有進一步的解釋。

本文將介紹編譯器的工作過程，也就是上面這三個命令各自的任務。我主要參考了Alex Smith的文章《Building C Projects》。需要宣告的是，本文主要針對gcc編譯器，也就是針對C和C++，不一定適用於其他語言的編譯。

第一步配置（configure）

編譯器在開始工作之前，需要知道當前的系統環境，比如標準庫在哪裡、軟體的安裝位置在哪裡、需要安裝哪些元件等等。這是因為不同計算機的系統環境不一樣，透過指定編譯引數，編譯器就可以靈活適應環境，編譯出各種環境都能執行的機器碼。這個確定編譯引數的步驟，就叫做"配置"（configure）。

這些配置資訊儲存在一個配置檔案之中，約定俗成是一個叫做configure的指令碼檔案。通常它是由autoconf工具生成的。編譯器透過執行這個指令碼，獲知編譯引數。

configure指令碼已經儘量考慮到不同系統的差異，並且對各種編譯引數給出了預設值。如果使用者的系統環境比較特別，或者有一些特定的需求，就需要手動向configure指令碼提供編譯引數。


$ ./configure --prefix=/www --with-mysql

上面程式碼是php原始碼的一種編譯配置，使用者指定安裝後的檔案儲存在www目錄，並且編譯時加入mysql模組的支援。

第二步確定標準庫和標頭檔案的位置

原始碼肯定會用到標準庫函式（standard library）和標頭檔案（header）。它們可以存放在系統的任意目錄中，編譯器實際上沒辦法自動檢測它們的位置，只有透過配置檔案才能知道。

編譯的第二步，就是從配置檔案中知道標準庫和標頭檔案的位置。一般來說，配置檔案會給出一個清單，列出幾個具體的目錄。等到編譯時，編譯器就按順序到這幾個目錄中，尋找目標。

第三步確定依賴關係

對於大型專案來說，原始碼檔案之間往往存在依賴關係，編譯器需要確定編譯的先後順序。假定A檔案依賴於B檔案，編譯器應該保證做到下面兩點。

（1）只有在B檔案編譯完成後，才開始編譯A檔案。

（2）當B檔案發生變化時，A檔案會被重新編譯。

編譯順序儲存在一個叫做makefile的檔案中，裡面列出哪個檔案先編譯，哪個檔案後編譯。而makefile檔案由configure指令碼執行生成，這就是為什麼編譯時configure必須首先執行的原因。

在確定依賴關係的同時，編譯器也確定了，編譯時會用到哪些標頭檔案。

第四步標頭檔案的預編譯（precompilation）

不同的原始碼檔案，可能引用同一個標頭檔案（比如stdio.h）。編譯的時候，標頭檔案也必須一起編譯。為了節省時間，編譯器會在編譯原始碼之前，先編譯標頭檔案。這保證了標頭檔案只需編譯一次，不必每次用到的時候，都重新編譯了。

不過，並不是標頭檔案的所有內容，都會被預編譯。用來宣告宏的#define命令，就不會被預編譯。

第五步預處理（Preprocessing）

預編譯完成後，編譯器就開始替換掉原始碼中bash的標頭檔案和宏。以本文開頭的那段原始碼為例，它包含標頭檔案stdio.h，替換後的樣子如下。


extern int fputs(const char *, FILE *);
extern FILE *stdout;

int main(void)
{
    fputs("Hello, world!\n", stdout);
    return 0;
}

為了便於閱讀，上面程式碼只擷取了標頭檔案中與原始碼相關的那部分，即fputs和FILE的宣告，省略了stdio.h的其他部分（因為它們非常長）。另外，上面程式碼的標頭檔案沒有經過預編譯，而實際上，插入原始碼的是預編譯後的結果。編譯器在這一步還會移除註釋。

這一步稱為"預處理"（Preprocessing），因為完成之後，就要開始真正的處理了。

第六步編譯（Compilation）

預處理之後，編譯器就開始生成機器碼。對於某些編譯器來說，還存在一箇中間步驟，會先把原始碼轉為彙編碼（assembly），然後再把彙編碼轉為機器碼。

下面是本文開頭的那段原始碼轉成的彙編碼。


    .file   "test.c"
    .section    .rodata
.LC0:
    .string "Hello, world!\n"
    .text
    .globl  main
    .type   main, @function
main:
.LFB0:
    .cfi_startproc
    pushq   %rbp
    .cfi_def_cfa_offset 16
    .cfi_offset 6, -16
    movq    %rsp, %rbp
    .cfi_def_cfa_register 6
    movq    stdout(%rip), %rax
    movq    %rax, %rcx
    movl    $14, %edx
    movl    $1, %esi
    movl    $.LC0, %edi
    call    fwrite
    movl    $0, %eax
    popq    %rbp
    .cfi_def_cfa 7, 8
    ret
    .cfi_endproc
.LFE0:
    .size   main, .-main
    .ident  "GCC: (Debian 4.9.1-19) 4.9.1"
    .section    .note.GNU-stack,"",@progbits

這種轉碼後的檔案稱為物件檔案（object file）。

第七步連線（Linking）

物件檔案還不能執行，必須進一步轉成可執行檔案。如果你仔細看上一步的轉碼結果，會發現其中引用了stdout函式和fwrite函式。也就是說，程式要正常執行，除了上面的程式碼以外，還必須有stdout和fwrite這兩個函式的程式碼，它們是由C語言的標準庫提供的。

編譯器的下一步工作，就是把外部函式的程式碼（通常是字尾名為.lib和.a的檔案），新增到可執行檔案中。這就叫做連線（linking）。這種透過複製，將外部函式庫新增到可執行檔案的方式，叫做靜態連線（static linking），後文會提到還有動態連線（dynamic linking）。

make命令的作用，就是從第四步標頭檔案預編譯開始，一直到做完這一步。

第八步安裝（Installation）

上一步的連線是在記憶體中進行的，即編譯器在記憶體中生成了可執行檔案。下一步，必須將可執行檔案儲存到使用者事先指定的安裝目錄。

表面上，這一步很簡單，就是將可執行檔案（連帶相關的資料檔案）複製過去就行了。但是實際上，這一步還必須完成建立目錄、儲存檔案、設定許可權等步驟。這整個的儲存過程就稱為"安裝"（Installation）。

第九步作業系統連線

可執行檔案安裝後，必須以某種方式通知作業系統，讓其知道可以使用這個程式了。比如，我們安裝了一個文字閱讀程式，往往希望雙擊txt檔案，該程式就會自動執行。

這就要求在作業系統中，登記這個程式的後設資料：檔名、檔案描述、關聯字尾名等等。Linux系統中，這些資訊通常儲存在/usr/share/applications目錄下的.desktop檔案中。另外，在Windows作業系統中，還需要在Start啟動選單中，建立一個快捷方式。

這些事情就叫做"作業系統連線"。make install命令，就用來完成"安裝"和"作業系統連線"這兩步。

第十步生成安裝包

寫到這裡，原始碼編譯的整個過程就基本完成了。但是隻有很少一部分使用者，願意耐著性子，從頭到尾做一遍這個過程。事實上，如果你只有原始碼可以交給使用者，他們會認定你是一個不友好的傢伙。大部分使用者要的是一個二進位制的可執行程式，立刻就能執行。這就要求開發者，將上一步生成的可執行檔案，做成可以分發的安裝包。

所以，編譯器還必須有生成安裝包的功能。通常是將可執行檔案（連帶相關的資料檔案），以某種目錄結構，儲存成壓縮檔案包，交給使用者。

第十一步動態連線（Dynamic linking）

正常情況下，到這一步，程式已經可以執行了。至於執行期間（runtime）發生的事情，與編譯器一概無關。但是，開發者可以在編譯階段選擇可執行檔案連線外部函式庫的方式，到底是靜態連線（編譯時連線），還是動態連線（執行時連線）。所以，最後還要提一下，什麼叫做動態連線。

前面已經說過，靜態連線就是把外部函式庫，複製到可執行檔案中。這樣做的好處是，適用範圍比較廣，不用擔心使用者機器缺少某個庫檔案；缺點是安裝包會比較大，而且多個應用程式之間，無法共享庫檔案。動態連線的做法正好相反，外部函式庫不進入安裝包，只在執行時動態引用。好處是安裝包會比較小，多個應用程式可以共享庫檔案；缺點是使用者必須事先安裝好庫檔案，而且版本和安裝位置都必須符合要求，否則就不能正常執行。

現實中，大部分軟體採用動態連線，共享庫檔案。這種動態共享的庫檔案，Linux平臺是字尾名為.so的檔案，Windows平臺是.dll檔案，Mac平臺是.dylib檔案。

（文章完）

=====================================================

以下為廣告部分。歡迎大家在我的網路日誌投放廣告，推廣自己的產品。今天介紹的是100offer。

[贊助商廣告]

優秀的人才找到合適的歸宿，是這個世界最幸福的事情之一。100offer程式設計師拍賣網站透過創新的拍賣方式，致力於幫助優秀程式設計師尋找歸宿，給予求職者更多更好的職業選擇。

過去三個月，100offer中成功的求職者，平均薪資漲幅高於30%，在2周內拿到3-5個offer。100offer與傳統招聘網站存在極大差異，主要為下：

1、只接受部分候選人：100offer目前僅僅接受年薪高於15萬，有一二線知名網際網路公司工作經驗的優秀程式設計師申請者。

2、反向模式：傳統招聘網站是寫簡歷投遞給多家公司，而這裡程式設計師只需要提交一次簡歷給offer，待稽核透過後，100offer會邀約平臺企業來競拍候選人，產生一次投遞數百家網際網路公司的效果。拍賣時程式設計師會接受到來自各公司新鮮熱辣的面試邀請，體驗與傳統網站截然不同。

3、絕對隱私：擔心自己的隱私被僱主看到是完全不必要的：1、候選人同意面試邀請前，公司是完全看不到候選人的姓名、聯絡方式等隱私資訊。2、拍賣開始前，候選人可以手動遮蔽掉3家公司，他們將永遠看不到你的簡歷！

已經有眾多大牛程式設計師透過100offer找到心儀的工作，目前11月候選人在徵集中，點選圖片註冊100offer並提交完整簡歷的程式設計師朋友，即可獲贈15元亞馬遜禮品卡！（活動截止期為2014年12月30日）

100offer目前階段對企業免費，歡迎極客型創業公司和有實力的網際網路公司前來註冊招聘！

（完）

編譯器的工作過程和原理
2014-11-15
編譯
編譯器的編譯基本過程
2013-12-12
編譯
簡要介紹編譯器工作過程的11步
2015-01-23
編譯
[譯] Redux 的工作過程
2018-01-09
Redux
編譯過程
2018-06-23
編譯
CMM編譯器和C編譯器過程呼叫實現的比較
2013-01-04
編譯
Javac編譯過程
2016-05-18
Java編譯
編譯核心過程
2007-09-30
編譯
EVC編譯TCPMP的過程
2010-02-28
編譯TCP
痛苦的過程，編譯glomap
2024-11-25
編譯
編譯器是如何工作的？
2013-12-13
編譯
編譯連結過程
2019-04-04
編譯
編譯過程簡介
2024-07-08
編譯
C++ 編譯過程
2024-08-15
C++編譯
JavaScript的預編譯過程分析
2019-02-16
JavaScript編譯
編譯C++ 程式的過程
2014-08-06
編譯C++
ios底層編譯過程
2020-01-15
iOS編譯
.NET 程式碼編譯過程
2012-10-11
編譯
glade 編譯過程 (轉)
2007-11-28
編譯
Linux上安裝GCC編譯器過程(轉)
2007-08-10
LinuxGC編譯
vlc-android 的編譯過程
2017-07-07
Android編譯
方舟編譯器開源，華為自家開源平臺面世！（附編譯過程）
2020-04-06
編譯
GCC編譯過程（預處理-＞編譯-＞彙編-＞連結）
2020-09-30
GC編譯
GCC編譯和連結過程
2020-06-27
GC編譯
go語言編譯過程概述
2022-04-16
Go編譯
預編譯過程（AO+GO）
2018-12-27
編譯Go
C程式編譯過程淺析
2016-12-28
C程式編譯
Android 專案編譯過程
2013-11-28
Android編譯
Android Makefile 編譯過程分析
2015-03-21
Android編譯
Hive SQL 編譯過程詳解
2014-08-01
HiveSQL編譯
C語言編譯全過程
2010-10-19
C語言編譯
儲存過程編譯時卡死
2015-10-28
儲存過程編譯
iOS編譯過程的原理和應用
2016-12-12
iOS編譯
初探 Go 的編譯命令執行過程
2017-08-05
Go編譯
ASPNet_Compiler的編譯過程
2008-05-01
Compile編譯
OAuth 2.0以及它的工作過程工作過程
2024-10-21
OAuth
C語言_來了解一下GCC編譯器編譯C可執行指令碼的過程
2017-12-27
C語言GC編譯指令碼
Hive SQL的底層編譯過程詳解
2021-10-19
HiveSQL編譯

編譯器的工作過程

第一步 配置（configure）

第二步 確定標準庫和標頭檔案的位置

第三步 確定依賴關係

第四步 標頭檔案的預編譯（precompilation）

第五步 預處理（Preprocessing）

第六步 編譯（Compilation）

第七步 連線（Linking）

第八步 安裝（Installation）

第九步 作業系統連線

第十步 生成安裝包

第十一步 動態連線（Dynamic linking）

相關文章