Linux C++ 開發3 - 你寫的Hello world經過哪些過程才被計算機理解和執行?

陌尘(MoChen)發表於2024-08-12
  • 1. C/C++的編譯過程
    • 1.1. 預處理
    • 1.2. 編譯
    • 1.3. 彙編
      • 1.3.1. 彙編過程
      • 1.3.2. 目標檔案
    • 1.4. 連結
  • 2. 編譯過程示例
    • 2.1. 原始碼
    • 2.2. 逐步編譯程式
      • 2.2.1. 編譯指令
      • 2.2.2. 連結報錯問題
    • 2.3. 單步編譯
  • 3. gcc/g++與gpp、as、ld的關係
    • 3.1. 關係圖
    • 3.2. 示例演示
  • 4. 參考文件

上一篇《Linux C++ 開發2 - 編寫、編譯、執行第一個程式》我們編寫了一個Hello world程式,並在Linux下完成了正常的編譯和執行。

上一篇中我們用g++ ./demo01.cpp這個指令就輕鬆將我們的demo01.cpp原始碼編譯成了二進位制程式,那你知道這個指令內部經歷了哪些過程嗎?

1. C/C++的編譯過程

先說結論:C/C++的編譯過程包括 預處理編譯彙編連結 四個關鍵的步驟,整個編譯的處理流程如下圖所示:

file

更粗粒度的劃分,我們又把 預處理、編譯、彙編 稱為編譯過程,就是把原始碼(.c/.cpp/.cc)生成目的碼;連結的動作單獨一個過程,稱為連結過程

1.1. 預處理

預處理也稱為預編譯,由前處理器(cpp)執行,預處理階段主要處理一些預處理指令,比如檔案包含、宏定義、條件編譯等。

  1. 檔案包含,也就是將所有透過#include包含的標頭檔案替換成真正的內容。
  2. 宏定義,預處理時需要把所有的宏定義替換成真正的內容。
  3. 條件編譯,也就是透過如#ifdef, #ifndef, #else, #elif, #endif等指令定義的條件編譯,預處理會把不符合條件的程式碼刪除,只保留符合條件的程式碼。

1.2. 編譯

編譯階段要做的工作就是透過詞法分析、語法分析和語義分析,在確認所有的原始碼都符合語法規則之後,將其翻譯成等價的彙編程式碼(中間程式碼),即.s.asm檔案。這個過程是整個程式構建的核心部分,也是最複雜的部分之一。

更多關於組合語言的介紹參加《組合語言1 - 什麼是組合語言?》。

除此之外,編譯器還會在這個階段進行程式碼最佳化。最佳化主要包含兩大部分:一部分是對原始碼本身邏輯的最佳化,如刪除公共表示式、刪除無用賦值、迴圈最佳化、複寫傳播等。另一部分是根據目標裝置的硬體結構,對執行指令進行最佳化,如暫存器分配、指令排程、指令合併等。

1.3. 彙編

1.3.1. 彙編過程

彙編的過程就是透過不同平臺的彙編器(如:Linux的AS、Windows的MASM)將彙編程式碼翻譯成機器能識別的機器碼,即生成目標檔案(Linux下是.o,windows下是.obj)。

1.3.2. 目標檔案

目標檔案(Object File) 是原始碼經過預處理、編譯、彙編後生成的中間檔案,Linux下的目標檔案(.o)的檔案格式是ELF(Executable and Linkable Format),它包含了機器程式碼、資料、符號表和重定位資訊等。

我們來看一個.o檔案的檔案頭,

# 檢視.o檔案的檔案頭
objdump -h demo01.o
# 輸出結果:檔案的組成
demo01.o:     file format elf64-x86-64

Sections:
Idx Name          Size      VMA               LMA               File off  Algn
  0 .text         0000003a  0000000000000000  0000000000000000  00000040  2**0
                  CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE
  1 .data         00000000  0000000000000000  0000000000000000  0000007a  2**0
                  CONTENTS, ALLOC, LOAD, DATA
  2 .bss          00000000  0000000000000000  0000000000000000  0000007a  2**0
                  ALLOC
  3 .rodata       00000011  0000000000000000  0000000000000000  0000007a  2**0
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  4 .comment      00000027  0000000000000000  0000000000000000  0000008b  2**0
                  CONTENTS, READONLY
  5 .note.GNU-stack 00000000  0000000000000000  0000000000000000  000000b2  2**0
                  CONTENTS, READONLY
  6 .note.gnu.property 00000020  0000000000000000  0000000000000000  000000b8  2**3       
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  7 .eh_frame     00000038  0000000000000000  0000000000000000  000000d8  2**3
                  CONTENTS, ALLOC, LOAD, RELOC, READONLY, DATA

行:

  • .text: 程式碼段(存放函式的二進位制機器指令)
  • .data: 資料段(存已初始化的區域性/全域性靜態變數、未初始化的全域性靜態變數)
  • .bss: bss段(宣告未初始化變數所佔大小)
  • .rodata: 只讀資料段(存放 " " 引住的只讀字串)
  • .comment: 註釋資訊段
  • .node.GUN-stack: 堆疊提示段

列:

  • Size: 段的長度
  • File Off: 段的所在位置(即距離檔案頭的偏移位置)

段的屬性:

  • CONTENTS: 表示該段在檔案中存在
  • ALLOC: 表示只分配了大小,但沒有存內容

1.4. 連結

程式的連結階段可分為兩個步驟:

  1. 第一步:由於每個.o檔案都有都有自己的程式碼段、bss段,堆,棧等,所以連結器首先將多個.o 檔案相應的段進行合併,建立對映關係及合併符號表。進行符號解析,符號解析完成後就是給符號分配虛擬地址。
  2. 第二步:將分配好的虛擬地址與符號表中定義的符號一一對應起來,使其成為正確的地址,使程式碼段的指令可以根據符號的地址執行相應的操作,最後由連結器生成可執行檔案。

2. 編譯過程示例

2.1. 原始碼

我們還是以《Linux C++ 開發2 - 編寫、編譯、執行第一個程式》中使用的原始碼為例進行講解。

demo01.cpp:

#include <iostream>

int main()
{
    std::cout << "Hello, world!" << std::endl;
    return 0;
}

2.2. 逐步編譯程式

2.2.1. 編譯指令

我們分成 預處理編譯彙編連結 四步來逐步編譯程式。

# 1. 預處理: 將 .c/.cpp/.cc等原始碼檔案進行預處理,生成.i檔案
cpp ./demo01.cpp -o ./demo01.i
# 2. 編譯: 將第1步生成的.i檔案編譯成.s檔案
g++ -S ./demo01.i -o ./demo01.s
# 3. 彙編: 將第2步生成的.s檔案彙編成.o檔案
as ./demo01.s -o ./demo01.o
# 4. 連結: 將第3步生成的.o檔案和標準庫連結成可執行檔案。
# 注:此命令可能會報錯,可看後面會的講解
ld ./demo01.o -o ./demo01.out
# 5. 執行: 執行可執行檔案,輸出結果
./demo01.out

2.2.2. 連結報錯問題

執行上面第4步的連結命令時,可能會出現如下報錯:

ld: warning: cannot find entry symbol _start; defaulting to 0000000000401000
ld: ./demo01.o: in function `main':
demo01.cpp:(.text+0x15): undefined reference to `std::cout'
ld: demo01.cpp:(.text+0x1d): undefined reference to `std::basic_ostream<char, std::char_traits<char> >& std::operator<< <std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&, char const*)'
ld: demo01.cpp:(.text+0x24): undefined reference to `std::basic_ostream<char, std::char_traits<char> >& std::endl<char, std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&)'
ld: demo01.cpp:(.text+0x2f): undefined reference to `std::ostream::operator<<(std::ostream& (*)(std::ostream&))'

這是因為:Linux系統下,連結目標檔案生成可執行檔案的過程比我們想象的要複雜許多,生成一個C++可執行檔案,需要依賴很多系統庫和相關的目標檔案,比如C++的libc++庫。那怎麼解決這個問題呢?

方法一: 直接用g++的指令

g++ ./demo01.o -o ./demo01.out

方法二: 新增複雜引數

既然g++可以直接編譯,我們何不看看g++內部到底是怎麼編譯的, 執行如下程式碼。

# -v引數可以檢視gcc的詳細編譯過程
g++ -v ./demo01.o -o ./demo01.out
# 輸出內容
Using built-in specs.
COLLECT_GCC=g++
COLLECT_LTO_WRAPPER=/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:amdgcn-amdhsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 13.2.0-23ubuntu4' --with-bugurl=file:///usr/share/doc/gcc-13/README.Bugs --enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-13 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/libexec --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-libstdcxx-backtrace --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --enable-libphobos-checking=release --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --enable-cet --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-offload-targets=nvptx-none=/build/gcc-13-uJ7kn6/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-uJ7kn6/gcc-13-13.2.0/debian/tmp-gcn/usr --enable-offload-defaulted --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
Supported LTO compression algorithms: zlib zstd
gcc version 13.2.0 (Ubuntu 13.2.0-23ubuntu4)
COMPILER_PATH=/usr/libexec/gcc/x86_64-linux-gnu/13/:/usr/libexec/gcc/x86_64-linux-gnu/13/:/usr/libexec/gcc/x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/13/:/usr/lib/gcc/x86_64-linux-gnu/
LIBRARY_PATH=/usr/lib/gcc/x86_64-linux-gnu/13/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib/:/lib/x86_64-linux-gnu/:/lib/../lib/:/usr/lib/x86_64-linux-gnu/:/usr/lib/../lib/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../:/lib/:/usr/lib/
COLLECT_GCC_OPTIONS='-v' '-o' './demo01.out' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' './demo01.out.'
 /usr/libexec/gcc/x86_64-linux-gnu/13/collect2 -plugin /usr/libexec/gcc/x86_64-linux-gnu/13/liblto_plugin.so -plugin-opt=/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper -plugin-opt=-fresolution=/tmp/cc9BwcQy.res -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc --build-id --eh-frame-hdr -m elf_x86_64 --hash-style=gnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro -o ./demo01.out /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/13/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/13 -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/13/../../.. ./demo01.o -lstdc++ -lm -lgcc_s -lgcc -lc -lgcc_s -lgcc /usr/lib/gcc/x86_64-linux-gnu/13/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crtn.o
COLLECT_GCC_OPTIONS='-v' '-o' './demo01.out' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' './demo01.out.'

我們看到/usr/libexec/gcc/x86_64-linux-gnu/13/collect2開頭的這一行,後面跟了一堆複雜的引數,這個就是連結時需要用到的引數。

collect2是什麼?實際上collect2是對ld的封裝,g++呼叫連結器collect2來完成連結工作,最終還是要呼叫到ld

我們可以嘗試將collect2替換成ld,然後跟上後面的引數,執行如下的執行:

# 連結指令
ld -plugin /usr/libexec/gcc/x86_64-linux-gnu/13/liblto_plugin.so -plugin-opt=/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper -plugin-opt=-fresolution=/tmp/cc9BwcQy.res -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc --build-id --eh-frame-hdr -m elf_x86_64 --hash-style=gnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro -o ./demo01.out /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/13/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/13 -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/13/../../.. ./demo01.o -lstdc++ -lm -lgcc_s -lgcc -lc -lgcc_s -lgcc /usr/lib/gcc/x86_64-linux-gnu/13/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crtn.o

# 執行demo01.out
./demo01.out                                                                          
Hello, world!

可以看到連結成功,且連結的結果demo01.out可以被正常執行。

2.3. 單步編譯

# 直接編譯成可執行檔案a.out
g++ ./demo01.cpp
# 計算各個檔案的md5值
 md5sum *
# 輸出md5值
7512950d97efcb22fe2f488c9b6ada11  demo01.cpp
6c926dd87e4dbbb7bebb94565bc58a7e  demo01.i
2947e9b8bc49df9d3168af80a0d67fff  demo01.s
7b73665fe2b3d62f86aee04b96727e75  demo01.o
cccb05699b393ba43420bf9518a0cfd6  demo01.out
cccb05699b393ba43420bf9518a0cfd6  a.out

我們看到demo01.outa.out的md5值是一樣的,說明:

  1. 直接編譯得到的可執行檔案(a.out)和經過預處理、編譯、彙編、連結後得到的可執行檔案(demo01.out)是一樣的。
  2. C++的編譯內部經過了預處理、編譯、彙編、連結等過程

3. gcc/g++與gpp、as、ld的關係

3.1. 關係圖

  1. gcc/g++對 預處理、編譯、彙編、連結 等過程進行了捆綁,使使用者只需要使用一次命令就可以把編譯工作完成,這樣極大的簡化了編譯的動作。
  2. gcc/g++相當於一個總控程式,內部組合了cppasld等工具,並透過引數傳遞的方式完成編譯工作。
編譯步驟 指令一 指令二
預處理 cpp g++ -E
編譯 g++ -S g++ -S
彙編 as g++ -c
連結 ld g++

3.2. 示例演示

# 1. 預處理
g++ -E ./demo01.cpp -o ./demo02.i
# 2. 編譯
g++ -S ./demo02.i -o ./demo02.s
# 3. 彙編
g++ -c ./demo02.s -o ./demo02.o
# 4. 連結
g++ ./demo02.o -o ./demo02.out
# 5. 執行
./demo02.out
# 計算各個檔案的md5值
md5sum *
# 輸出md5值
7512950d97efcb22fe2f488c9b6ada11  demo01.cpp
6c926dd87e4dbbb7bebb94565bc58a7e  demo01.i
2947e9b8bc49df9d3168af80a0d67fff  demo01.s
7b73665fe2b3d62f86aee04b96727e75  demo01.o
cccb05699b393ba43420bf9518a0cfd6  demo01.out
6c926dd87e4dbbb7bebb94565bc58a7e  demo02.i
2947e9b8bc49df9d3168af80a0d67fff  demo02.s
7b73665fe2b3d62f86aee04b96727e75  demo02.o
cccb05699b393ba43420bf9518a0cfd6  demo02.out

可以看到,編譯的結構與"2.2. 逐步編譯程式"完全一樣。

4. 參考文件

https://blog.csdn.net/qq_40765537/article/details/105940800
https://www.cnblogs.com/mickole/articles/3659112.html
https://blog.csdn.net/gt1025814447/article/details/80442673


大家好,我是陌塵。

IT從業10年+, 北漂過也深漂過,目前暫定居於杭州,未來不知還會飄向何方。

搞了8年C++,也幹過2年前端;用Python寫過書,也玩過一點PHP,未來還會折騰更多東西,不死不休。

感謝大家的關注,期待與你一起成長。



【SunLogging】
Linux C++ 開發3 - 你寫的Hello world經過哪些過程才被計算機理解和執行?
掃碼二維碼,關注微信公眾號,閱讀更多精彩內容

相關文章