學習較底層程式設計：動手寫一個C語言編譯器

菜鳥浮出水發表於2013-07-19

動手編寫一個編譯器，學習一下較為底層的程式設計方式，是一種學習計算機到底是如何工作的非常有效方法。

編譯器通常被看作是十分複雜的工程。事實上，編寫一個產品級的編譯器也確實是一個龐大的任務。但是寫一個小巧可用的編譯器卻不是這麼困難。

祕訣就是首先去找到一個最小的可用工程，然後把你想要的特性新增進去。這個方法也是Abdulaziz Ghuloum在他那篇著名的論文“一種構造編譯器的捷徑”裡所提到的辦法。不過這個辦法確實可行。你只需要按照這篇論文中的第一步來操作，就可以得到一個真正可用的編譯器！當然，它只能編譯程式語言中的非常小的子集，但是它確實是一個真實可用的編譯器。你可以隨意的擴充套件這個編譯器，然後從中學到更多更深的知識。

受到這篇文章的鼓舞，我就寫了一個C編譯器。從某種意義上來說這比寫一個scheme的編譯器要困難一些（因為你必須去解析C那複雜的語法），但是在某些方面又很便利（你不需要去處理執行時型別）。要寫這樣一個編譯器，你只需要從你那個可用的最小的編譯器開始。

對於我寫的編譯器來說，我把它叫 babyc，我選了這段程式碼來作為我需要執行的第一個程式：

int main() {

return 2;

}

沒有變數，沒有函式呼叫，沒有額外的依賴，甚至連if語句，迴圈語句都沒有，一切看起來是那麼簡單。

我們首先需要解析這段程式碼。我們將使用 Flex 和 Bison 來做到這點。這裡有怎麼用的例子可以參考，幸好我們的語法是如此簡單，下面就是詞法分析器：

"{" { return '{'; }

"}" { return '}'; }

"(" { return '('; }

")" { return ')'; }

";" { return ';'; }

[0-9]+ { return NUMBER; }

"return" { return RETURN; }

"int" { return TYPE; }

"main" { return IDENTIFIER; }

這裡是語法分析器：

function:

TYPE IDENTIFIER '(' ')' '{' expression '}'

;

expression:

RETURN NUMBER ';'

;

最終，我們需要生成一些彙編程式碼。我們將使用32位的X86彙編，因為它非常的通用而且可以很容易的執行在你的機器上。這裡有X86彙編的相關網站。

下面就是我們需要生成的彙編程式碼：

.text

.global _start # Tell the loader we want to start at _start.

_start:

movl $2,%ebx # The argument to our system call.

movl $1,%eax # The system call number of sys_exit is 1.

int $0x80 # Send an interrupt

然後加上上面的詞法語法分析程式碼，把這段彙編程式碼寫進一個檔案裡。恭喜你！你已經是一個編譯器的編寫者了！

Babyc 就是這樣誕生的，你可以在這裡看到它最開始的樣子。

當然，如果彙編程式碼沒辦法執行也是枉然。讓我們來用編譯器生成我們所希望的真正的彙編程式碼。

# Here's the file we want to compile.

$ cat return_two.c

#include <stdio.h>

int main() {

return 2;

}

# Run the compiler with this file.

$ ./babyc return_two.c

Written out.s.

# Check the output looks sensible.

$ cat out.s

.text

.global _start

_start:

movl $2, %ebx

movl $1, %eax

int $0x80

非常棒！接著讓我們來真正的執行一下編譯之後程式碼來確保它能得到我們所想的結果。

# Assemble the file. We explicitly assemble as 32-bit

# to avoid confusion on x86_64 machines.

$ as out.s -o out.o --32

# Link the file, again specifying 32-bit.

$ ld -m elf_i386 -s -o out out.o

# Run it!

$ ./out

# What was the return code?

$ echo $?

2 # Woohoo!

我們踏出了第一步，接下去怎麼做就全看你了。你可以按照那篇文章所指導的全部做一遍，然後製作一個更加複雜的編譯器。你需要去寫一個更加精巧的語法樹來生成彙編程式碼。接下去的幾步分別是：（1）允許返回任意的值（比如，return 3; 一些可執行程式碼）；（2）新增對“非”的支援（比如，return ～1; 一些可執行程式碼）。每一個額外的特性都可以教你關於C語言的更多知識，編譯器到底是怎麼執行的，以及世界上其他編寫編譯器的人是如何想的。

這是構建 babyc 的方法。Babyc 現在已經擁有了if語句，迴圈，變數以及最基礎的資料結構。歡迎你來check out它的程式碼，但是我希望看完我的文章你能夠自己動手寫一個。

不要害怕底層的一些事情。這是一個非常奇妙的世界。

第一個C語言編譯器是怎樣編寫的？
2015-11-30
C語言編譯
第一個 C 語言編譯器是怎樣編寫的？
2015-11-10
編譯
C語言編譯器手機版
2020-12-08
C語言編譯
用 golang 寫一個語言（編譯器，虛擬機器）
2020-05-08
Golang編譯虛擬機
【軟體開發底層知識修煉】五 gcc-C語言編譯器
2019-01-29
GCC語言編譯
《Go 語言程式設計》讀書筆記（十一）底層程式設計
2020-01-25
Go程式設計筆記
併發程式設計基礎底層原理學習（一）
2022-04-17
程式設計
用 C 語言編寫一個簡單的垃圾回收器
2014-09-23
用C語言編寫的公式計算器
2008-10-06
C語言公式
大一C語言程式設計練習題
2020-12-14
C語言程式設計
【譯】需要學習的是程式設計，而不是程式語言
2018-11-29
程式設計
手把手教你做一個 C 語言編譯器（7）：語句
2016-01-21
編譯
編譯warp,d語言寫的c/c++前處理器.
2020-11-10
編譯C++
國產系統級程式語言與編譯器，輕鬆與 C 語言進行互動
2023-09-26
編譯
[譯] 用javascript實現一門程式語言-寫一個解析器
2018-08-03
JavaScript
手把手教你做一個 C 語言編譯器（0）：前言
2016-01-18
編譯
c語言程式設計學習之二維陣列
2021-05-11
C語言程式設計陣列
程式設計師是否需要學習底層知識
2011-09-21
程式設計師
C語言/C++對程式設計學習的重要性！
2018-06-13
C語言C++程式設計
Solidity語言學習筆記————2、使用編譯器
2018-06-22
Solid筆記編譯
C語言編譯工具
2014-01-07
C語言編譯
java開發C語言編譯器：為C語言提供API呼叫
2017-01-10
JavaC語言編譯API
組合語言學習記錄--第一個彙編程式
2010-05-21
組合語言
專為程式設計師編寫的英語學習指南
2019-02-05
程式設計師
C 語言程式設計習慣總結
2020-10-29
程式設計
手把手教你做一個 C 語言編譯器（9）：總結
2016-01-22
編譯
MySQL的C語言程式設計（一）
2014-12-09
MySqlC語言程式設計
C語言程式設計
2012-07-04
C語言程式設計
程式設計師都應學習程式碼編譯器知識
2015-01-04
程式設計師編譯
源語言、目標語言、翻譯器、編譯器、直譯器
2019-05-07
編譯
手把手教你做一個 C 語言編譯器（2）：虛擬機器
2016-01-19
編譯虛擬機
併發程式設計基礎底層原理學習（二）
2022-05-01
程式設計
併發程式設計基礎底層原理學習（四）
2022-06-11
程式設計
57段讓編譯器崩潰的C語言程式碼
2012-04-05
編譯C語言
一個關於pynoi遊戲的C語言程式設計
2018-01-10
遊戲C語言程式設計
用 C 語言編寫多程式 Web 伺服器【粗暴版】
2019-08-30
Web伺服器
使用C語言編寫貪食蛇程式原始碼
2018-07-16
C語言原始碼
用C語言編寫windows服務程式
2013-08-05
C語言Windows

學習較底層程式設計：動手寫一個C語言編譯器

相關文章