幾百行程式碼實現一個指令碼直譯器

crossoverJie發表於2022-05-31

前言

最近又在重新學習編譯原理了,其實兩年前也複習過,當初是為了能實現通過 MySQLDDL 生成 Pythonsqlalchemymodel


相關文章在這裡:手寫一個詞法分析器

雖然完成了相關功能,但現在看來其實實現的比較糙的,而且也只運用到了詞法分析;所以這次我的目的是可以通過詞法分析->語法分析->語義分析 最終能實現一個功能完善的指令碼"語言"。

效果

現在也有了一些階段性的成果,如下圖所示:

目前具備以下基本功能:

  • 變數宣告與賦值(只支援 int)
  • 二次運算(優先順序支援)
  • 語法檢查
  • debug 模式,可以列印 AST

感興趣的朋友可以在這裡檢視原始碼:
https://github.com/crossoverJie/gscript

本地有 go 環境的話也可以安裝執行。

go get github.com/crossoverJie/gscript
gscript -h

或者直接下載二進位制檔案執行:https://github.com/crossoverJie/gscript/releases

實現

當前版本是使用 go 編寫的,確實也如標題所說,核心程式碼還不到 1k 行程式碼,當然這也和目前功能簡陋有關。

不過麻雀雖小五臟俱全,從當前版本還是運用到了編譯原理中的部分知識:詞法、語法分析。

基本實現流程如上圖:

  • 通過詞法分析器將原始碼中解析出 token
  • 再通過對 token 推導生成出抽象語法樹(AST)

    • 如果語法語法出現錯誤,這一步驟便會丟擲編譯失敗,比如 2*(1+ 少了一個括號。

因為沒有使用類似於 ANTLR 這樣工具來輔助生成程式碼(不然功能也不會只有這麼點),所以其中的詞法、語法分析都是手寫的,程式碼量並不大,對於想要除錯的朋友可以直接檢視原始碼。

詞法分析器:token/token.go:39
語法分析器:syntax/syntax.go

其中會涉及到一些概念,比如有限狀態機、遞迴下降演算法等知識點就沒在本文討論了,後續這個專案功能更加完善後也會重頭整理。

規劃

最後是畫餅階段了,不出意外後續會繼續新增如下功能:

  • 更多的基礎型別,string/long 之類的。
  • 變數作用域、函式。
  • 甚至是閉包。
  • OOP 肯定也少不了。

這些特性都實現後那也算是一個"現代"的指令碼語言了,後續我也會繼續更新學習和實現過程中的有趣內容。

原始碼地址:
https://github.com/crossoverJie/gscript

相關文章