從編譯原理看一個直譯器的實現

木宛城主發表於2017-06-29

『設計模式』中有一個模式可以解釋特定的語法規則，它就是直譯器模式（Interpreter Pattern）。不同於常見的策略模式或者是工廠模式，直譯器模式在.NET或者JDK中並不常見，而且在業務上也很少會去解釋特定的語法，所以它並不被廣泛使用。一個直譯器可大可小，大可以是複雜的編譯器，小也可以是一個簡單的字串解析，但本質上它們都是對特定的語法做出合理的解釋。

直譯器在遊戲領域的應用

雖然直譯器模式很少使用，但在在遊戲開發中，還是很常見的。比如你在戰鬥時，普通攻擊和魔法攻擊一定會產生不同的傷害，遊戲設計者會為技能設計不同的『公式』，簡單如我方的攻擊力-敵方的防禦力，同時『公式』還可以加入引數，如$critRate代表一個爆發率。故遊戲的技能傷害如下圖所示：

遊戲裡的『公式』本質上是字串，很像數學表示式，但又比它更高階，可以加入自定義的引數，所以『公式』更像是數學表示式的超集。既然談到了數學表示式，那麼有必要知道怎樣去解析一個數學表示式。

千萬不要小看這個任務，實際上要做一個計算器是非常複雜的。假設輸入一個字串：-(1+(2+3)x4-5)，注意這是一個字串。解決方案有兩種：

while遍歷字串，將括號、運算子、數字等取出來，根據運算子左結合以及優先順序計算
將表示式轉化成二叉樹形式，二叉樹的父節點是運算子，左右子節點代表數字，通過遞迴遍歷樹，將左右節點的數字運算之後放入父節點，直至到達根節點

很顯然第一種方式簡單直白，但很繁重，程式碼的易讀性也不佳，第二種是目前最好的解決方式，將表示式轉化為二叉樹。所以難點在於怎樣將表示式轉化為一棵二叉樹？

這需要了解資料結構相關知識，表示式-(1+(2+3)x4-5)又被稱為中序排序，中序排序不能生成一棵二叉樹，你需要將中序排序轉化為前序排序或者後序排序，然後根據中序排序和前序排序生成二叉樹，相關演算法自行搜尋，不做累贅。

我在閱讀了《編譯原理》第1，2章之後，還有另外一種方式將表示式生成二叉樹形式，這也是編譯的基本原理。

一個編譯器的前端模型

我們以最簡單的算術表示式舉例，編譯器在分析階段把一個字元序列分為各個組成部分，最終生成一棵抽象語法樹(abstract syntax tree)，如下所示：

表示式語法定義

語法，顧名思義，是一種特定的描述方法。我們學習的英語語法，又或者是程式語言的語法，都有嚴格的格式要求。對於算術表示式而言，比如9-5+2，3-2，語法是兩個數字之間必須出現+，-，如果出現9+-5,那麼這就是錯誤的語法。

那我們怎麼來制定語法呢？在編譯原理領域，使用一個通用的表示方法來描述語法，這個方法就是上下文無關文法或BNF正規化。

比如上述的算術(+和-)表示式：9-5+2，我們可以推匯出如下BNF正規化：

list->list+digit|list-digit|digit

digit->0|1|2|3|4|5|6|7|8|9

list代表一個表示式序列，digit代表數字，箭頭->可以讀作“可以具有如下形式”，而豎線|代表或的意思。

詞法分析器

詞法分析器讀入源程式中的字元序列，將他們組織為具有詞法含義的詞素，生成並輸出代表這些詞素的詞法單元(Token)。

語法分析器

語法分析器根據詞法單元，以語法分析樹的形式構建表示式，最終形成一顆抽象的語法樹(abstract syntax tree)，這是一種表示了層次化的結構。

語法分析樹

如果非終端節點A有一個產生式A->XYZ，那麼在語法分析樹中就可能有一個標號為A的內部節點，該節點有三個子節點，從左向右標號為X，Y，Z。內部節點對應於產生式的頭，它的子節點對應於產生式的體：

BNF正規化構建

數學表示式的特點

運用編譯原理的知識，編寫一個自定義的直譯器，我們需要如下三個步驟：

BNF正規化來描述遊戲『公式』
詞法分析器獲得詞法單元Token，對應的類是LexicalAnalyzer
語法分析器根據Token構建抽象樹，對應的類是Parser

我在一開始就提到過，遊戲裡的『公式』很像數學表示式，那麼數學表示式有什麼廣泛和通用的特點？

首先數學表示式由數字和運算子構成，並且運算子有左結合性和優先性：

結合性：依照慣例，9+5+2等價於(9+5)+2，9-5-2等價於(9-5)-2。當一個運算分量，比如上述的5左右兩側都有運算子時，我們需要一些規則來決定哪個運算子被應用於該運算分量。我們說運算子“+”是左結合的，因為當一個運算分量左右兩側都有“+”號時，它屬於其左邊運算子。加，減，乘，除四種算術運算子都是左結合。
優先性：在算術中，乘法和除法比加法和減法具有更高的優先順序。因此在表示式9+5x2和9x5+2中，都是運算分量5首先參與x運算。

算術表示式的BNF構建

通過對數學表示式的瞭解，我們知道一個數學表示式有數字、運算子等組成，並且運算子是左結合和有優先性，那怎樣去構建它的BNF正規化呢？

我們建立兩個非終結符號expr(表示式) 和 term(項) ，分別對應這兩個優先順序層次，並使用另一個非終結符號factor(因子)來生成表示式的基本單元。

那什麼是factor呢？

我們可以將因子(factor)理解成不能被任何運算子分開的表示式。『不能分開』的意思是說當我們在任意因子的任意一邊放置一個運算子，都不會導致這個因子的任何部分分離出來，成為這個運算子的運算分量。當然，因子本身作為一個整體可以成為該運算子的一個運算分量。如果這個因子是由一個括號括起來的表示式，那麼這個括號將起到保護其不被分開的作用。

factor->digit|(expr)

digit->0|1|2|3|4|5|6|7|8|9

那什麼是term呢？

一個（不是因子）項（term）是一個可能被高優先順序的運算子x和/分開，但不能被低優先順序運算子分開的表示式。

term->term x factor|term / factor|factor

那什麼是expr呢？

一個（不是因子也不是項）的表示式可能被任何一個運算子分開。

expr->expr+term|expr-term|term

因此最終得到的BNF正規化是：

expr->expr+term|expr-term|term

term->term x factor|term/factor|factor

factor->digit|(expr)

使用這個BNF正規化時，一個表示式就是一個由+或-分割開來的項（term）列表，而項是由x或者/分隔的因子（factor）列表。請注意，任何由括號括起來的表示式都是一個因子。

這個BNF正規化的語法分析樹為如下所示：

求值時，從root節點遍歷二叉樹，如果節點有子節點，遞迴的方式遍歷下去，直到是葉子節點為止，接著將左子樹和右子樹取得的值放入它們的根節點，最後root節點的值就是表示式最終的值。

開始實現直譯器

有了準備之後，接下來就是實現直譯器，它可以解釋遊戲中的『公式』。

1.) 建立一個數學表示式類MathExpression，根據物件導向思想，它封裝了資料和行為，由於篇幅有限，只展示其骨架：

    public class MathExpression
    {
        private readonly string _expression;        
        public int CurrentIndex{}
        public bool IsIndexOutOfRange{}
        public bool IsEndOfString{}
        public char CurrentChar{}
        public char GetSpecificCharByIndex(int index){}
    }複製程式碼

2.) 建立一個詞法分析器LexicalAnalyzer，獲取對應的詞法單元Token：

    switch (_mathExpression.CurrentChar)
    {
        case '+':
            token = Token.Add;
            _mathExpression.CurrentIndex++;
            break;
        case '-':
            token = Token.Sub;
            _mathExpression.CurrentIndex++;
            break;
        case '*':
            token=Token.Mul;
            _mathExpression.CurrentIndex++;
            break;
        case '/':
            token = Token.Div;
            _mathExpression.CurrentIndex++;
            break;
        case '(':
            token = Token.OParen;
            _mathExpression.CurrentIndex++;
            break;
        case ')':
            token = Token.CParen;
            _mathExpression.CurrentIndex++;
            break;
        case '$':
            if (_mathExpression.GetSpecificCharByIndex(_mathExpression.CurrentIndex + 1) =='c')
            {
                _mathExpression.CurrentIndex += 2;
                token = Token.Param;
            }
            else
            {
                _mathExpression.CurrentIndex++;
                token=Token.Illegal;
            }
            break;
        default:
            if (char.IsDigit(_mathExpression.CurrentChar))
            {
                token = GetDigitsFromString();
            }else if (char.IsLetter(_mathExpression.CurrentChar))
            {
                token = GetSineCosineFromString();
            }
            else
            {
                throw  new Exception("Illegal Token");
            }
            break;
    }複製程式碼

3.) 值得一提的事情，怎樣從字串中獲取數字，數字有兩種形式：整數和小數點形式，通過有窮自動機在不同的狀態間跳轉並記錄下數字的索引下標，直到遇到非數字退出，有窮自動機如下所示：

一個有窮自動機的狀態判斷程式碼如下：

    do
    {
        isEndOfString = _mathExpression.IsEndOfString;
        currentChar = _mathExpression.CurrentChar;

        switch (_currentState)
        {
            case State.Init:
                if (char.IsDigit(currentChar))
                {
                    _currentState = State.Integer;
                    if (!isEndOfString)
                    {
                        _mathExpression.CurrentIndex++;
                    }
                }
                else
                {
                   //Init狀態非數字則退出
                   _currentState= State.Quit;
                }
                break;
            case State.Integer:
                if (currentChar == '.')
                {
                    _currentState = State.Float;//輸入小數點，狀態轉移到Float
                    if (!isEndOfString)
                    {
                        _mathExpression.CurrentIndex++;
                    }
                }
                else
                {
                    if (!char.IsDigit(currentChar))//既不是數字也不是小數
                    {
                        _currentState = State.Quit;
                    }
                    else
                    {
                        if (!isEndOfString)
                        {
                            _mathExpression.CurrentIndex++;//讀取下一個字元
                        }
                    }
                }
                break;
            case State.Float:
                if (!char.IsDigit(currentChar))//非數字，退出
                {
                    _currentState = State.Quit;
                }
                else
                {
                    if (!isEndOfString)
                    {
                        _mathExpression.CurrentIndex++;
                    }
                }
                break;
            case State.Quit:
                break;

        }
    } while (_currentState != State.Quit && !isEndOfString);複製程式碼

4.)通過語法解析器Parser構建表示式樹，每個節點都是一個抽象Expression

    public abstract class Expression
    {
        public abstract double Evaluate(Context context);
    }複製程式碼

Expression根據型別不同有常量表示式，二元表示式，一元表示式等，一個常見的二元表示式如下：

    public class BinaryExpression:Expression
    {
        private Expression _leftExpression;
        private Expression _rightExpression;
        private Operator _operator;

        public BinaryExpression(Expression leftExpression,Expression righExpression,Operator op)
        {
            _leftExpression = leftExpression;
            _rightExpression = righExpression;
            _operator = op;
        }
        public override double Evaluate(Context context)
        {
            switch (_operator)
            {
                case Operator.Plus:
                    return _leftExpression.Evaluate(context) + _rightExpression.Evaluate(context);
                case Operator.Minus:
                    return _leftExpression.Evaluate(context) - _rightExpression.Evaluate(context);
                case Operator.Mul:
                    return _leftExpression.Evaluate(context) * _rightExpression.Evaluate(context);
                case Operator.Div:
                    return _leftExpression.Evaluate(context) / _rightExpression.Evaluate(context);
            }
            return Double.NaN;
        }
    }複製程式碼

可以看到左子樹和右子樹同樣是Expression。

5.)到目前為止，可以說是萬事俱備，只欠東風了，這個『東風』就是怎麼樣去構建表示式樹。已知的是，一個 expr 就是一個由+或-分割開來的項（ term ）列表，而項是由x或者/分隔的因子（ factor ）列表。

expr->expr+term|expr-term|term

    private Expression Expr()
    {
        Token old;
        Expression expression = Term();
        while (_currentToken==Token.Add|| _currentToken==Token.Sub)
        {
            old = _currentToken;
            _currentToken = _lexicalAnalyzer.GetToken();
            Expression e1 = Expr();

            expression=new BinaryExpression(expression,e1,old==Token.Add?Operator.Plus:Operator.Minus);
        }
        return expression;
    }複製程式碼

term->term x factor|term/factor|factor

    private Expression Term()
    {
        Token old;
        Expression expression = Factor();

        while (_currentToken==Token.Mul || _currentToken==Token.Div)
        {
            old = _currentToken;
            _currentToken = _lexicalAnalyzer.GetToken();

            Expression e1 = Term();
            expression=new BinaryExpression(expression,e1,old==Token.Mul?Operator.Mul:Operator.Div);
        }

        return expression;
    }複製程式碼

factor->digit|(expr)

    private Expression Factor()
    {
        Token token;
        Expression expression;
        if (_currentToken==Token.Double)
        {
            expression=new NumericConstant(_lexicalAnalyzer.GetDigits());
            _currentToken = _lexicalAnalyzer.GetToken();
        }
        else if (_currentToken == Token.Param)
        {
            expression=new Var();
            _currentToken = _lexicalAnalyzer.GetToken();
        }
        else if (_currentToken==Token.OParen)
        {
            _currentToken = _lexicalAnalyzer.GetToken();
            expression = Expr();
            if (_currentToken!=Token.CParen)
            {
                throw new Exception("Missing Closing Parenthesis\n");
            }
            _currentToken = _lexicalAnalyzer.GetToken();
        }
        else if(_currentToken==Token.Add || _currentToken==Token.Sub)
        {
            var old = _currentToken;
            _currentToken = _lexicalAnalyzer.GetToken();
            expression = Factor();

            expression=new UnaryExpression(expression,old==Token.Add?Operator.Plus:Operator.Minus);

        }
        else
        {
            throw new Exception("error");
        }
        return expression;
    }複製程式碼

最後生成的樹結構如下所示：

小結

本文為大家介紹了怎樣從編譯原理的角度來實現一個直譯器。在遊戲領域，需要直譯器來解釋自定義的『公式』。這個『公式』的語法往往是和上下文無關的，又被稱為BNF正規化。直譯器的核心就是怎樣構建一棵抽象的表示式樹，這需要詞法分析和語法分析的相關知識。
參考程式碼如下：github.com/MEyes/uInte…

歡迎關注我的公眾號：

前端與編譯原理——用 JS 寫一個 JS 直譯器
2019-02-02
前端編譯原理JS
前端與編譯原理——用JS寫一個JS直譯器
2018-12-12
前端編譯原理JS
實現一個簡單的 JavaScript 編譯器
2019-02-22
JavaScript編譯
淺談彙編器、編譯器和直譯器
2019-06-26
編譯
Skywalking-07：OAL原理——直譯器實現
2021-08-23
如何使用Python編寫一個Lisp直譯器
2013-09-09
PythonLisp
關於Basic程式直譯器及編譯原理的簡單化(2)---C++封裝好的Basic直譯器 (轉)
2007-12-29
C程式編譯原理C++封裝
10個句子看直譯和意譯的區別
2013-07-15
幾百行程式碼實現一個指令碼直譯器
2022-05-31
行程指令碼
源語言、目標語言、翻譯器、編譯器、直譯器
2019-05-07
編譯
實現JavaScript語言直譯器（三）
2022-03-08
JavaScript
深入 WebAssembly 之直譯器實現篇
2021-09-26
Web
JavaScript 編寫的迷你 Lisp 直譯器
2013-07-29
JavaScriptLisp
用java寫一個lisp 直譯器
2022-02-07
JavaLisp
【譯】使用 Python 編寫虛擬機器直譯器
2015-06-19
Python虛擬機
Typescript編譯原理（一）
2018-12-22
TypeScript編譯原理
編譯原理實戰入門：用 JavaScript 寫一個簡單的四則運算編譯器（修訂版）
2020-11-10
編譯原理JavaScript
CMM編譯器和C編譯器過程呼叫實現的比較
2013-01-04
編譯
從一個案例看PL/SQL程式碼片的編譯與執行
2015-12-25
SQL編譯
跟vczh看例項學編譯原理——二：實現Tinymoe的詞法分析
2014-03-02
編譯原理詞法分析
用 Python 實現 Python 直譯器
2016-09-10
Python
Golang實現微型數學運算直譯器
2017-08-02
Golang
直譯器構造實現函式呼叫
2012-11-03
函式
NDK clang編譯器的一個bug
2020-05-10
編譯
王垠：怎樣寫一個直譯器
2012-08-14
一張圖解析編譯器編譯流程
2017-08-05
圖解編譯
javascript編寫一個簡單的編譯器
2017-11-01
JavaScript編譯
從零實現最簡編譯模型
2023-01-16
編譯模型
自定義語言的實現——直譯器模式（五）
2012-07-04
模式
自定義語言的實現——直譯器模式（四）
2012-07-04
模式
自定義語言的實現——直譯器模式（三）
2012-07-04
模式
自定義語言的實現——直譯器模式（二）
2012-07-03
模式
實現指令碼直譯器 - 詞法分析器
2019-05-11
指令碼詞法分析
用 Python 從零開始寫一個簡單的直譯器（3）
2015-10-19
Python
用 Python 從零開始寫一個簡單的直譯器（4）
2015-10-23
Python
用 Python 從零開始寫一個簡單的直譯器（2）
2015-10-16
Python
編譯原理
2024-08-10
編譯原理
[譯] 理解編譯器 —— 從人類的角度（版本 2）
2018-12-12
編譯

從編譯原理看一個直譯器的實現

直譯器在遊戲領域的應用

一個編譯器的前端模型

BNF正規化構建

開始實現直譯器

小結

相關文章