手拉手教你實現一門程式語言 Enkel, 系列 3

KevinOfNeu發表於2018-09-06

本文系 Creating JVM language 翻譯的第三篇。

0. 自頂向下的方式

開發一門語言不是短期任務,我將以自頂向下的視角來開發。為了避免陷入每個模組的實現細節,我準備先巨集觀的描述每個模組,然後在每個迭代,我將慢慢加入更多的細節加以完善。

1. 程式碼

作者原來的程式碼是 Maven 工程,譯者這裡改成了 Gradle(譯者熟悉 Gradle 並且覺得更為優雅),目錄結構以及包名也做了些許改動,但是邏輯上都是等價的。 讀者可根據喜好,自行選擇。

  • 譯者的 Gradle 工程地址
  • 作者的 Maven 工程地址

約定:每個章節,涉及到程式碼變更,譯者都會打 tag, tag 的名字和章節名字保持統一,比如,當前章節的程式碼版本是 PART-3,以此類推。

2. 功能

本章節我將為 Enkel 新增如下功能特性:

  • 宣告 int 或者 string 型別的變數
  • 列印變數
  • 簡單的型別推斷

示例如下:

//first.enk
 var five=5
 print five   
 var dupa="dupa"  
 print dupa  
複製程式碼

下面我們將實現能最簡化版本,讓上述程式碼可以執行在 JVM 上。

3. 用 ANTLR4 實現詞法分析&語法分析

從零開始實現一個詞法分析器是重複性很強的勞動。這裡使用 Antlr (Antlr 4)實現。你需要做的只是建立一個語法規則檔案,Antlr 幫你生成可以遍歷 AST 的基礎程式碼。

本章語法規則檔案為 Enkel.g4:

//header
grammar Enkel;

@header {
package com.bendcap.enkel.antlr;
}

//RULES
compilationUnit : ( variable | print )* EOF; //root rule - our code consist consist only of variables and prints (see definition below)
variable : VARIABLE ID EQUALS value; //requires VAR token followed by ID token followed by EQUALS TOKEN ...
print : PRINT ID ; //print statement must consist of 'print' keyword and ID
value : op=NUMBER
      | op=STRING ; //must be NUMBER or STRING value (defined below)

//TOKENS
VARIABLE : 'var' ; //VARIABLE TOKEN must match exactly 'var'
PRINT : 'print' ;
EQUALS : '=' ; //must be '='
NUMBER : [0-9]+ ; //must consist only of digits
STRING : '"'.*'"' ; //must be anything in qutoes
ID : [a-zA-Z0-9]+ ; //must be any alphanumeric value
WS: [ \t\n\r]+ -> skip ; //special TOKEN for skipping whitespaces
複製程式碼

語法規則很簡單,需要注意的是:

  • EOF - 檔案結束
  • 語法規則中的空格和 ; 是必須

Enkel.g4 定義好後,可以執行命令來生成後續需要的 Java 程式碼: antlr Enkel.g4

命令執行完後,會生成四個類:

  • EnkelLexer - 包含 Token 相關資訊
  • EnkelParser - 解析器,Token 資訊以及一些內部類來做規則解析
  • EnkelListener - 當訪問語法節點的時候,提供回撥函式
  • EnkelBaseListener - 空的 EnkelListener 實現

譯註: 如果你使用 Gradle 工程的話,可以使用 ./gradlew :antlr:generateGrammarSource 來生成上述程式碼。

其中最重要的是 EnkelBaseListener,這個類提供了遍歷 AST 時的回撥函式,我們不用關心詞法分析和語法分析,Antlr 幫助我們遮蔽了這個過程。

我們可以使用 javac *.java 編譯上述程式碼,來測試我們的規則正確性。

$ export CLASSPATH=".:$ANTLR_JAR_LOCATION:$CLASSPATH"
$ java org.antlr.v4.gui.TestRig Enkel compilationUnit -gui
var x=5
print x
var dupa="dupa"
print dupa
ctrl+D //end of file
複製程式碼

上述輸入會生成如下的圖形化樹形結構(抽象語法書的圖形化展示):

手拉手教你實現一門程式語言 Enkel, 系列 3

譯者注:可以使用 IDEA 外掛 ANTLR 4 grammar plugin 來實現同樣的效果,或許更方便一些。

手拉手教你實現一門程式語言 Enkel, 系列 3

4. 遍歷語法樹

EnkelListener 提供了我們遍歷語法樹的辦法。

EnkelTreeWalkListener.java
public class EnkelTreeWalkListener extends EnkelBaseListener {

    Queue<Instruction> instructionsQueue = new ArrayDeque<>();
    Map<String, Variable> variables = new HashMap<>();

    public Queue<Instruction> getInstructionsQueue() {
        return instructionsQueue;
    }

    @Override
    public void exitVariable(@NotNull EnkelParser.VariableContext ctx) {
        final TerminalNode varName = ctx.ID();
        final EnkelParser.ValueContext varValue = ctx.value();
        final int varType = varValue.getStart().getType();
        final int varIndex = variables.size();
        final String varTextValue = varValue.getText();
        Variable var = new Variable(varIndex, varType, varTextValue);
        variables.put(varName.getText(), var);
        instructionsQueue.add(new VariableDeclaration(var));
        logVariableDeclarationStatementFound(varName, varValue);
    }

    @Override
    public void exitPrint(@NotNull EnkelParser.PrintContext ctx) {
        final TerminalNode varName = ctx.ID();
        final boolean printedVarNotDeclared = !variables.containsKey(varName.getText());
        if (printedVarNotDeclared) {
            final String erroFormat = "ERROR: WTF? You are trying to print var '%s' which has not been declared!!!.";
            System.err.printf(erroFormat, varName.getText());
            return;
        }
        final Variable variable = variables.get(varName.getText());
        instructionsQueue.add(new PrintVariable(variable));
        logPrintStatementFound(varName, variable);
    }

    private void logVariableDeclarationStatementFound(TerminalNode varName, EnkelParser.ValueContext varValue) {
        final int line = varName.getSymbol().getLine();
        final String format = "OK: You declared variable named '%s' with value of '%s' at line '%s'.\n";
        System.out.printf(format, varName, varValue.getText(), line);
    }

    private void logPrintStatementFound(TerminalNode varName, Variable variable) {
        final int line = varName.getSymbol().getLine();
        final String format = "OK: You instructed to print variable '%s' which has value of '%s' at line '%s'.'\n";
        System.out.printf(format, variable.getId(), variable.getValue(), line);
    }
}
複製程式碼

getInstructionsQueue 按照程式碼順序返回指令。

下面我們可以註冊 Listener:

SyntaxTreeTraverser.java
public class SyntaxTreeTraverser {
    public Queue<Instruction> getInstructions(String fileAbsolutePath) throws IOException {
        CharStream charStream = new ANTLRFileStream(fileAbsolutePath); //fileAbsolutePath - file containing first enk code file

        EnkelLexer lexer = new EnkelLexer(charStream);  //create lexer (pass enk file to it)

        CommonTokenStream tokenStream = new CommonTokenStream(lexer);

        EnkelParser parser = new EnkelParser(tokenStream);

        EnkelTreeWalkListener listener = new EnkelTreeWalkListener(); //EnkelTreeWalkListener extends EnkelBaseLitener - handles parse tree visiting events
        BaseErrorListener errorListener = new EnkelTreeWalkErrorListener(); //EnkelTreeWalkErrorListener - handles parse tree visiting error events

        parser.addErrorListener(errorListener);
        parser.addParseListener(listener);
        parser.compilationUnit(); //compilation unit is root parser rule - start from it!
        return listener.getInstructionsQueue();
    }
}
複製程式碼

這裡我提供了另一個 Listener 來做異常處理:

EnkelTreeWalkErrorListener.java
public class EnkelTreeWalkErrorListener extends BaseErrorListener {
    @Override
    public void syntaxError(Recognizer<?, ?> recognizer, Object offendingSymbol, int line, int charPositionInLine, String msg, RecognitionException e) {
        final String errorFormat = "You fucked up at line %d,char %d :(. Details:\n%s";
        final String errorMsg = String.format(errorFormat, line, charPositionInLine, msg);
        System.err.println(errorMsg);
    }
}
複製程式碼

遍歷語法樹的 Listener 寫完後,我們來測試一下。建立 Compiler 類作為入口,輸入引數為我們 Enkel 語言的原始檔路徑。

//Compiler.java
public class Compiler {

    public static void main(String[] args) throws Exception {
        new Compiler().compile(args);
    }

    public void compile(String[] args) throws Exception {
        //arguments validation skipped (check out full code on github)
        final File enkelFile = new File(args[0]);
        String fileName = enkelFile.getName();
        String fileAbsolutePath = enkelFile.getAbsolutePath();
        String className = StringUtils.remove(fileName, ".enk");
        final Queue<Instruction> instructionsQueue = new SyntaxTreeTraverser().getInstructions(fileAbsolutePath);
        //TODO: generate bytecode based on instructions
    }
}
複製程式碼

下面我們既可以驗證我們的 *.enk 檔案了。目前的實現很簡陋,但是可以做如下事情:

  • 允許用 var x=1 或者 var x = "anthing" 來宣告變數
  • 允許用 print x 列印變數
  • 如果語法不符合規則,報錯提示

下面我們建立示例 first.enk:

 var five=5
 print five   
 var dupa="dupa"  
 print dupa  
複製程式碼

驗證:

$java Compiler first.enk

OK: You declared variable named 'five' with value of '5' at line '1'.
OK: You instructed to print variable '0' which has value of '5' at line '2'.'
OK: You declared variable named 'dupa' with value of '"dupa"' at line '3'.
OK: You instructed to print variable '1' which has value of '"dupa"' at line '4'.'
複製程式碼

first.enk 最後新增一行 void noFunctionsYet(), 再次驗證,ErrorListener 可以檢測到錯誤,並且輸出如下提示資訊:

You fucked up at line 1,char 0 :(. Details:
mismatched input 'void' expecting {<EOF>, 'var', 'print'}
複製程式碼

5. 根據 instructions queue 生成位元組碼

Java 的 class 檔案的包含的指令描述參見 JSE 文件。每一條指令包含如下結構:

  • 操作符(1 byte)- 指令
  • 可選的運算元 - 指令的輸入

例: iload 5 (0x15 5),從區域性變數載入資料,5 是區域性變數陣列的索引。 指令也可以實現運算元佔的出棧入棧操作。 例如:

iload 3
iload 2
iadd
複製程式碼

上述程式碼分別從區域性變數陣列中載入索引為 3 和 2 的變數,此時棧中包含兩個數值,iadd 指令將棧中兩個出棧,相加,然後結果再次入棧。

6. ASM

這裡選用 ASM 來操作 Java 位元組碼。這樣可以不用關心非常底層的十六進位制數字,你只需要知道指令的名字,ASM 會自動幫你處理剩下的事情。

7. Instruction interface

SyntaxTreeTraverser 在遍歷 AST 的時候會把指令按照順序儲存到 instructionsQueue 中。我們做一次抽象,定義介面 Instruction

public interface Instruction {
    void apply(MethodVisitor methodVisitor);
}
複製程式碼

介面的實現需要使用 MethodVisitor(ASM 提供的類) 來做一些程式碼生成的操作。

//Compiler.java
public void compile(String[] args) throws Exception {
    //some lines deleted -> described in previous sections of this post
    final Queue<Instruction> instructionsQueue = new SyntaxTreeTraverser().getInstructions(fileAbsolutePath);
    final byte[] byteCode = new BytecodeGenerator().generateBytecode(instructionsQueue, className);
    saveBytecodeToClassFile(fileName, byteCode);
}
//ByteCodeGenerator.java
public class BytecodeGenerator implements Opcodes {
    public byte[] generateBytecode(Queue<Instruction> instructionQueue, String name) throws Exception {

        ClassWriter cw = new ClassWriter(0);
        MethodVisitor mv;
               //version ,      acess,       name, signature, base class, interfaes
        cw.visit(52, ACC_PUBLIC + ACC_SUPER, name, null, "java/lang/Object", null);
        {
            //declare static void main
            mv = cw.visitMethod(ACC_PUBLIC + ACC_STATIC, "main", "([Ljava/lang/String;)V", null, null);
            final long localVariablesCount = instructionQueue.stream()
                    .filter(instruction -> instruction instanceof VariableDeclaration)
                    .count();
            final int maxStack = 100; //TODO - do that properly

            //apply instructions generated from traversing parse tree!
            for (Instruction instruction : instructionQueue) {
                instruction.apply(mv);
            }
            mv.visitInsn(RETURN); //add return instruction

            mv.visitMaxs(maxStack, (int) localVariablesCount); //set max stack and max local variables
            mv.visitEnd();
        }
        cw.visitEnd();

        return cw.toByteArray();
    }
}  
複製程式碼

由於目前 Enkel 不支援 方法,類以及作用域等概念,因為編譯後的類直接繼承自 Object, 包含一個 main 函式。MethodVisitor 需要提供區域性變數以及棧的深度。然後我們遍歷 instructionQueue 的每條指令來生成對應的位元組碼。目前我們只有兩種指令(變數宣告以及列印語句):

//VariableDeclaration.java
public class VariableDeclaration implements Instruction,Opcodes {
    Variable variable;

    public VariableDeclaration(Variable variable) {
        this.variable = variable;
    }

    @Override
    public void apply(MethodVisitor mv) {
        final int type = variable.getType();
        if(type == EnkelLexer.NUMBER) {
            int val = Integer.valueOf(variable.getValue());
            mv.visitIntInsn(BIPUSH,val);
            mv.visitVarInsn(ISTORE,variable.getId());
        } else if(type == EnkelLexer.STRING) {
            mv.visitLdcInsn(variable.getValue());
            mv.visitVarInsn(ASTORE,variable.getId());
        }
    }
}
複製程式碼

這裡值得注意的是,我們已經新增了簡單的型別推斷。我們會根據變數的實際型別進行型別推斷。針對不同型別我們需要呼叫 ASM 不同的方法:

  • visitInsn - 第一個引數是操作符,第二個是運算元
  • BIPUSH - 把一個 byte(integer) 入棧
  • ISTORE - int 型別的值出棧,並儲存到區域性變數中,需要指定區域性變數的索引
  • ASTORE - 和 ISTORE 功能類似,但是資料型別是索引

列印語句的程式碼生成如下:

//PrintVariable.java
public class PrintVariable implements Instruction, Opcodes {
    public PrintVariable(Variable variable) {
        this.variable = variable;
    }

    @Override
    public void apply(MethodVisitor mv) {
        final int type = variable.getType();
        final int id = variable.getId();
        mv.visitFieldInsn(GETSTATIC, "java/lang/System", "out", "Ljava/io/PrintStream;");
        if (type == EnkelLexer.NUMBER) {
            mv.visitVarInsn(ILOAD, id);
            mv.visitMethodInsn(INVOKEVIRTUAL, "java/io/PrintStream", "println", "(I)V", false);
        } else if (type == EnkelLexer.STRING) {
            mv.visitVarInsn(ALOAD, id);
            mv.visitMethodInsn(INVOKEVIRTUAL, "java/io/PrintStream", "println", "(Ljava/lang/String;)V", false);
        }
    }
}
複製程式碼
  • GETSTATIC - 從java.lang.System.out獲得靜態屬性,型別是 java.io.PrintStream
  • ILOAD - 把區域性變數入棧,id 是區域性變數的索引
  • visitMethodInsn - 訪問方法指令
  • INVOKEVIRTUAL - 觸發例項方法 (呼叫 out 的 print 方法,該方法接受一個引數為整數型別,返回為空)
  • ALOAD - 和 ILOAD 型別,但是資料型別是引用

8. 生成位元組碼

cw.toByteArray(); 執行後,ASM 建立一個 ByteVector 例項並把所有的指令加入進去。Java class 檔案的結構為:

//https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-4.html#jvms-4.1
ClassFile {
    u4             magic; //CAFEBABE
    u2             minor_version;
    u2             major_version;
    u2             constant_pool_count;
    cp_info        constant_pool[constant_pool_count-1]; //string constants etc...
    u2             access_flags;
    u2             this_class;
    u2             super_class;
    u2             interfaces_count;
    u2             interfaces[interfaces_count];
    u2             fields_count;
    field_info     fields[fields_count];
    u2             methods_count;
    method_info    methods[methods_count];
    u2             attributes_count;
    attribute_info attributes[attributes_count];
}
複製程式碼

魔數(Magic Number)是 0xCAFEBABE。由於 Enkel 目前不支援欄位,屬性,父類或者介面,因此我們這裡主要描述了 method_info

9. 寫入位元組碼到檔案

JVM 規範要求我們 .class 檔案的名字必須和型別相同。所以我們這裡保持檔名字和類名一直,僅替換字尾 (*enk -> *.class)。

//Compiler.java
private static void saveBytecodeToClassFile(String fileName, byte[] byteCode) throws IOException {
        final String classFile = StringUtils.replace(fileName, ".enk", ".class");
        OutputStream os = new FileOutputStream(classFile);
        os.write(byteCode);
        os.close();
    }

複製程式碼

10. 驗證位元組碼

我們可以使用 JDK 自帶的 javap 工具來驗證生成的位元組碼的正確性。

$ $JAVA_HOME/bin/javap -v file

Classfile /home/kuba/repos/Enkel-JVM-language/file.class
  Last modified 2016-03-16; size 335 bytes
  MD5 checksum bcbdaa7e7389167342e0c04b52951bc9
public class file
  minor version: 0
  major version: 52
  flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
   #1 = Utf8               file
   #2 = Class              #1             // file
   #3 = Utf8               java/lang/Object
   #4 = Class              #3             // java/lang/Object
   #5 = Utf8               Test.java
   #6 = Utf8               main
   #7 = Utf8               ([Ljava/lang/String;)V
   #8 = Utf8               java/lang/System
   #9 = Class              #8             // java/lang/System
  #10 = Utf8               out
  #11 = Utf8               Ljava/io/PrintStream;
  #12 = NameAndType        #10:#11        // out:Ljava/io/PrintStream;
  #13 = Fieldref           #9.#12         // java/lang/System.out:Ljava/io/PrintStream;
  #14 = Utf8               java/io/PrintStream
  #15 = Class              #14            // java/io/PrintStream
  #16 = Utf8               println
  #17 = Utf8               (I)V
  #18 = NameAndType        #16:#17        // println:(I)V
  #19 = Methodref          #15.#18        // java/io/PrintStream.println:(I)V
  #20 = Utf8               \"dupa\"
  #21 = String             #20            // \"dupa\"
  #22 = Utf8               (Ljava/lang/String;)V
  #23 = NameAndType        #16:#22        // println:(Ljava/lang/String;)V
  #24 = Methodref          #15.#23        // java/io/PrintStream.println:(Ljava/lang/String;)V
  #25 = Utf8               Code
  #26 = Utf8               SourceFile
{
  public static void main(java.lang.String[]);
    descriptor: ([Ljava/lang/String;)V
    flags: ACC_PUBLIC, ACC_STATIC
    Code:
      stack=2, locals=3, args_size=1
         0: bipush        5
         2: istore_0
         3: getstatic     #13                 // Field java/lang/System.out:Ljava/io/PrintStream;
         6: iload_0
         7: invokevirtual #19                 // Method java/io/PrintStream.println:(I)V
        10: ldc           #21                 // String \"dupa\"
        12: astore_1
        13: getstatic     #13                 // Field java/lang/System.out:Ljava/io/PrintStream;
        16: aload_1
        17: invokevirtual #24                 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
        20: return
}
複製程式碼

11. 執行 Enkel

下面我們來執行第一個 Enkel 程式碼:

 var five=5
 print five   
 var dupa="dupa"  
 print dupa  
複製程式碼

如果一切順利的話,會有如下輸出:

$java Compiler first.enk
$java first
5
"dupa"
複製程式碼

譯者注:上述成品程式碼託管在 Github

預告:下一節給 Enkel 增加一大坨特性,並定義好規範,方便後續迭代實現。

相關文章