實現指令碼直譯器 - 詞法分析器

霖哲煌發表於2019-05-11

原文網址 : https://www.cnblogs.com/linzhehuang/p/10850279.html

本系列介紹

筆者最近正學習編譯原理，為了將理論變為實踐，所以創作了本系列來記錄學習過程中的思考與問題，注意文章中為了理論上描述方便增加了自創的術語。

本系列使用 Java 語言來實現一個指令碼直譯器，該指令碼語言命名為 Foo，其語法參考 JavaScript 語言，本系列程式碼地址 Github 。

詞法分析器介紹

詞法分析器的作用是將輸入的字串轉變為一個個的記號（token），記號是由記號名（name）和屬性值（value）構成的二元組（unit doublet）。

通過構造有限自動機（finite automata, FA）來識別字串是否為匹配某種規則（模式），編譯原理書中用正規式來描述這種規則，但其描述性不強且不能描述匹配對，故本文統一採用擴充套件的巴斯克正規化（ABNF），具體語法參考 RFC5234。

當有限自動機匹配或不匹配輸入串會執行不同的動作，具體實現時是匹配則返回對應的記號或者忽略該字串（例如註釋）否則報詞法錯誤，而有限自動機往往通過一段子程式（函式）來實現，將這些子程式組合起來就構成了詞法分析器（lexer）。

基本的準備

首先需要編寫一個記號類，其包含了記號名和屬性值，由於屬性值會被賦予不同的型別，所以使用 Object 型別，類中的常量來表示不同的記號名。

public class Token {
    public static final String TOKEN_EOF = "<eof>";
    // omit other token constants
    
    private private String name = TOKEN_EOF;
    private Object value = null;
    
    // getters and setters
}

接下來就可以來編寫 Lexer 詞法分析器類，先拋棄其他一些細節來分析下面定義的兩個私有屬性和兩個個私有方法的作用。其中屬性 currentChar 用來存放當前讀取的字元，而 nextChar 則是存放下一個字元。

方法 char readChar() 用來讀取下一個字元，當返回 -1 時表明讀取完畢，其過載方法 char readChar(int offset) 用來指定偏移多少位置後讀取字元，從 0 開始且 0 相當於呼叫了該方法的無參過載。

public class Lexer {
    private char currentChar = '\0';
    private char nextChar = '\0';
    
    private char readChar() {
        // ...
    }
    private char readChar(int offset) {
        // ...
    }
}

分析字串流程

接下來定義 Lexer 類的公有方法 Token nextToken() 來讀取一個記號，它分析字串的流程如下：

currentChar 存放當前需要匹配的字元，若讀取到檔案末尾則返回 EOF 記號。
根據匹配的單字元或雙字元，呼叫確定的子過程。
子過程匹配完畢，讀取下一個字元，並返回相對應的記號或者跳轉回步驟 1 。

注意若是程式碼較短，則這裡的子過程並不一定需要寫成函式。

匹配字首與匹配狀態

整個詞法分析器其實就是個不確定的有限自動機（NFA），開始時並不知道匹配何種記號，這裡稱之為 不確定匹配狀態 。通過單個或多個字元就能確定匹配何種記號並可以呼叫子過程，這時進入了 確定匹配狀態，而子過程就是個確定的有限自動機（DFA），稱這些字元或字元序列為 匹配字首。

記號可以分為以下幾類，這些記號根據匹配字首可以分為需要雙字元和只需單字元確定，雙字元確定的記號只有註釋和雙字元符號，其他都為單字元確定的，這也是為什麼前面需要宣告 nextChar 變數存放下一個字元。其中的識別符號包含了保留字，而符號分為運算子及界符。

註釋
空白符號
換行
識別符號
數字
字串
雙字元符號
單字元符號
終止記號

消除歧義

有些情況下，單字元確定的匹配會影響雙字元確定的匹配，為了消除這種歧義，就需要先進行雙字元匹配再進行單字元匹配。

例如單行註釋以雙字元 // 作為匹配字首，而單字元符號除號 / 會影響該雙字元確定的匹配，若是將單字元確定的匹配放前面，則會匹配成兩個除號記號。

匹配換行

在不同的系統中，檔案的換行有以下三種：

CRLF Windows
LF Linux
CR Unix

為了相容考慮，匹配換行具體程式碼如下所示：

if (currentChar == '\r' || currentChar == '\n') {
    newLine();
    continue;
}

private void newLine() {
    nextChar = readChar();
    if (nextChar == '\n') {
        currentChar = readChar();
    } else {
        currentChar = nextChar;
        nextChar = '\0';
    }
}

待續

編譯器前端之如何實現基於DFA的詞法分析器
2021-09-21
編譯前端詞法分析
用Python實現詞法分析器（Lexical Analyzer）
2019-12-17
Python詞法分析
【編譯原理】手工打造詞法分析器
2024-03-28
編譯原理詞法分析
詞法分析器
2021-05-08
詞法分析
Lex詞法分析器
2019-05-10
詞法分析
幾百行程式碼實現一個指令碼直譯器
2022-05-31
行程指令碼
Monkey 01 lexer 詞法分析器
2024-07-15
詞法分析
【水汐の編譯原理】詞法分析器課題1
2020-10-02
編譯原理詞法分析
編譯器實現之旅——第五章實現語法分析器前的準備
2021-02-19
編譯語法分析
Golang實現JAVA虛擬機器-指令集和直譯器
2024-01-11
GolangJava虛擬機
【編譯原理】手工打造語法分析器
2024-04-07
編譯原理語法分析
Hanlp自然語言處理工具之詞法分析器
2019-04-10
HanLP自然語言處理詞法分析
實現JavaScript語言直譯器（三）
2022-03-08
JavaScript
深入 WebAssembly 之直譯器實現篇
2021-09-26
Web
Skywalking-07：OAL原理——直譯器實現
2021-08-23
6502 指令譯碼器
2024-11-17
Java 實現《編譯原理》簡單詞法分析功能
2019-06-13
Java編譯原理詞法分析
[譯]用javascript實現一門程式語言-詞法分析
2019-02-27
JavaScript詞法分析
【JVM原始碼解析】模板直譯器解釋執行Java位元組碼指令（上）
2021-11-25
JVM原始碼Java
漢語言處理包HanLPv1.6.0釋出，感知機詞法分析器
2018-11-05
HanLP詞法分析
依存句法分析器的簡單實現
2018-10-17
然並卵：BF 科普 & BF 直譯器的 JS 實現
2018-08-12
JS
用java寫lisp 直譯器（10 實現物件和類）
2022-02-19
JavaLisp物件
用Java寫編譯器（1）- 詞法和語法分析
2020-09-02
Java編譯語法分析
Ipython 直譯器
2019-02-16
Python
精讀《手寫 SQL 編譯器 - 詞法分析》
2018-07-09
SQL編譯詞法分析
精讀《手寫 SQL 編譯器 – 詞法分析》
2019-03-04
SQL編譯詞法分析
29.FFmpeg+OpenGLES+OpenSLES播放器實現（三.FFmpeg配置和編譯指令碼）
2018-09-28
播放器編譯指令碼
windows打包指令碼出現 /bin/sh^M: 壞的直譯器: 沒有那個檔案或目錄錯誤
2021-01-16
Windows指令碼
從零實現的瀏覽器Web指令碼
2023-11-03
瀏覽器Web指令碼
直譯器模式（Interpreter）
2019-07-17
模式
python直譯器在哪
2021-09-11
Python
Locust 程式碼指令碼實現
2024-03-16
指令碼
一個分詞指令碼
2020-12-13
分詞指令碼
ETL指令碼的實現
2022-06-26
指令碼
Ohcount：原始碼行計數器和分析器
2018-06-11
原始碼
Java設計模式-17、直譯器模式-自定義語言的實現
2020-11-22
Java設計模式
SICP第四章閱讀心得 - Lisp直譯器的實現
2018-03-31
Lisp