Monkey 01 lexer 詞法分析器

qbning發表於2024-07-15

原文網址 : https://www.cnblogs.com/qbning/p/18304040

此處可以下載每章程式碼https://interpreterbook.com/waiig_code_1.7.zip

首先，詞法分析器是`輸入字串，輸出詞法單元token`.

要定義詞法分析器，首先要定義token

token具有兩個屬性，一個是token的型別，另一個是token的字面量或者說能列印出來的值

//token/token.go
package token
type TokenType string

type Token struct {
	Type    TokenType
	Literal string
}

const (
	ILLEGAL = "ILLEGAL"
	EOF     = "EOF"

	IDENT = "IDENT" //識別符號
	INT   = "INT"   //目前僅處理整型

	//運算子
	ASSIGN   = "="
	PLUS     = "+"
	MINUS    = "-"
	BANG     = "!"
	ASTERISK = "*"
	SLASH    = "/"

	LT = "<"
	GT = ">"

	EQ     = "==" //多字元的運算子
	NOT_EQ = "!="

	//分隔符
	COMMA     = ","
	SEMICOLON = ";"

	LPAREN = "("
	RPAREN = ")"
	LBRACE = "{"
	RBRACE = "}"

	//關鍵字
	FUNCTION = "FUNCTION"
	LET      = "LET"
	TRUE     = "TRUE"
	FALSE    = "FALSE"
	IF       = "IF"
	ELSE     = "ELSE"
	RETURN   = "RETURN"
)

對於一個詞法分析器，需要知道字串、當前位置、當前字元，也可以加一個下個字元來方便操作

//lexer/lexer.go
package lexer

type Lexer struct {
	input        string
	position     int  // 輸入字串的當前位置
	readPosition int  // 讀取位置，即當前字元的下一個位置
	ch           byte // 當前字元，要想支援UTF8等需要換成rune，同時修改獲取下一個字元的函式
}

然後增加一個讀取一個字元和檢視下一個字元的函式

//lexer/lexer.go
func (l *Lexer) readChar() { // 讀取下一個字元，移動指標
	if l.readPosition >= len(l.input) {
		l.ch = 0
	} else {
		l.ch = l.input[l.readPosition]
	}
	l.position = l.readPosition
	l.readPosition++
}
func (l *Lexer) peekChar() byte { //檢視下一個字元,不移動指標，用來讀取兩個字元的token
	if l.readPosition >= len(l.input) {
		return 0
	} else {
		return l.input[l.readPosition]
	}
}

詞法分析器初始化後就可以讀取一個字元

//lexer/lexer.go
func New(input string) *Lexer { // 初始化
	l := &Lexer{input: input}
	l.readChar()
	return l
}

然後接下來的核心就是不斷讀取字元，判斷是哪個識別符號，然後獲得詞法單元token了

func newToken(tokenType token.TokenType, ch byte) token.Token {//獲得一個新的詞法單元token
	return token.Token{Type: tokenType, Literal: string(ch)}
}

空格、換行等對我們來說應該跳過，遇到就應該果斷讀取下一個字元

//lexer/lexer.go
func (l *Lexer) skipWhitespace() { //跳過空格
	for l.ch == ' ' || l.ch == '\t' || l.ch == '\n' || l.ch == '\r' {
		l.readChar()
	}
}

對於每個詞法單元，獲取它的字面量

//lexer/lexer.go
func (l *Lexer) readIdentifier() string { //讀取一個字串作為識別符號的字面量
	position := l.position
	for isLetter(l.ch) {
		l.readChar()
	}
	return l.input[position:l.position]
}

語句中的詞法單元無外乎是字母、數字和符號。

如果遇到字母，得到的要麼是關鍵字，要麼就是識別符號(變數名)，當然下劃線也是合法的識別符號的一部分

//lexer/lexer.go
func isLetter(ch byte) bool {
	return 'a' <= ch && ch <= 'z' || 'A' <= ch && ch <= 'Z' || ch == '_'
}

需要判斷是否是某個識別符號，直接在token.go裡完成這個判斷

//token/token.go
var keywords = map[string]TokenType{
	"fn":     FUNCTION,
	"let":    LET,
	"true":   TRUE,
	"false":  FALSE,
	"if":     IF,
	"else":   ELSE,
	"return": RETURN,
}

func LookupIdent(ident string) TokenType { //檢查是否為關鍵字
	if tok, ok := keywords[ident]; ok { //在keywords裡找indent的值賦給tok，如果不行ok為false
		return tok
	}
	return IDENT
}

然後把獲取到的型別，字面量賦給新的token返回即可。

如果遇到數字就讀取數字，然後型別設定為整型，字面量讀進去返回。

//lexer/lexer.go
func isDigit(ch byte) bool {
	return '0' <= ch && ch <= '9'
}
func (l *Lexer) readNumber() string { 
	position := l.position
	for isDigit(l.ch) {
		l.readChar()
	}
	return l.input[position:l.position]
}

剩下就是各種符號了，有單字元符號和雙字元符號之分

綜上，核心函式就是這樣了

//lexer/lexer.go
func (l *Lexer) NextToken() token.Token { // 返回下一個token
	var tok token.Token
	l.skipWhitespace() //跳過空格

	switch l.ch {
	case '=':
		if l.peekChar() == '=' { //判斷是否是==
			ch := l.ch //避免丟失當前變數
			l.readChar()
			literal := string(ch) + string(l.ch)
			tok = token.Token{Type: token.EQ, Literal: literal}
		} else {
			tok = newToken(token.ASSIGN, l.ch)
		}
	case '+':
		tok = newToken(token.PLUS, l.ch)
	case '-':
		tok = newToken(token.MINUS, l.ch)
	case '!':
		if l.peekChar() == '=' { //判斷是否是!=
			ch := l.ch
			l.readChar()
			literal := string(ch) + string(l.ch)
			tok = token.Token{Type: token.NOT_EQ, Literal: literal}
		} else {
			tok = newToken(token.BANG, l.ch)
		}
	case '*':
		tok = newToken(token.ASTERISK, l.ch)
	case '/':
		tok = newToken(token.SLASH, l.ch)
	case ';':
		tok = newToken(token.SEMICOLON, l.ch)
	case '(':
		tok = newToken(token.LPAREN, l.ch)
	case ')':
		tok = newToken(token.RPAREN, l.ch)
	case ',':
		tok = newToken(token.COMMA, l.ch)
	case '{':
		tok = newToken(token.LBRACE, l.ch)
	case '}':
		tok = newToken(token.RBRACE, l.ch)
	case '<':
		tok = newToken(token.LT, l.ch)
	case '>':
		tok = newToken(token.GT, l.ch)
	case 0:
		tok.Literal = ""
		tok.Type = token.EOF
	default:
		if isLetter(l.ch) {
			tok.Literal = l.readIdentifier()          //字面量
			tok.Type = token.LookupIdent(tok.Literal) //是否關鍵字
			return tok                                //呼叫readIdentifier已經讀完了這個字串，無需繼續執行readchar了
		} else if isDigit(l.ch) {
			tok.Type = token.INT
			tok.Literal = l.readNumber()
			return tok
		} else {
			tok = newToken(token.ILLEGAL, l.ch)        //非法字元
		}
	}

	l.readChar()
	return tok
}

然後可以寫測試程式碼或者寫一個類似python控制檯那樣的東西來驗證我們的詞法分析repl(Read-Eval-Print Loop (REPL) )

//repl/repl.go
package repl

import (
	"bufio"
	"fmt"
	"io"
	"monkey/lexer"
	"monkey/token"
)

const PROMPT = ">> "

func Start(in io.Reader, out io.Writer) {
	scanner := bufio.NewScanner(in)

	for { //無限迴圈
		fmt.Fprint(out, PROMPT)
		scanned := scanner.Scan()
		if !scanned { //讀取失敗
			return
		}

		line := scanner.Text() // 獲取新的一行的文字
		l := lexer.New(line)   // 新的詞法解析器

		for tok := l.NextToken(); tok.Type != token.EOF; tok = l.NextToken() {
			fmt.Fprintf(out, "%+v\n", tok) //+列印結構體的欄位和值
		}
	}
}

然後寫一個main.go裡就能啟動這個repl了

//main.go
package main

import (
	"fmt"
	"monkey/repl"
	"os"
	"os/user"
)

func main() {
	user, err := user.Current()
	if err != nil {
		panic(err)
	}
	fmt.Printf("Hello %s! \n歡迎使用Monkey直譯器語言!\n",
		user.Username)
	fmt.Printf("測試REPL\n")
	repl.Start(os.Stdin, os.Stdout)
}

效果如下

Monkey 01 lexer 詞法分析器

詞法分析器
2021-05-08
詞法分析
Lex詞法分析器
2019-05-10
詞法分析
【編譯原理】手工打造詞法分析器
2024-03-28
編譯原理詞法分析
用Python實現詞法分析器（Lexical Analyzer）
2019-12-17
Python詞法分析
實現指令碼直譯器 - 詞法分析器
2019-05-11
指令碼詞法分析
Hanlp自然語言處理工具之詞法分析器
2019-04-10
HanLP自然語言處理詞法分析
【水汐の編譯原理】詞法分析器課題1
2020-10-02
編譯原理詞法分析
編譯器前端之如何實現基於DFA的詞法分析器
2021-09-21
編譯前端詞法分析
漢語言處理包HanLPv1.6.0釋出，感知機詞法分析器
2018-11-05
HanLP詞法分析
this詞法
2018-11-14
【編譯原理】手工打造語法分析器
2024-04-07
編譯原理語法分析
Monkey命令
2020-12-24
monkey操作命令
2020-12-24
Monkey二次開發 -- Monkey jar包構建
2023-03-17
JAR
vue之詞法分析
2018-09-18
Vue詞法分析
詞法分析基礎
2024-04-07
詞法分析
javascript 詞法作用域
2019-02-02
JavaScript
什麼是詞法分析？請描述下js詞法分析的過程？
2024-11-26
詞法分析JS
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
Elasticsearch Analysis 分析器
2021-09-09
Elasticsearch
C++原始碼單詞掃描程式（詞法分析）
2020-10-16
C++原始碼詞法分析
猴爪 The Monkey's Paw
2019-02-25
monkey測試介紹
2018-09-24
Monkey框架使用指南
2021-09-09
框架
01-Verilog基本語法元素
2021-04-28
引言：分詞與語法解析
2018-10-29
分詞
js 的詞法作用域和 this
2020-10-11
JS
javascript 詞法結構小結
2018-12-27
JavaScript
淺談JS詞法環境
2023-02-09
JS
CodeQL學習筆記(1)-QL語法（邏輯連線詞、量詞、聚合詞、謂詞和類）
2024-10-25
筆記
Monkey 測試方法和要求
2020-09-20
2020-12-23Monkey使用
2020-12-23
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
Go 語言的詞法分析和語法分析(1)
2021-03-23
Go詞法分析語法分析
1.分詞與語法解析
2018-10-29
分詞
深入JavaScript系列（一）：詞法環境
2019-03-03
JavaScript
[JS]閉包和詞法環境
2021-07-27
JS
詞法分析的前奏：字元分析（三）
2020-12-27
詞法分析字元

Monkey 01 lexer 詞法分析器

相關文章