Shading-jdbc原始碼分析-sql詞法解析

selrain_公眾號也叫selrain發表於2019-03-04

原文網址 : https://flycode.co/archives/284173

JDBC原始碼SQL

前言

前有芋艿大佬已經發過相關分析的文章，自己覺的原始碼總歸要看一下，然後看了就要記錄下來（記性很差...），所以就有了這篇文章（以後還要繼續更?），希望我們都能在看過文章後能夠有不一樣的收穫。

宣告：本文基於1.5.M1版本

解析：

首先我們來看下解析sql的過程中用到的類做一個解釋：

TokenType：衍生了多個子類，用來標記sql拆分過程中，每個被拆分的詞的型別（比如select屬於KeyWord,";"屬於Symbol）
Lexer:sql具體的解析類，通過呼叫nextToken()方法分析sql每個詞的型別；
Tokenizer:具體的標記類，標記具體的詞，配合Lexer的nextToken()方法使用
Token:標記後的結果，type:具體的詞型別、literals:具體的詞、endPosition:這個詞在sql中的最後位置(index)

@Test
    public void assertNextTokenForOrderBy() {
        Lexer lexer = new Lexer("SELECT * FROM ORDER  ORDER \t  BY XX DESC", dictionary);
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, DefaultKeyword.SELECT, "SELECT");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, Symbol.STAR, "*");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, DefaultKeyword.FROM, "FROM");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, Literals.IDENTIFIER, "ORDER");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, DefaultKeyword.ORDER, "ORDER");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, DefaultKeyword.BY, "BY");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, Literals.IDENTIFIER, "XX");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, DefaultKeyword.DESC, "DESC");
        //lexer.nextToken();
        LexerAssert.assertNextToken(lexer, Assist.END, "");
    }
複製程式碼

上面是專案中的一段測試用例，我們以這個用例來分析。

第一次呼叫nextToken()

/**
     * 分析下一個詞法標記.
     */
    public final void nextToken() {
        skipIgnoredToken();
        if (isVariableBegin()) {
            currentToken = new Tokenizer(input, dictionary, offset).scanVariable();
        } else if (isNCharBegin()) {
            currentToken = new Tokenizer(input, dictionary, ++offset).scanChars();
        } else if (isIdentifierBegin()) {
            currentToken = new Tokenizer(input, dictionary, offset).scanIdentifier();
        } else if (isHexDecimalBegin()) {
            currentToken = new Tokenizer(input, dictionary, offset).scanHexDecimal();
        } else if (isNumberBegin()) {
            currentToken = new Tokenizer(input, dictionary, offset).scanNumber();
        } else if (isSymbolBegin()) {
            currentToken = new Tokenizer(input, dictionary, offset).scanSymbol();
        } else if (isCharsBegin()) {
            currentToken = new Tokenizer(input, dictionary, offset).scanChars();
        } else if (isEnd()) {
            currentToken = new Token(Assist.END, "", offset);
        } else {
            currentToken = new Token(Assist.ERROR, "", offset);
        }
        offset = currentToken.getEndPosition();
    }
複製程式碼

先走skipIgnoredToken();

跳過空格
跳過以/*!開頭的(Mysql是這樣)的字元，對於不同資料庫。isHintBegin實現了不同的處理
跳過註釋

private void skipIgnoredToken() {
        offset = new Tokenizer(input, dictionary, offset).skipWhitespace();
        while (isHintBegin()) {
            offset = new Tokenizer(input, dictionary, offset).skipHint();
            offset = new Tokenizer(input, dictionary, offset).skipWhitespace();
        }
        while (isCommentBegin()) {
            offset = new Tokenizer(input, dictionary, offset).skipComment();
            offset = new Tokenizer(input, dictionary, offset).skipWhitespace();
        }
    }
複製程式碼

這裡我們以跳過空格為例來展開說明：

從傳入的offset標誌位開始，迴圈判斷sql語句中對應位置的字元是不是空格，直到不是空格就退出，返回最新位置的offset

     /**
     * 跳過空格. 
     * 
     * @return 跳過空格後的偏移量
     */
    public int skipWhitespace() {
        int length = 0;
        while (CharType.isWhitespace(charAt(offset + length))) {
            length++;
        }
        return offset + length;
    }
    
    private char charAt(final int index) {
        return index >= input.length() ? (char) CharType.EOI : input.charAt(index);
    }
    /**
     * 判斷是否為空格.
     * 
     * @param ch 待判斷的字元
     * @return 是否為空格
     */
    public static boolean isWhitespace(final char ch) {
        return ch <= 32 && EOI != ch || 160 == ch || ch >= 0x7F && ch <= 0xA0;
    }
複製程式碼

第二步從最新位置的offset開始，繼續判斷是否是變數，這裡以mysql為例，開始的單詞是‘SELECT’，所以進入第三步

  /**
    這是mysql的實現
  **/
@Override
    protected boolean isVariableBegin() {
        return '@' == getCurrentChar(0);
    }
複製程式碼

第三步判斷是否是NChar，false，進入第四步

private boolean isNCharBegin() {
        return isSupportNChars() && 'N' == getCurrentChar(0) && '\'' == getCurrentChar(1);
    }
複製程式碼

第四步判斷是否是識別符號 true

掃描識別符號
迴圈判斷當前的識別符號是不是字元，直到不是字元
擷取這個字串
判斷是否是雙關詞彙（group、order）
如果4符合，則進一步做特殊處理
構造Token返回

private boolean isIdentifierBegin() {
        return isIdentifierBegin(getCurrentChar(0));
    }
 private boolean isIdentifierBegin(final char ch) {
        return CharType.isAlphabet(ch) || '`' == ch || '_' == ch || '$' == ch;
    }
   /**
     * 判斷是否為字母.
     *
     * @param ch 待判斷的字元
     * @return 是否為字母
     */
    public static boolean isAlphabet(final char ch) {
        return ch >= 'A' && ch <= 'Z' || ch >= 'a' && ch <= 'z';
    }   
    
複製程式碼

   /**
     * 掃描識別符號.
     *
     * @return 識別符號標記
     */
    public Token scanIdentifier() {
        if ('`' == charAt(offset)) {
            int length = getLengthUntilTerminatedChar('`');
            return new Token(Literals.IDENTIFIER, input.substring(offset, offset + length), offset + length);
        }
        int length = 0;
        while (isIdentifierChar(charAt(offset + length))) {
            length++;
        }
        String literals = input.substring(offset, offset + length);
        if (isAmbiguousIdentifier(literals)) {
            return new Token(processAmbiguousIdentifier(offset + length, literals), literals, offset + length);
        }
        return new Token(dictionary.findTokenType(literals, Literals.IDENTIFIER), literals, offset + length);
    }
複製程式碼

返回最終的Token，賦值給currentToken，更新offset,此時的Token內容如下。第一個 “SELECT” 就解析出來了，後面的單詞繼續呼叫nextToken(),方法差不多，區別就是詞法的型別不一樣，走的判斷可能邏輯會不同，後面有興趣的可以自己跟著程式碼去看看。

最後

小尾巴走一波，歡迎關注我的公眾號，不定期分享程式設計、投資、生活方面的感悟:)

C++原始碼單詞掃描程式（詞法分析）
2020-10-16
C++原始碼詞法分析
PHP-7.1 原始碼學習：詞法分析
2019-02-16
PHP原始碼詞法分析
Shading – jdbc 原始碼分析(三) – sql 解析之 Select
2019-02-25
JDBC原始碼SQL
精讀《手寫 SQL 編譯器 - 詞法分析》
2018-07-09
SQL編譯詞法分析
精讀《手寫 SQL 編譯器 – 詞法分析》
2019-03-04
SQL編譯詞法分析
Go 語言的詞法分析和語法分析(2)—Import宣告的解析
2021-03-26
Go詞法分析語法分析Import
ReentrantLock解析及原始碼分析
2020-05-29
ReentrantLock原始碼
Sharding-JDBC 原始碼之 SQL 解析
2020-12-24
JDBC原始碼SQL
Android 原始碼分析之 EventBus 的原始碼解析
2018-08-06
Android原始碼
PostgreSQL 原始碼解讀（165）- 查詢#85(基礎知識-詞法分析)
2019-04-10
SQL原始碼詞法分析
MySQL核心原始碼解讀-SQL解析一
2018-12-12
MySql原始碼
[原始碼解析] GroupReduce，GroupCombine 和 Flink SQL group by
2020-06-16
原始碼SQL
Shading – jdbc 原始碼分析(四) – sql 路由
2019-03-02
JDBC原始碼SQL路由
中文分詞演算法工具hanlp原始碼解析
2019-03-13
中文分詞演算法HanLP原始碼
vue之詞法分析
2018-09-18
Vue詞法分析
詞法分析基礎
2024-04-07
詞法分析
詞法分析器
2021-05-08
詞法分析
React Native 0.55.4 Android 原始碼分析（Java層原始碼解析）
2018-09-12
React NativeAndroid原始碼Java
Spark SQL原始碼解析（四）Optimization和Physical Planning階段解析
2020-05-14
SparkSQL原始碼
原始碼解析丨一次慢SQL排查
2024-03-22
原始碼SQL
Mybatis原始碼解析之執行SQL語句
2022-12-13
MyBatis原始碼SQL
引言：分詞與語法解析
2018-10-29
分詞
React原始碼解析（1）：jsx語法是如何解析
2018-11-16
React原始碼JS
Shading – jdbc 原始碼分析(七) – sql 歸併
2019-02-21
JDBC原始碼SQL
Android原始碼分析（LayoutInflater.from(this).inflate(resId,null);原始碼解析）
2018-08-20
Android原始碼Null
Struts2 原始碼分析-----攔截器原始碼解析 --- ParametersInterceptor
2019-05-16
原始碼
友好 RxJava2.x 原始碼解析（三）zip 原始碼分析
2018-04-01
RxJava原始碼
什麼是詞法分析？請描述下js詞法分析的過程？
2024-11-26
詞法分析JS
詞法分析的前奏：字元分析（三）
2020-12-27
詞法分析字元
MySQL核心原始碼解讀-SQL解析之解析器淺析
2018-12-12
MySql原始碼
Lex詞法分析器
2019-05-10
詞法分析
Spring原始碼解析02：Spring IOC容器之XmlBeanFactory啟動流程分析和原始碼解析
2020-05-18
Spring原始碼XMLBean
openGauss資料庫原始碼解析——慢SQL檢測
2024-04-08
資料庫原始碼SQL
mybatis原始碼學習------resultMap和sql片段的解析
2020-11-02
MyBatis原始碼SQL
ThinkPHP6 原始碼分析之解析 Request
2019-07-02
PHP原始碼
Django（49）drf解析模組原始碼分析
2021-06-08
Django原始碼
RecyclerView 原始碼分析（一） —— 繪製流程解析
2021-01-17
View原始碼
Spring Security原始碼分析六：Spring Social社交登入原始碼解析
2019-02-27
Spring原始碼

Shading-jdbc原始碼分析-sql詞法解析

前言

相關的UML類圖

解析：

最後

相關文章